3 Teori för symmetriska system

55 

Teori för symmetriska system 

3 Teori för symmetriska system 

Ordning är när man genast vet var man absolut inte behöver leta. 

3.1 Kodning 

Informationsteorin infördes av Claude Shannon på 40-talets första hälft för att kunna resonera 

kvantitativt om kodning i allmänhet och kryptologi i synnerhet. 

Kryptering är en typ av kodning som används för att åstadkomma pålitlig kommunikation. 

Andra typer av kodning finns också. 

I informationsutbytessammanhang, både vid kommunikation och vid lagring, förekommer 

tre enheter: källan, kanalen och mottagaren. 

K 

källan 

s 

e 

c 

kanalen 

d 

c 

d 

e 

d 

s 

M 

mottagaren 

Figur 3.1. Kodningar 

Mellan dessa införs kodare och avkodare. Kodaren har tre funktioner: Källkodning (s), 

kryptering (e), kanalkodning (c). Avkodaren (decode, d-...) inverterar dessa operationer. 

3.1.1 Källkodning 

Tanken är att eliminera redundans i meddelandet för att därmed om möjligt reducera det antal 

bitar som behöver sändas eller lagras. Två delmoment ingår. 

i. Källkompression, där kodningen är sådan att viss information förstörs, men att det 

mottagna ändå är acceptabelt för mottagaren. (Jfr 'hashing'.) Omnämnda kryptografiska 'hashmetoder 

är MD5 ('message digest') och SHA ('secure hash algorithm'). 

ii. Källkompaktering, som syftar till att ta bort redundans ur källans meddelande, men 

att fortfarande möjliggöra exakt återskapande på destinationssidan eller vid återutvinnande. 

Kända sådana metoder är Huffmankodning och LZ (Ziv-Lempel)-kodning. 

3.1.2 Kryptering 

Huvudsyftena är att åstadkomma konfidentialitet, integritet eller autenticitet. Två typer av 

kryptering finns. Båda kan vara block- eller flödesorienterade. 

i. Symmetriska chiffer (Lika gamla som "världens äldsta yrken".). Moderna metoder är 

DES, IDEA, Blowfish, m fl. En ny standard AES är under utarbetande. 

ii. Asymmetriska chiffer (Från 1976.): RSA, Blum-Goldwasser, ElGamal, m fl. De tre 

nämnda är i tur och ordning determinsistisk, probabilistisk respektive indeterministisk, där 

skillnaden mellan de båda sistnämnda ligger i kontrollen över vissa sannolikheter. 

3.1.3 Kanalkodning 

i. Översättningskoder syftar till att abstrahera kanalens fysiska begränsningar, tex att 

vid Morsekodning ge källan en möjlighet att vara oberoende av regeln att inga 'spaces' tillåts 

följa på varandra. Vi erhåller därmed en störd oinskränkt ('unconstrained') kanal. Området är 

relativt oberoende chiffersystem, men presenteras ändå kortfattat i slutet av kapitlet.

56 


ii. Transmissionskoder "förvandlar" kanalen till en störningsfri dito genom att införa 

redundans (checksumma, paritetsbitar) via felupptäckande eller felkorrigerande koder. Vissa 

sådana metoder kan också användas för att skapa chiffer. En MAC är en privatnyckelbaserad 

variant av en transmissionskod. De nyckelfria metoderna är helt försvarslösa mot avsiktliga 

manipulationer. MAC å andra sidan är konstruerade för att mota 'active wiretapping'. 

3.1.4 Kommentar 

Enligt klassisk teori ska de tre typerna av kodning alltid ske i denna ordning. Det vore ju 

mot all intuition att t ex tillföra redundans, som underlättar arbetet för en forcör, innan 

kryptering sker. Däremot kan det ju aldrig vara fel att, som förekommer i vissa protokoll, 

kryptera även checksumman, då dessförinnan klartexten har krypterats oberoende av detta. 

Redundans kan också verka i motsatt riktning. 

Nedan kommer några definitioner och satser som behövs för att kunna beskriva kvantitet i 

samband med kodning; information, entropi, ekvivokation och kanalkapacitet. 

Huvudsyftet är att härleda eller uppskatta ett mått 

f = H(K | C) N 

som anger kryptoanalytikerns ovisshet om nyckeln K givet ett chiffer C av längden N. 

Intuitivt gäller att då N är så stort att f ≈ 0, så låter sig K i teorin bestämmas entydigt. Det 

förutsätter ofta att nyckeln återanvänds på flera block. 

3.2 Sannolikheter och entropi 

Betrakta stokastiska variabler X som antar värden i {x 1 , ..., x L } med sannolikheter p i = 

p(x i ). Ibland används beteckningen 

p = (p 1 , ... p L ). 

Utfallsrummet kan t ex antas beskriva källans generering av tex klartextmeddelanden. Med 1- 

gram över A = {a, ..., z} blir L = 26 och med digram över A blir L = 26 2 . 

I stället för att utgå från {a, ..., z} kan man ibland välja att låta källans alfabet bestå 

av ord i ett lexikon. Orden blir då symboler och L i storleksordningen 10000 - 100000 för 

naturliga språk. 

En probabilistisk synvinkel på språk intas i detta sammanhang, eftersom normalt fullständig 

kunskap saknas om språkets meningar. Deterministiska kontextfria grammatikor som bl a 

används för att beskriva eller definiera programspråk behöver kompletteras. 

Den betingade sannolikheten för x givet y skrivs p y (x) eller p(x | y) och det gäller för den 

simultana sannolikheten att 

p(x, y) = p(x | y) p(y). 

Matrisen P = {p(y i | x j )} brukar kallas sannolikhetsövergångsmatrisen och kan tas som 

definition av en kanal och denna eller p(x, y) som karakteristik av en källa då digram 

betraktas. 

Ett uttryck som Σ i∈[1,n] a i b i förekommer ofta. Genom att införa vektorerna a = (a 1 , ..., a n ) 

och b = (b 1 , ..., b n ) och en skalärprodukt < | > kan formler skrivas kompaktare: 

= Σ i∈[1,n] a i b i . 

Beteckningen kan generaliseras till det fall där funktioner f tillämpas på vektorkomponenter 

tex 

= Σ i∈[1,n] a i f(b i ).

57 


3.2.1 Definitioner och samband 

i. Utfall. Resultatet av ett slumpmässigt beteende kallas ett utfall eller elementarhändelse. 

ii. Utfallsrum. Mängden Ω av alla möjliga utfall kallas ett utfallsrum. 

iii. Händelse. En delmängd ω av utfallsrummet kallas en händelse. Om antalet utfall är 

ändligt eller uppräkneligt kallas Ω diskret. 

iv. Sannolikheter. Till varje händelse associeras ett tal p(ω); sannolikheten för ω. 

Denna uppfyller 

0 ≤ p(ω) ≤ 1, 

Σ ω∈Ω p(ω) = 1. 

Om ω 1 och ω 2 är disjunkta så gäller dessutom att 

p(ω 1 ∪ ω 2 ) = p(ω 1 ) + p(ω 2 ). 

Paret kallas ett sannolikhetsrum. 

Allmänt gäller att 

och att 

p(ω 1 ∪ ω 2 ) = p(ω 1 ) + p(ω 2 ) - p(ω 1 ∩ ω 2 ) 

p(Φ) = 0, 

där Φ är tomma mängden. 

Om det gäller att 

p(ω 1 ∩ ω 2 ) ≡ ∆ p(ω 1 , ω 2 ) = p(ω 1 ) p(ω 2 ), 

så kallas ω 1 och ω 2 oberoende. 

Om det finns n olika händelser (eller utfall) ω i och det gäller att p(ω i ) = 1 / n, för alla i så 

föreligger en likformig sannolikhetsfördelning. 

v. Möjligheter. Från kombinatoriken anförs följande. Antag givet en mängd med N 

element. Ur denna mängd plockas n element; n ≤ N. 

På hur många sätt kan detta ske ? Fyra fall kan särskiljas: 

ANTAL MÖJLIGHETER Dragning med återläggning Dragning utan återläggning 

Med hänsyn till ordning N n N(N-1)(N-2)...(N-n+1) 

Utan hänsyn till ordning (( N+n-1, n )) ((N, n)) 

Tabell 3.1. Antal urval 

Symbolen ((n, m)) eller C(n, m) betyder n! / (m!(n-m)!) och n! = n(n-1)(n-2) ... 1.

58 


Om en "urna" innehåller v stycken "0-or" och s stycken "1-or" blir sannolikheten för att man 

vid n dragningar med återläggning får k stycken "0-or" lika med 

((n, k)) p k q n-k , 

där p = v/(v+s) och q = s/(v+s). 

I fallet utan återläggning erhålls sannolikheten 

((v, k)) ((s, n-k)) / ((v+s, n)). 

vi. Betingad sannolikhet. Uttrycket 

p (ω 2 | ω 1 ) ≡ ∆ p ω1 (ω 2 ) ≡ ∆ p(ω 1 ∩ ω 2 ) / p(ω 1 ) ≡ ∆ p(ω 1 , ω 2 ) / p(ω 1 ) 

kallas den betingade sannolikheten för ω 2 om ω 1 inträffat. 

Om händelserna ω 1 , ..., ω n är parvis oförenliga, har positiva sannolikheter och 

tillsammmans uppfyller hela Ω, så gäller för varje händelse ω att 

Satsen om total sannolikhet p(ω) = Σ i p(ω i ) p(ω | ω i ) 

Bayes sats p(ω k | ω) = p(ω k ) p(ω | ω k ) / ( Σ i p(ω i ) p(ω | ω i ) ). 

Bayes sats används ofta i specialfallet 

p(x | y) = p(x) * p(y | x) / p(y) 

under förutsättning att p(y) > 0. 

Denna senare variant är enkel att bevisa med hjälp av definitionen av betingad sannolikhet: 

p(x | y) p(y) = p(x, y) = p(y, x) = p(y | x) p(x). 

vii. Stokastisk variabel. En stokastisk variabel (sv) X kan ses som en beteckning av 

en händelse och är formellt en funktion från utfallsrummet till de reella (kontinuerlig sv) 

eller naturliga talen (diskret sv), d v s 

X: ω → X(ω). 

För diskret sv definieras en sannolikhetsfördelning på följande vis; 

p X (i) = p(X=i) = Σ {ω ∈Ω; X(ω) = i} p(ω) 

och en distribution 

F X (i) = p(X ≤ i). 

En distribution är monotont icke-avtagande, ligger i intervallet [0, 1], är (höger)kontinuerlig 

och har (gräns)värdena F(0) = 0 och F(∞) = 1. 

Nedanstående tabell visar några fördelningar. Om p är liten kan en binomialfördelning 

approximeras med en Poissondito som ofta är enklare att hanterna formelmässigt.

59 


En sv med värden i [0, n-1] kallas 

Om 

Likformigt fördelad p X (i) = 1/n 

Binomialfördelad p X (i) = ((n, i)) p i (1-p) n-i , 0 ≤ p ≤ 1 

Poissonfördelad p X (i) =( λ i /i!)e -λ, λ ≥ 0 

Tabell 3.2. Några fördelningar 

viii. Väntevärde. Givet p X (i) definieras väntevärdet E[X] = Σ i i p X (i). Om f är en 

funktion vars definitionsområde innehåller X:s värdeförråd definieras väntevärdet för f: 

E[f] = Σ i f(i) p X (i). 

ix. Moment. Det k:te momentet är E[X k ] = Σ i i k p X (i). (Om k = 1 erhålls väntevärdet.) 

x. Variansen är Var{X} = E[X 2 ] - (E[X]) 2 . 

xi. Standardavvikelsen är s(X) = √Var {X}. 

Om det är uppenbart vilken stokastisk variabel som avses utelämnas ibland/ofta subindex X 

i beteckningen p X . Det vållar egentligen bara problem då argumentet inte upplyser om X. 

3.2.2 Tillämpningar på kryptosystem 

i. Inducerade sannolikheter. Beteckna sannolikheten för en klartext x med p(x) och 

sannolikheten för en vald nyckel med p(k). Ofta förutsätts att nycklarna är lika sannolika. 

Dessa sannolikheter inducerar följande relevanta sannolikheter. 

Låt C(K) beteckna mängden av möjliga chiffer för nyckeln k, d v s 

C(K) = {e k (x) : x ∈ M }. 

1. För varje c ∈ C gäller då att 

p(c) = Σ {k : c ∈ C(K)} p(k) p (d k (c)). 

2. Vidare kan den betingade sannolikheten för ett kryptogram c givet meddelandet x beräknas 

enligt 

p(c | x) = Σ {k : x = dk(c)} p(k). 

3. Nu är det enkelt att via Bayes sats bestämma p(x | c), d v s sannolikheten för klartexten x 

givet chiffret c: 

p(x | c) = (p(x) * Σ {k : x = dk(c)} p(k)) / Σ {k : c ∈ C(K)} p(k) p (d k (c)). 

4. Simultansannolikheten p(x, k) = p(x) * p(k) eftersom x och k väljs oberoende av varandra. 

5. Sannolikheten p(x, c) erhålls som p(x, c) = Σ {k: ek(x) = c} p(x) * p(k). 

6. Sannolikheten p(c, k) erhålls som p(c, k) = Σ {x: ek(x) = c} p(x) * p(k). 

7. Sannolikheten p(k | c) erhålls som p(k | c) = p(c, k) / p(c).

60 


ii. Perfekt sekretess. Ett chiffer ger perfekt sekretess om för alla x och c det gäller att 

p(x | c) = p(x) 

Kännedom om ett chiffer tillför alltså ingen kunskap om klartexten. Ett chiffer med perfekt 

sekretess är oforcerbart, men endast 'one time pad' erbjuder perfekt sekretess (vad man vet). 

Genom att använda Bayes sats ser vi att detta är ekvivalent med att (för alla c och x) 

p(c | x) = p(c). 

Tänk igenom vad det betyder om p(x | c ) < p(x) eller om p(x | c) > p(x) ! 

iii. Några satser 

1. Om S ger perfekt sekretess så gäller att varje x kan avbildas på varje c. 

Betrakta nämligen ett x och ett c. Eftersom S är perfekt gäller att p(x | c) = p(x). 

Men p(x) > 0 för alla x. Det betyder att p(x | c) > 0 vilket betyder att givet ett c så finns det 

minst ett x som avbildas på c. 

2. Om S ger perfekt sekretess så gäller att | K | ≥ | C | ≥ | M |. 

Högra olikheten är uppenbar eftersom varje chiffer (perfekt eller ej) är en injektiv avbildning. 

Vidare: För varje givet x kan enligt ovan varje c erhållas och för varje c måste en separat 

avbildning finnas då x är givet. Alltså följer påståendet. 

3. (Shannon, 1949) Ett kryptosystem S med lika många nycklar, klartexter och chiffer ger 

perfekt sekretess precis då alla nycklar är lika sannolika och det för varje klartext x och varje 

chiffer c finns exakt en nyckel k så att c = e k (x). 

Bayes sats kan i analogi med följande användas för att visa detta (Gör det!). 

iv. Skiftchiffer. Ett skiftchiffer med lika sannolika nycklar ger perfekt sekretess med 

avseende på enstaka klartextsymboler ! 

Om M = C = K = Z 26 och y = e K (x) = x + K mod 26 och varje nyckelval har sannolikheten 

1/26 så gäller 

p(y) = Σ K∈Z26 p(K) p(d K (y)) = Σ K∈Z26 1/26 p(y - K) = 1/26 Σ K∈Z26 p(y - K). 

För varje y så innebär y → y - K mod 26 en permutation över Z 26 varför Σ K∈Z26 p(y - K) 

= 1 och alltså, för alla y, 

p(y) = 1/26. 

Vidare gäller att 

p(y | x) = p(y - x mod 26) = 1/26, 

för alla x och y eftersom K bestäms entydigt av givna x och y via K = y - x mod 26. 

Till sist beräknas p(x | y) med hjälp av Bayes sats: 

p(x | y) = p(x) p(y | x) / p(y) = 26 p(x) / 26 = p(x), 

vilket enligt definitionen betyder perfekt sekretess.

61 


Observera att resonemanget kräver att man använder en ny slumpmässig nyckel för varje x 

och att vi därmed har visat att OTP ger perfekt sekretess. 

Samma resonemang kan användas för affina chiffer. 

3.2.3. Entropi och ekvivokation 

Här införs några viktiga mått: entropi H, självinformation I och ekvivokation H(X | Y) för 

att bl a kunna analysera fall då en (1) nyckel används för fler chiffreringar. 

Nedanstående definitioner av I och H vacklar lite: Somliga föredrar att se dessa som 

funktioner av stokastiska variabler, medan puristerna framhåller att de egentligen är 

funktioner av sannolikhetsfördelningar. Bevisen för satserna är ganska korta. 

Stokastiska variabler X med värden i {x 1 , ..., x n } och sannolikhetsfördelninger 

används. 

p = (p(x 1 ), ..., p(x n )) = (p 1 , ..., p n ) 

i. Självinformation: 

I(X = x) = - log p(x). 

Logaritmen som oftast används är 2-logaritmen. 

Detta mått anger det antal bitar som behövs för att koda x med en optimal kod; d v s en kod 

som utnyttjar så få bitar som möjligt. 

Om det finns n = 2 k lika sannolika utfall blir självinformationen för vart och ett av dessa 

I = log n = k. 

Heuristisk motivering: 

1. Sannolikheterna ingår i definitionen därför att ett påstående om en händelse som inträffar 

med fullständig visshet (p = 1) (solen går upp) inte ger någon information alls, medan ett 

påstående om en osannolik (p ≈ 0) händelse (jorden krockar med Mars) ger mycken 

visdom/information om händelsen verkligen inträffar/observeras. 

2. Logaritmen har sin plats därför att två samtidigt inträffade händelser a och b med 

simultansannolikheten p(a, b) = p(a) p(b), d v s oberoende händelser, bör ge en adderad 

information; 

log (p(a) p(b)) = log p(a) + log p(b). 

3. Logaritmfunktionen är förutom additiv även kontinuerlig (över de reella talen). 

4. Minustecknet ger ett icke-negativt informationsmått. 

5. Logaritmbasen väljs som 2 eftersom detta ger "antalet bitar" ('bits'). Naturliga logaritmen 

(ln) ger sk 'nats'. 

ii. Ömsesidig information: 

I(X = x, Y = y) = - log ( p(x | y) / p(x) ). 

Detta är ett mått på den information som erhålls för händelsen X = x om händelsen Y = y 

inträffar/observeras (eller omvänt; I är alltså symmetrisk i X och Y).

62 


iii. Entropi: Medelvärdet av självinformationen blir: 

H(X) = H(p) = Σ i p i I(X = x i ) = - Σ i p i log p i = - 

Summan tas över alla p i ≠ 0. Alternativt tolkas 0 log 0 som lim x→0 x log x = 0. 

Detta är ett mått på à priori ovissheten i X eller den maximala informationen som en 

observation kan ge om just den aktuella variabeln. 

Heuristisk motivering: 

Ett mått som är kontinuerligt i p i , ökar med L om alla p i = 1/L och som utgör en viktad 

summa av måtten då valen bryts ned i delval, kan visas erhållas endast med denna funktion 

(en konstant undantagen, vilken svarar mot valet av logaritmbas). 

Exempel. 

1. Om L = 2 och p 1 = p 2 = 1/2 så är H(X) = 1/2 log 2 + 1/2 log 2 = 1. 

För två lika sannolika möjligheter behövs en bit för att avgöra vilken det rör sig om. 

2. För godtyckligt L och med p i = 1/L erhålls H(X) = L * 1/L log L = log L. 

Observera specialfallet L = 2 n som alltså ger n bitar. 

3. Om t ex p 1 = 1 och alla andra p i = 0 erhålls H(X) = 1 log 1 + (L- 1) * 0 * log 0 = 0. 

Utfallet är känt; inga bitar behövs för att specificera det. 

4. Om p 1 = 1/2 och p 2 = p 3 = 1/4 erhålls H(X) = 1.5. 

Ett mellanting. 

Alltså: Ju "jämnare" fördelning desto större entropi! Då massan är centrerad i en punkt är 

entropin 0. Det var ingen slump att Shannon valde namnet entropi. 

Termodynamikens andra huvudsats: 

I ett slutet system avtar inte entropin. 

Det är tur för datortekniker att 

öppna system existerar! 

iv. Medelvärdet av den ömsesidiga informationen: 

I(X, Y) = - Σ x Σ y p(x, y) log (p(x | y)/p(x)) = - Σ y p(y) Σ x p(x | y) log (p(x | y)/p(x)). 

Eftersom I(X = x, Y = y) är en funktion av två variabler så summeras över båda för att bilda 

medelvärdet. Notera att I(X, Y) = I(Y, X). 

v. Entropi (fler variabler): 

H(X, ...,Y) = - Σ... Σ p(x,...,y) log p(x,...,y) = H(X...Y) = H(X), där X = (X,...,Y). 

Detta är användbart i kryptologin då N-gram studeras. 

Vid ökande N växer antalet termer i summan exponentiellt.

63 


vi. IT-olikheten och Jensens olikhet: 

Dessa två resultat kommer ofta till användning vid bevis för utsagor om H. 

IT-olikheten (IT = informationsteori, ett begrepp cirka 50 år äldre än informationsteknologi) 

log x ≤ (x - 1) log e 

(log x är 2-logaritmen) 

eller 

ln x ≤ x - 1 

(ln x är den naturliga logaritmen) 

Bevisas mha differentialkalkylens medelvärdessats 

f(x) = f (a) + (x - a) f' (a + θ(x - a)), 0 < θ < 1: 

ln x = ln x - ln 1 = (x - 1) / (1 + θ(x - 1)) ≤ x - 1, 

där uttrycket 1 / (1 + θ (x - 1)) är logaritmens derivata i en inre punkt. 

Rita figur! 

Nyttig är ibland är den lite allmännare 

Jensens olikhet: 

Om f är kontinuerlig och strikt konkav på intervallet I och a i ≥ 0 och Σ i a i = 1, så gäller att 

Σ i a i f(x i ) ≤ f (Σ i a i x i ), 

för alla x i ∈ I och med likhet precis då x 1 = ... = x n . 

En funktion f är strikt konkav om 

2 f ((x + y) / 2) > f(x) + f(y) 

för alla x och y på intervallet I. (Konkavitet, utan strikt, definieras med ≥ i st f >.) 

För en funktion vars andraderivata existerar kan olikheten f'' < 0 tas som karakteristik på 

strikt konkavitet. 

Logaritmfunktionen är strikt konkav på alla intervall där den existerar. 

vii. Sats. 

0 ≤ H(X) ≤ log L. -- L är utfallsrummets kardinalitet 

Maximum antas då p i = 1/L, för alla i och minimum då ett p k = 1 och de andra alltså 0. 

Bevis(skiss). 

H(X) - log L = - Σ i p i log p i - log L = Σ i p i (log (1/p i ) - log L) = Σ i p i log (1/(Lp i )) ≤ 

{it-olikheten} ≤ Σ i p i (1/(Lp i ) - 1) log e = 0. 

viii. Betingad entropi: 

H(X | Y = y) = H Y=y (X) = - Σ x p(x | y) log p(x | y). 

Detta är ett mått på osäkerheten i X för ett visst givet Y = y.

64 


ix. 

Ekvivokation. 

H(X | Y) = H Y (X) = 

Σ y p(y) H(X | Y = y) = - Σ y p(y) Σ x p(x | y) log p(x | y) = - Σ x,y p(x, y) log p(x | y) 

Detta är medelvärdet av den betingade entropin över alla Y eller osäkerheten om X givet Y. 

Den kryptologiska relevansen framgår genom att välja X = nycklar och Y = kryptogram: 

Vilken är forcörens ovisshet om nyckeln då chiffertexten observeras? 

Exempel. 

Låt L = 4 och p(x) = 1/4 för alla x. Då är H(X) = 2. Antag också att p(y) = 1/4 för alla y. 

Om nu varje y begränsar möjligheterna för x så att 

y 1 bara medger x 1 eller x 2 (lika sannolika) 




så erhålls H(X | Y) = 4 [ (1/4) 2 { (1/2) log 2 } ] = 1. Tolka! 

x. Sats. 

Bevis(skiss). 

I(X, Y) = H(X) + H(Y) - H(XY) = H(X) - H(X | Y) = H(Y) - H(Y | X) = I(Y, X). 

I(X, Y) = - E[ log (p(x | y ) / p(x) ] = - E[ log (p(x, y) / (p(x) p(y)) ] = H(X) + H(Y) - 

H(XY). 

xi. Sats. 

0 ≤ H(X | Y) ≤ log L. 

När antas maximum? Notera att H(X | X) = 0 för alla X. Visa detta! 

xii. Sats. 

H(X) = H(X 1 ) + H(X 2 | X 1 ) + H(X 3 | X 1 X 2 ) + ... + H(X n | X 1 ... X n-1 ), 

där X = (X 1 , ..., X n ). 

Om {X i } är oberoende bortfaller betingningen varför 

H(X) = H(X 1 ) + H(X 2 ) + H(X 3 ) + ... + H(X n ). 

Om dessutom alla X i har identisk fördelning (X = X i för alla i) blir 

H(X) = n H(X). 

Det senare betyder att språkhastigheten r = lim n→∞ H(X) / n = H(X) för n-gram om varje 

tecken i ett sådant antas oberoende av omgivningen och alla platser likafördelade. 

Multiplikationsregeln för betingade sannolikheter utnyttjas för beviset av xii:

65 


xiii. Sats. 

p(X) = p(X 1 ) p(X 2 | X 1 ) p(X 3 | X 1 X 2 ) ... p(X n | X 1 ... X n-1). 

H(X | Y) ≤ H(X). 

Använd återigen IT-olikheten tillsammans med relationen p(x) = Σ y p(x, y) och definitionen 

av betingad sannolikhet för beviset. 

Tolkning: En tilläggskunskap om Y kan inte öka ovissheten om X. 

xiv. Korrolarium. 

I(X, Y) = I(Y, X) ≥ 0. 

xv. Den binära entropifunktionen är 

h(p) = Ω(p) = H(p, 1 - p). 

X har två möjliga utfall med sannolikheter p och 1-p. 

Funktionen h antar maximum (=1) för p = 0.5 och är 0 för p = 0 och p = 1. 

Funktionen h = 0.5 för p ≈ 0.11 och 0.89. 

Om a och b är konstanter är derivatan: 

∂h(a + bp)/∂p = b log [( 1- a - bp) / (a + bp)]. 

xvi. Sats. (Fanos lemma) Om X och Y har värden {x 1 , ... x L } så gäller 

H(X | Y) ≤ h(p(X ≠ Y)) + p(X ≠ Y) log (L - 1), där p(X ≠ Y) = ΣΣ x,y p(x ≠ y). 

Satsen kan ges följande tolkning: 

H(X | Y) är den information som behövs för att bestämma X då Y är känd. 

Om X = Y är vi klara, men för att bestämma om så är fallet krävs h(p(X ≠ Y)) bitar. 

Om X ≠ Y så kvarstår L - 1 möjligheter för X. Detta ger en entropi högst log (L - 1). 

xvii. Sats. För en stationär källa (simultansannolikheten för X i är oberoende av 

tidstranslation) gäller 

a. H(X n | X 1 ... X n-1 ) ≤ H(X n-1 | X 1 ... X n-2 ). 

b. H(X 1 ... X n ) ≥ n H(X n | X 1 ... X n-1 ). 

c. H(X 1 ... X n ) / n ≤ H(X 1 ... X n-1 ) / (n - 1). 

d. lim n→∞ H(X 1 ... X n )/n = lim n→∞ H(X n | X 1 ... X n-1 ) = r = entropihastigheten. 

e. För en Markovkälla (ett tidstegs minne) är r = H(X n | X n-1 ). 

xviii. Sats. Om (X, Y, Z) är en Markovkälla så gäller 

a. I(X, Z) ≤ I(X, Y) 

b. I(X, Z) ≤ I(Y, Z)

66 


Denna sats visar att informationsbehandling aldrig kan öka informationen: 

I modus ponens innehåller C ⇒ A och C ⇒ A ⊃ B inte mindre information än C ⇒ B. 

I additionen x = a + b innehåller högerledet minst lika mycket information som vänsterledet. 

xix. Sats. 

a. H(X, Y) = H(X) + H(Y | X) 

b. H(X, Y) ≤ H(X) + H(Y). 

Likhet gäller precis då X och Y är oberoende. Ovissheten i den samtidiga händelsen (X, Y) är 

samma som ovissheten i X plus ovissheten i Y då X är given och den är inte större än 

summan av ovissheterna i X och Y var för sig. 

xx. Redundansen för ett språk M med alfabetsstorlek L definieras som 

D = R - r = log | M | - r. 

R = log L = "maximala antalet bitar per bokstav" = alfabetshastigheten = absoluta 

hastigheten. I engelskan är L = 26 och alltså R ≈ 4.7. 

En 0:te ordningens approximation av språket ger H(X) / N = H(X) = log L. Genom att 

beakta att bokstäverna i ett N-gram är beroende erhålls bättre approximationer för ökande N. 

Kvantiteten r = lim N→∞ H(X)/N = språkhastigheten (språkentropin) = medelvärdet av antalet 

effektiva informationsbitar per bokstav för språket är central. I engelska språket uppskattas r 

till intervallet [1, 1.5] (som uppnås vid N = 100, ca.). 

Ibland definieras redundansen som D / R = 1 - r / R; t ex i så fall ≈ 75% för engelska. 

För att beräkna H(X) för ökande N används frekvenstabeller för N-gram med N = 0, 1, 2, ... . 

N = 0 ger H = 4.7, 

N = 1 ger H / 1 ≈ 4.17 (tabell 2.1), 

N = 2 ger H / 2 ≈ 3.62 &c. 

Jämför sats xvii.c ovan. 

xxi. Rényientropi. Detta mått är en generalisering av Shannons entropi och definieras 

för α ≥ 0 och α ≠ 1 enligt 

H α (X) = (1 - α) -1 log Σ p(x) α . 

Med gränsprocessen α → 1 erhålls H 1 (X) = H(X). 

Med gränsprocessen a → ∞ erhålls H ∞ (X) = - log max p(x). 

Vidare gäller för 0 < α < β att H α (X) ≥ H β (X), 

med likhet om och endast om X är likformigt fördelad. 

Speciellt gäller att 

log | X | ≥ H α (X), 

för α ≥ 0 och att 

H(X) ≥ H α (X), för α > 1.

67 


3.3 Kodningssatser och 'one time pad' 

3.3.1 Shannons satser 

Följande satser bevisades av Shannon i mitten av 40-talet och de utgör startpunkten för 

vetenskapsgrenen informationsteori. Satserna ges här utan bevis. 

En minnesregel för dessa satser är följande. 

H < κ < C 

Den första satsen karakteriserar källan och säger att entropin är det mått som är mest relevant 

för att beskriva det verkliga informationsinnehållet: 

i. Kodhastighet. Om blocklängden för ord som produceras är n och om dess ord kodas 

med kodord av längd ρ så kallas kvantiteten κ = ρ / n för kodhastigheten. 

ii. Sats. (Källkodningssatsen) Antag att källans ord av blocklängd n produceras av en 

diskret minnesfri källa med entropi H(p) och kodas med kodord av längd ρ ur ett alfabet av 

storlek K. Då gäller för alla ε > 0 att sannolikheten för avkodningsfel p e ≤ ε förutsatt att 

κ log K > H(p). 

Omvänt gäller att om olikheten inte är uppfyllt så är sannolikheten för avkodningsfel större 

än 1 - ε. 

För binära koder, K = 2, kan alltså källans ord återskapas precis då κ > H(p). Villkoret 

sätter alltså en undre gräns för hur mycket ett meddelande kan kompakteras utan att 

informationen förloras. 

Den andra satsen visar att kanalkapaciteten är det avgörande måttet för att utvisa hur mycket 

en kanal accepterar. 

iii. Kanalkapaciteten C för en minnesfri kanal beskriven av övergångssannolikheterna 

p(y | x) definieras som 

C = max p(x) I(X, Y) = max p(x) (H(Y) - H(Y | X)), 

där maximum tas över alla sannolikhetsfördelningar för invärdena x till kanalen. 

Observera att H(Y | X) = 0 om kanalen är störningsfri, ty då är den mottagna signalen 

identisk med den sända. Ibland kan det vara enklare (eller naturligare) att använda maximum 

över I(Y, X) i stället; funktionen I är ju symmetrisk i X och Y. 

iv. Sats. (Kanalkodningssatsen) Antag att kodhastigheten κ för en minnesfri kanal 

uppfyller κ < C. Då gäller för alla ε > 0 att det finns en blocklängd n och en kod med denna 

längd och hastighet κ vars sannolikhet p e för avkodningsfel uppfyller p e ≤ ε. 

Observera att signal/brus-förhållandet inte ingår (explicit). 

Även denna sats har en omvändning. Om κ > C så finns ingen blockkod vars sannolikhet 

för avkodningsfel understiger ε.

68 


3.3.2 Den binära symmetriska kanalen (BSC) 

I BSC (och i 'one time pad') finns två källsymboler x 1 och x 2 som förekommer med 

sannolikhet p(x 1 ) = p respektive p(x 2 ) = 1 - p. Figuren illustrerar denna kanal. 

x1 

a 

1-a 

a 

y1 

x2 

1-a 

Figur 3.2 BSC 

y2 

Övergångssannolikheterna för de mottagna symbolerna y 1 och y 2 ges av 

och 

p(y 1 | x 2 ) = p(y 2 | x 1 ) = a 

p(y 1 | x 1 ) = p(y 2 | x 2 ) = 1 - a. 

Ett värde a ≠ 0 representerar ett överföringsfel (eller "distorsion" via kryptering) ; lika för 

båda symbolerna. 

Likheten a = 0.5 gäller för 'one time pad'; en slumpföljdsnyckel har ju lika många 0-or som 

1-or. 

För att beräkna kanalkapaciteten C används I(X, Y) = H(Y) - H(Y | X). 

H (Y) erhålls enkelt genom att beakta att 

och att 

Alltså är 

p(y 1 ) = p(x 1 ) p(y 1 | x 1 ) + p(x 2 ) p(y 1 | x 2 ) = a + p - 2ap 

p(y 2 ) = 1 - p(y 1 ). 

H(Y) = h (p(y 1 )) = h (a + p - 2ap), 

där h är den binära entropifunktionen. 

Genom att utnyttja att p(x i , y j ) = p(x i ) p(y j | x i ) kan den andra termen 

beräknas. 

H(Y | X) = - Σ x Σ y p(x, y) log p(y | x) 

H(Y | X) = - p [a log a + (1 - a) log (1 - a)] - (1- p) [a log a + (1- a) log (1- a)] = h (a). 

Eftersom kanalen är symmetrisk är detta resultat oberoende av p. 

Den ömsesidiga informationen blir alltså 

I(X, Y) = h (a + p - 2ap) - h (a), 

som beror både på felsannolikheten a och på källans sannolikhetsfördelning p. 

Om a = 0 så blir I = h(p) = H(X), med maximum C = 1 (för p = 0.5).

69 


Om a = 0.5 (maximalt kanalfel) så blir C = max I = 0. 

Det är precis detta senare förhållande (C = 0) som gör 'one time pad' oforcerbar. 

Kanalkapaciteten är 

C = max p I = max p [h(a + p - 2ap) - h(a) ] = 1 - h(a). 

Maximum (över p) av h är ju 1 och kvantiteten h(a) är oberoende av p. 

3.4 Huffmankodning 

i. Allmänt. Detta är ett sätt att koda den information som en källa genererar på ett 

redundansminskande vis. Grundidén är att representera de mera frekventa symbolerna med 

kortare kodord och acceptera att sällsynta symboler därmed kräver längre kodord. 

Kodorden blir med nödvändighet olika långa; koden är av typ: 

- Fix- till variabellängd. 

Avgränsare mellan kodsymbolerna bör undvikas eftersom sådana naturligtvis skulle belägga 

kanalens kapacitet i onödan så koden ska vara 

- Momentant avkodbar. 

Detta gäller för alla koder som uppfyller prefixvillkoret: Inget kodord utgör prefix till ett 

annat kodord (en sk prefixfri kod). 

ii. Exempel. Antal givet 8 källsymboler med sannolikheter p i , i = 1, ..., 8, där 

p i = 1/32, för i = 0,1, 2, 3, p i = 1/16 för i = 4, 5, p i = 1/4, för i = 6 och p i = 1/2, för i = 7. 

Entropin blir H(X) = 2 1/8. Trivial kodning av 8 symboler ger medelkodordslängd 3. 

Följande tabell 3.3 visar en bättre kod. 

Symbol Sannolikhet (pi) Kodord (xi) Kodordslängd (li) 

0 1/32 00 000 5 

1 1/32 00 001 5 

2 1/32 00 010 5 

3 1/32 00 011 5 

4 1/16 00 10 4 

5 1/16 00 11 4 

6 1/4 01 2 

7 1/2 1 1 

Tabell 3.3. En kodning 

Medelkodordslängden blir w = Σ p i l i = 2 1/8. 

Detta råkar sammanfalla med H(p), p = (p 0 , ..., p 7 ). 

Observera att prefixvillkoret är uppfyllt; exempelvis kan 

000110000000001000101 ... bara avkodas som 30127 .. 

och att denna avkodning kan ske utan att meddelandet behöver innehålla avskiljare mellan 

kodsysmbolerna.Överensstämmelsen w = H(p), d v s redundansen D = 0 för det kompakterade 

språket, gäller inte alltid, men däremot följande sats.

70 


iii. Sats. Medelkodordslängden w för en kompakterande, binär prefix-kod för en källa p 

uppfyller alltid w ≥ H(p). Vidare finns en prefixfri kod för vilken w ≤ H(p) + ε, för 

godtyckligt valt ε > 0. 

iv. Sats. En prefixfri kod med minimal längd uppfyller: 

a. Om p i > p j så gäller l i ≤ l j. 

b. De två minst sannolika källsymbolerna har kodord med samma längd. 

c. Om det finns fler kodord med samma längd så överenstämmer de i alla bitar utom de sista. 

Resultatet i denna sats kan användas konstruktivt: 

Kombinera de två minst sannolika källsymbolerna till en "artificiell" symbol vars 

sannolikhet är summan av de två andras. Då uppstår en ny källa med antalet symboler 

reducerat med ett. Konstruera nu en optimal kod för denna nya källa &c. 

För att hitta kodord för de minst sannolika symbolerna i den ursprungliga källan, använd den 

optimala koden för den artificiella och lägg 0 respektive 1 till koden för den artificiella 

symbolen. Att detta faller väl ut följer av följande. 

v. Sats. Antag att de två minst sannolika källsymbolerna kombineras till en artificiell 

symbol och att C' är optimala koden för denna artificiella källa. Konstruera C från C' genom 

att till den artificiella symbolens kod lägga 0 respektive 1 för att forma koderna för de minst 

sannolika källsymbolerna i ursprungskällan och lämna de övriga kodorden lika. Då gäller att 

C är den optimala koden för originalkällan. 

Huffmankoden erhålls om denna procedur tillämpas rekursivt. 

vi. Exempel. Antag givet 7 källsymboler a, b, c, d, e, f och g med sannolikheter 3/8, 

3/16, 3/16, 1/8, 1/16, 1/32 respektive 1/32. 

Låt koden växa fram ur ett liggande träd med löven längst till vänster; se figur 3.3. I trädets 

grenar införs successivt 0-or (gren uppåt) och 1-or (gren nedåt). Koden blir: 

Symbol Sannolikhet (pi) Kodord (xi) Kodordslängd (li) 

a 3/8 1 1 

b 3/16 011 3 

c 3/16 010 3 

d 1/8 001 3 

e 1/16 0001 4 

f 1/32 00001 5 

g 1/32 00000 5 

Tabell 3.4. En Huffmankodning 

Medelkodordslängden blir w = Σ p i l i = 2.44. Entropin är H(p) = 2. 37. Detta gav en ganska 

bra kod. Kodförbättringar kan erhållas om man betraktar N-gram i stället för 1-gram. 

vii. Exempel. Antag tre givna källsymboler a, b och c med sannolikheter 3/4, 3/16 

respektive 1/16. 

Huffmankoden för 1-gram har koderna 1, 01 respektive 00. Detta ger w = 1.25 och vi har 

H(p) = 1.012, vilket antyder att en förbättning på 20% vore möjlig. 

Huffmankodning av digram ger nedanstående tabell. 

Sannolikheterna i tabellen bildas som produkten av de enskilda symbolernas sannolikheter. 

Medelkodordslängden blir w = 2.09. 

Observera dock att kodorden står för två källsymboler. Kodhastigheten är alltså 1.045. 

Jämför detta med 1.25 som är hastigheten för Huffmankoden för 1-gram och med 1.012 som 

är ursprungskällans entropi.

71 


g 1/32 

f 1/32 

0 

1 

e 1/16 

d 1/8 

1/16 

1 

0 

1/8 

1 

0 

1/4 

0 

Vägen visar hur 

koden för c uttyds 

c 

b 

3/16 

3/16 

0 

1 

3/8 

1 

1 

5/8 

0 

3/8 

a 

Figur 3.3.Ett Huffmanträd 

Symbolpar Sannolikhet Kodord Kodordslängd 

aa 0.5625 1 1 

ab 0.1406 011 3 

ac 0.0469 011 3 

ba 0.1406 010 3 

bb 0.0352 000 11 5 

bc 0.0117 000 101 6 

ca 0.0469 000 0 4 

cb 0.0117 000 100 1 7 

cc 0.0039 000 100 0 7 

Tabell 3.5. Huffmankodning av digram 

Ett ibland användbart resultat är Krafts olikhet: 

viii. Sats. I ett alfabet av storlek K (för en binär kod är K = 2) existerar en prefixkod med 

M kodord av längd l(m), m = 1, ..., M, precis då 

Σ m K -l(m) ≤ 1. 

3.5 Chiffersäkerhet 

Efter att ha infört entropibegreppet och bevisat kanal- och källkodningssatserna var det en 

"barnlek" för Shannon att visa resultaten i detta avsnitt avseende konventionella chiffer[s 

resistens mot forcering]. 

3.5.1 Nyckelekvivokation; Shannons tillvägagångssätt 

En "nyckelkvantitet" (hihi!) är H(K | C), som beskriver en forcörs osäkerhet om kryptonyckeln 

K då han/hon "fångar upp" ett chiffer C. 

i. Allmänt. En approximation till nyckelekvivokationen 

H(K | C) = - Σ C p(C) Σ K p (K | C) log p (K | C) 

kan härledas på följande (lite heuristiska) sätt.

72 


Betrakta N-gram. Sätt 

S = 2 RN 

T = 2 rN , 

där R = log L (L = antalet element i alfabetet) är absoluta hastigheten och r är 

språkhastigheten, 

r = lim N → ∞ H(X) / N. 

S är det totala antalet tänkbara meddelanden och T är antalet meningsfulla. Alla dessa antas 

vara lika sannolika och sannolikheterna summerar till 1 (nåja, nästan). 

Sannolikheten att det finns exakt m avbildningar mellan ett visst c och element i mängden 

av meningsfulla meddelanden är 

(k! / (m! (k - m)!) ) * (T / S) m * (1 - T / S) k - m = {def} = f(m), 

då k = 2 H(K) = antalet nycklar, som alla förutsätts lika sannolika. (Dragning med 

återläggning.) 

Om ett kryptogram med m sådana "linjer tillbaka" uppfångas är den betingade entropin för ett 

givet c lika med log m, ty alla är ju lika sannolika varför maximumvärdet antas. 

Sannolikheten för ett sådant chiffer är 

a(m) = mS / kT = m 2 DN - H(K) , där D = R - r = p(c), 

eftersom det kan produceras av m nycklar av totalt k stycken med sannolikheter S / T. 

Ekvivokationen 

blir därför 

eller 

H(K | C) = Σ c p(c) H(K | C = c) 

H(K | C) = Σ m a(m) f(m) log m = S / Tk Σ m f(m) m log m 

H(K | C) = 2 DN-H(K) Σ m ∈ [1, k] C(k,m) 2 -DNm (1 - 2 -DN ) H(K) - m m log m 

där D = R - r och k = 2 H(K) och C(k,m) = k! / (m!(k - m)!). 

Den inramade ekvationen kan approximeras. 

Inför beteckningen λ = kT / S = 2 H(K) - DN . 

Tre delfall (med avseende på λ eller Ν) underlättar analysen. 

ii. Fall 1: λ = kT / S >> 1 (N litet). Då gäller approximationen 

H(K | C) = H(K) - DN. 

Väntevärdet av m är λ. Om detta är >> 1 så är variationen av log m liten och kan ersättas 

med log λ, som i sin tur kan faktoriseras ur summan, som då reduceras till λ.

73 


Vidare är k = 2 H(K) och log (T/S) = - DN. 

Så H(K | C) = log(Tk / S) = log T - log S + log k. 

Därav resultatet. 

iii. Fall 2: λ = kT / S ≈ 1. Här gäller approximationen 

H(K | C) = e -λ Σ m≥1 (λ m /m) log (m + 1). 

Detta faller ut om binomialfördelningen approximeras med en Poisson-dito: 

p m (1 - p) k - m = [p = 2 -DN ] = e -λ λ m /m! 

Summeringen blir kvar. 

iv. Fall 3: λ = kT / S

74 


vi. Kommentar. Notera också att resonemanget innehåller intressanta resultat rörande 

sannolikheter; det är inte alltid nödvändigt att gå över till entropier för att finna "pärlor". 

Exempelvis kan det vara intressant att tabellera sannolikheten för att finna korrekt lösning 

(rätt nyckel) som funktion av log λ för k = 1, 2,... . Man kan nämligen visa att 

p(rätt nyckel) = (1/λ) * (1 - (1 - (λ/k)) k ) ≈ (1/λ) * (1 - e -λ ) för λ

75 


Vidare är M och K oberoende så H(K, M) = H(K) + H(M). 

Alltså är 

H(K, M, C) = H(K) + H(M). (2) 

Analogt, eftersom H(M | K, C) = 0, gäller att H(K, M, C) = H(K, C). (3) 

Slutligen erhålls alltså 

H(K | C) = H(K, C) - H(C) = {(3)} = H(K, M, C) - H(C) = {(2)} = H(K) + H(M) - H(C). 

Med hjälp av denna relation kan ytterligare bestämningar av H(K | C) erhållas. 

iv. Sats. Om | M | = | C | så gäller olikheterna följande olikheter. 

H(K) - DN ≤ H(K | C) ≤ H(K) 

Bevis. 

Det gäller att 

→ H(M) ≥ Nr = N (D - R), 

där r = lim N→∞ H(M) / N är språkhastigheten, R = log | M | är alfabetshastigheten och 

D = R - r är redundansen. 

Självklart är 

→ H(C) ≤ N log | C |. 

Alltså gäller 

H(K | C) ≥ H(K) - N(R - D) - N log | C | = { om | C | = | M | } = H(K) - DN. 

v. Falska nycklar. Definiera mängden K(c) av nycklar för vilka c är ett chiffer som svarar 

mot en meningfull klartext m på följande vis: 

K(c) = {K ∈ K: ∃ m ∈ M, p(m) > 0, e k (m) = c}. 

Både m och c uppfattas som N-gram. 

Då gäller 

H(K | C) = Σ c∈C p(c) H(K | C = c) ≤ Σ c∈C p(c) log | K(c) | ≤ log Σ c∈C p(c) | K(c) |. 

Å andra sidan gäller att antalet s falska nycklar då ett visst c observeras är | K(c) | - 1. 

Av de tänkbara nycklarna är det ju bara en som är korrekt. 

Väntevärdet E[s] blir 

Alltså: 

eller 

E[s] = Σ c∈C p(c) (| K(c) | - 1) = Σ c∈C p(c) | K(c) | - 1. 

H(K | C) ≤ log (E[s] + 1)

76 


E[s] ≥ 2 H(K | C) - 1. 

Ur iv. ovan följer så att E[s] ≥ 2 H(K) - DN - 1. 

Om, slutligen, det föreligger så mycket chiffer, dvs N är så stort, att H(K) - DN = 0 blir det 

förväntade antalet falska nycklar = 0, varvid chiffret är forcerat (i teorin). 

vi. Entydighetslängd. Detta N-värde kallas entydighetslängden N u för vilken gäller att 

N u = H(K) / D 

Kommentar. Oftast används förutsättningen H(K) = log | K | (alla nycklar är lika sannolika) 

och uppskattningen D = 3.2 (för engelska) då denna ekvation används. 

3.5.3 Sekretess 

i. Praktisk sekretess. Många bra chiffer kan ha liten entydighetslängd: För DES är 

om D = 3.2. 

N u ≈ H(K) / D = log 2 56 / D = 56 / D ≈ 17.5 (tecken) 

För denna kryptomassa, d v s tre ECB-chiffreringar med samma nyckel, låter sig nyckeln 

entydigt bestämmas. 

Men: Praktisk sekretess följer av att forceringen ändå är mycket arbetssam. Att via 'brute 

force' pröva 2 56 ≈ 10 17 olika nycklar tar ju 10 11 sekunder (mer än ett miljon dygn) om 

varje nyckel kan prövas på 1 µs. 

ii. Perfekt sekretess. För 'one time' pad är 

H(M | C) = H(M) 

(= 1, för binär kodning) 

och kanalkapaciteten noll oberoende av [hur stort] N [än väljes], vilket uttrycker det faktum 

att denna metod också ger perfekt sekretess, dvs N u = ∞. 

Allmänt kan man visa att det alltid gäller att 

H(K | C) ≥ H(M | C), 

vilket också betyder att villkoret H(K | C) = H(K) medför perfekt sekretess (dock ej omvänt). 

Villkoret 

I(C, M) = 0 ⇔ p (M | C) = p(M) 

är en vanlig definition på perfekt sekretess; dvs C och M är stokastiskt oberoende precis då 

perfekt sekretess föreligger. Visa ekvivalensen! 

Med hjälp av Bayes sats kan villkoret för perfekt sekrtess också skrivas 

p(C | M) = p(C) (för alla M och C) 

Observera att ett PKS har entydighetslängden 0! Här behövs ju ingen kryptomassa alls för att 

teoretiskt beräkna den privata nyckeln ur den publika.

77 


iii. Ideal sekretess. Om D ≈ 0 kommer inte heller att nyckelekvivokationen gå mot 0 då 

N växer, så chiffret kommer inte heller då att vara forcerbart. Shannon kallade detta 

förhållande för 'ideal secrecy'. Detta är anledningen till att kompaktering eller randomisering 

kan vara bra att ta till som ett steg före krypteringen. 

3.5.4 Exempel 

Låt följande [artificiella] alfabet och chiffer vara givna. 

Klartextmängd M = {α, β} med p(α) = 1/4 och p(β) = 3/4. 

Chiffermängd C = {1, 2, 3, 4}. 

Nyckelmängd K = {k 1 , k 2 , k 3 } med p(k 1 ) = 1/2, p(k 2 ) = p(k 3 ) = 1/4. 

Chifferfunktionen e definieras av följande tabell (chiffermatris). 

e α β 

k 1 1 2 

k 2 2 3 

k 3 3 4 

Med dessa data kan p(c) och p(m | c) beräknas för c ∈ C och m ∈ M. (Se 3.2.2.i.) 

c 

p (c) 

1 1/8 

2 3/8 + 1/16 = 7/16 

3 3/16 + 1/16 = 1/4 

4 3/16 

För att bestämma p(m | c) är det lämpligt att först bestämma p(c | m) = Σ {k: m = dk(c)} p(k). 

Ur siffrorna för p(k i ) erhålls följande. 

c p(c | α) p(c | β) 

1 1/2 0 

2 1/4 1/2 

3 1/4 1/4 

4 0 1/4 

Bayes sats ger därefter följande tabell. 

c p(α | c) p(β | c) 

1 1 0 

2 1/7 6/7 

3 1/4 3/4 

4 0 1 

Med hjälp av Bayes sats erhålls också de betingade nyckelsannolikheterna. 

c p(k 1 | c) p(k 2 | c) p(k 3 | c) 

1 1 0 0 

2 6/7 1/7 0 

3 0 3/4 1/4 

4 0 0 1

78 


Med dessa värden erhålls: 

H(M) = -1/4 log (1/4) - 3/4 log (3/4) = 2 - 3/4 log 3 ≈ 0.81. 

H(K) = 1.5. 

H(C) ≈ 1.85. 

H(K | C) ≈ 0.46. 

Detta är kompatibelt med H(K | C) = H(K) + H(M) - H(C). 

3.6 Störningsfria kanaler 

Följande resonemang syftar till att kvantifiera begreppet kanalkapacitet för en störningsfri 

kanal, d v s då H(output | input) = 0. 

En komplikation är att de meddelanden som sänds via kanalen inte kan bestå av godtyckliga 

kombinationer av tecken eller bitar; stopp-bitar måste förekomma på exakt rätt platser; 

fastställda regler för Morse-signalering måste följas &c. 

En annan komplikation består i att att de olika kodorden kan ha olika utsträckning i tiden 

(olika längd). Antag att alfabetet är {s i }, i = 1, ..., n. Till varje symbol s i associeras en tid 

t i ; den tid det tar att sända symbolen. 

i. Exempel. Vid Morse-signalering kodas tecken mha ♦, ⇔, |; dvs "punkt", "streck" och 

"mellanslag". 

Varje bokstav sänds t ex som en fix sekvens av ♦ och ⇔. Bokstavs- och ordmellanrum 

kodas också. Implementeringen av grundsymbolerna kan vara: 

Symbol Implementering Tid Kommentar 

♦ Ett intervall +5V, ett 0V 2 Kort "pip" 

⇔ Tre intervall +5V, ett 0V 4 Långt "piiip" 

| Tre intervall 0V 3 Bokstavsmellanrum 

|| Sex intervall 0V 6 Ordmellanrum 

Tabell 3.6. Morsekod-förutsättningar 

Härav följer den naturliga restriktionen att två bokstavsmellanrum inte får följa på varandra, 

ty i så fall kan detta inte skiljas från ordmellanrum. Frågan är hur kapaciteten för en kanal 

ska definieras för detta fall. 

En definition bör ju degenerera till den vanliga i det fall alla bitkombinationer är tillåtna. När 

binärdata sänds som oktetter (256 olika möjligheter) och kanalen klarar 8n bitar/sek är det 

naturligt att detta får stå för kanalkapaciteten C. I detta fall har alla 256 olika kodord samma 

tidsutsträckning. 

N(T) står för antalet tillåtna signaler av längd T i tiden. I binära fallet är alltså N(T) = 2 8 T. 

ii. Definition. Kanalkapaciteten (för en diskret kanal) är C = lim T →∞ log [N(T) ] / T. 

Observera att detta uttryck reduceras till det intuitiva resultatet om alla ord har samma längd. 

Vad händer om de olika kodorden har olika utsträckning?

79 


Om N(t) står för antalet sekvenser med utsträckning t så gäller 

N(t) = N(t - t 1 ) + N(t - t 2 ) + ... + N(t - t n ). (1) 

Det totala antalet är lika med summan av antalet sekvenser som slutar på s 1, ..., s n och dessa 

är N(t - t 1 ), ..., respektive N(t - t n ). 

Differensekvationen (1) har en lösning N(t) ≈ X t , asymptotiskt för stora t, där X är största 

roten till karakteristiska ekvationen 

x -t1 + x -t2 + ... + x -tn = 1. (2) 

Det betyder att C = log X. 

I de fall då det också finns begränsningar på de tillåtna sekvenserna, tex Morse-kodning, kan 

ett analogt resonemang ofta användas. 

iii. Exempel; Morse-signalering. Genom att räkna sekvenser av symboler och ta 

hänsyn till den näst sista och den sista förekommande symbolen så finner vi i detta fall att 

N(t) = N(t - 2) + N(t - 4) + N(t - 5) + N(t - 7) + N(t - 8) + N(t - 10); 

se tabellen ovan och FSM nedan. Ekvationen 

x -10 + x -8 + x -7 + x -5 + x -4 + x -2 = 1 (3) 

kan lösas numeriskt och den största roten X ger C ≈ 0.539. 

iv. Exempel. Morse-signalering ger upphov till följande ändliga tillståndsmaskin; figur 

3.5. 

bokstavs- eller 

ordmellanrum 

punkt 

eller 

streck 

a1 

punkt eller streck 

a2 

Figur 3.5. Tillståndsmaskin för Morsesignalering 

Lite generellare: Låt en mängd tillstånd a 1 , ..., a m utgöra grunden för specifikation av 

möjliga signaler bland S = {s 1 , ..., s n }. En tillståndsövergång, som svarar mot att en tillåten 

signal tillhörande en delmängd av S sänds, ger upphov till en nytt tillstånd. 

Då gäller följande sats (utan bevis men med exempel). 

v. Sats. Om b ij (s) är längden (i tid räknat) för den s:te symbolen som leder från tillstånd i 

till tillstånd j, så är kanalkapaciteten C = log x o , där x o är den största reella roten till 

(determinant)ekvationen 

det [ Σ s x -bij(s) - I ] = 0, 

där I är enhetsmatrisen och x är en fri variabel.

80 


vi. Exempel; Morsekodning. Med ovan angiven tabell och FSM blir ekvationen 

− 1 

x 

−2 + x 

−4 

x 

−3 + x 

−6 x 

−2 + x 

−4 

−1 

= 0. 

Genom att räkna ut denna determinant med Cramers regel återfås ekvationen (3). 

Ett viktigt specialfall av satsen är det då alla kodord har samma längd. 

Ett annat specialfall erhålls om alla kodsekvenser är tillåtna. 

Noter 

Det mesta i detta kapitel härstämmar från artiklarna [Sha48] och [Sha49]. Bra böcker om 

informationsteori är [Bla87] och [Joh88]. Stinson [Sti85] har ett utmärkt kapitel om samma 

ämne. 

Övningar 

3.1. Antag att X är en heltalsvariabel som representeras med 32 bitar. Antag vidare att 

sannolikheten för att X ∈ [0, 255] är 1/2 och att alla värden i detta intervall är lika 

sannolika. X är dessutom likformigt fördelad i komplementintervallet. Beräkna H(X). 

3.2. Låt X vara ett av följande meddelanden: a, b, c, d, e, f med 

p(a) = p(b) = p(c) = 1/4 

p(d) = 1/8 

p(e) = p(f) = 1/16 

Bestäm H(X) och gör en så bra kodning du kan av X. 

3.3. Visa att för, n = 2, H(X) antar maximum för p 1 = p 2 = 1/2. 

3.4. Visa motsvarande resultat för godtyckligt n. 

3.5. Visa att H(X, Y) ≤ H(X) + H(Y). När antas likhet? 

3.6. Visa att H(X, Y) = H(Y) + H(X | Y). 

3.7. Låt M stå för ett sexsiffrigt tal som chiffreras med ett skiftchiffer med en nyckel K ∈ [0, 

9]. Beräkna H(M), H(C), H(K), H(M | C) och H(K | C) givet att alla värden på M och K är 

lika sannolika. 

3.8. Ömsedidiga informationen kan definieras som via 

Visa att 

I(X, Y) = Σ x,y p(x, y) log [p(x | y) / p(x)]. 

I(X, Y) = H(X) - H(X | Y). 

3.9. a. Bestäm H(M) då p(m i ) = 2 -i , i = 1, 2, ... . (Oändligt många utfall alltså!) 

b. Vilken blir medelkodordslängden för Huffmankodningen?

81 


3.10. Antag givet ett kryptosystem definierat av följande matris 

e k (m) α β γ 

k 1 1 2 3 

k 3 3 4 1 

k 2 2 3 4 

Antag vidare att p(α) = 1/2, p(β) = 1/3 och p(γ) = 1/6 och att alla k i är lika sannolika. 

Beräkna H(M), H(K), H(C), H(K | C) och H(M | C). 

3.11. En tärning slås 10 gånger. Vilken är sannolikheten att 6 uppträder minst en gång? 

3.12. Bestäm entydighetslängden för ett affint chiffer och för ett permutationschiffer över 

block av längd d. 

3.13. En bridgekortlek är en mängd av 52 olika objekt som kallas kort. En bridgehand är en 

delmängd omfattande 13 element. En giv är en partitionering av kortleken i fyra händer. 

Det är möjligt att representera en bridgehand genom att tilldela varje kort en unik 6-bitskod 

så att ett 78-bits meddelande representerar en hand (s k 'pulse coded modulation'). 

Visa att den inte finns någon binär representation av en godtycklig hand som använder 

mindre än ungefär 52 * h(1/4) = 42 bitar. 

3.14. a. Beräkna alfabetshastigheten R, hastigheten r och redundansen D för ett språk över M 

= {a, b, c, d} då p(a) = 0.5, p(b) = 0.25 och p(c) = p(d) = 0.125. 

b. Beräkna R, r, D över digram för samma språk om p(x, y) = 0.25 för alla x, y i M. 

3.15. Visa att ett affint chiffer där alla nycklar är lika sannolika ger perfekt sekretess då det 

tillämpas på enstaka klartextsymboler. 

3.16. Antag givet ett litet chiffersystem med M = {1, 2, 3}, C = {0, 1, 2, 3} och K = {k 1 , 

k 2 , k 3 } definierat på följande vis. 

e k1 (x) = x. 

e k2 (x) = x - 1. 

e k3 (x) = (1 - x) mod 4. 

a. Skriv ut chiffermatrisen. 

b. Antag att följande kryptogram observeras: 002232330. Vilken är den nyckel som använts? 

3.17. Bevisa att H(K | C) ≥ H(M | C) i alla chiffersystem. 

3.18. För ett visst chiffer och för ett visst klartextspråk har man studerat nyckelekvivokationens, 

f = H C (K) N , beroende av längden N på de chiffer man uppfångat. Ett 

delresultatet är följande. 

N 0 5 10 

f 64 49 34 

Ange med motivering approximationer till följande kvantiteter: 

- Nyckelentropin H(K), 

- språkets redundans D, 

- entydighetslängden N u , 

- H C (K) 15 och H C (K) 20 .

82 


3.19. Beräkna H(K | C) och H(K | M, C) för ett affint chiffer. 

3.20. Antag att X har kardinalitet n, 2 k ≤ n < 2 k+1 och att p(x) = 1/n för alla x ∈ X. 

a. Gör en prefixfri kodning f av X sådan att medelkodordslängden w(f) = k + 2 - 2 k+1 /n. 

b. Illustrera tekniken för n = 6. Beräkna w och H(X) i detta fall. 

Ledning. Koda 2 k+1 - n element som strängar av längd k och resten av längd k +1. 

3.21. Antalet 1-bitar i en bitvektor brukar kallas Hammingvikten för vektorn. Hur många 

bitars information ger kunskap om Hammingvikten för en DES-nyckel? 

3.22. Om n är ett positivt heltal så kallas en n × n matris L = (L ij ) sådan att i varje rad och i 

varje kolumn varje tal i {1, ..., n} förekommer exakt en gång för en latinsk kvadrat. Med M 

= C = K = {1, ..., n} kan man definiera e i (j) = L ij . Uppfyller detta chiffer perfekt sekretess? 

3.23. Entydighetslängder. Fyll i de utelämnade värdena i nedanstående tabell ! 

Chiffer 

Entydighetslängd 

Caesar 1.5 ≈ log 26 / 3.2 

Allmän substitution 

Vigenere 

Affina 

Hill 

LFSR 

Rotor 

Data Encryption Standard 

Skipjack 

Pohlig-Hellman 

IDEA 

One time pad 

PKS

3 Teori för symmetriska system

Create successful ePaper yourself

Delete template?

Save as template?