27.07.2013 Views

1 Menneskets genom

1 Menneskets genom

1 Menneskets genom

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

18209 01.fm7 Page 13 Friday, March 3, 2006 12:37 PM<br />

1<br />

Indledning<br />

<strong>Menneskets</strong> <strong>genom</strong><br />

Eigil Kjeldsen og Søren Nørby<br />

Alle cellulære organismer lige fra de simpleste<br />

bakterier til de mest komplekse eukaryote organismer,<br />

herunder mennesket, har DNA som<br />

bærer af den genetiske information.<br />

De enkelte organismers liv afhænger af cellernes<br />

evne til at kunne opbevare, åbne og oversætte<br />

de genetiske instruktioner som kræves for<br />

at kunne danne og vedligeholde den levende<br />

organisme. For artens eksistens er det endvidere<br />

nødvendigt at cellerne kan føre den genetiske<br />

information videre til næste generation (se videre<br />

i kapitel 2).<br />

Den genetiske information ligger lagret på en<br />

digital måde i DNA’et, som er opbygget af kulhydratet<br />

deoxyribose, fosfat og fire baser. De fire<br />

baser kaldes A, G, C og T, forkortelser for henholdsvis<br />

adenin, guanin, cytosin og thymin, og<br />

det er rækkefølgen af disse som definerer den<br />

genetiske information. Den genetiske information<br />

er lineær og kan beskrives som et sprog<br />

hvor alfabetet har fire bogstaver. Organismer er<br />

forskellige fra hinanden som følge af at rækkefølgen<br />

og antallet af bogstaver er forskellig.<br />

Et individs <strong>genom</strong> kan defineres som den<br />

fuldstændige genetiske information (DNAindhold)<br />

i den pågældendes celler. Den geneti-<br />

ske information er indeholdt i baserækkefølgen,<br />

som kan aflæses ved DNA-sekventering. <strong>Menneskets</strong><br />

arvemasse beskrives ofte som bestående<br />

af to <strong>genom</strong>er: et komplekst nukleært <strong>genom</strong><br />

(kerne-DNA), som udgør 99,9995% af den<br />

samlede genetiske information og et mere simpelt<br />

opbygget mitokondrie-<strong>genom</strong> (mitokondrie-DNA,<br />

mtDNA), som udgør de resterende<br />

0,0005% (Figur 1.1).<br />

Hver af de omkring 1013<br />

(10.000 milliarder)<br />

somatiske celler, som et udvokset menneske<br />

består af, har sin egen kopi af det nukleære <strong>genom</strong>.<br />

Det nukleære <strong>genom</strong> er i de somatiske celler<br />

diploidt og organiseret i 23 par lineære<br />

DNA-molekyler, ét for hvert af cellens 46 kromosomer,<br />

44 autosomer og 2 kønskromosomer,<br />

XX for kvinder og XY for mænd (Figur<br />

1.5 og 1.8).<br />

Mitokondrie<strong>genom</strong>et er anderledes organiseret<br />

og består af et lille cirkulært DNA-molekyle,<br />

som findes i mange kopier i det enkelte mitokondrie<br />

ligesom der er flere mitokondrier i<br />

den enkelte celle (se nærmere side 38ff). En referencesekvens<br />

for menneskets mtDNA blev<br />

første gang offentliggjort i 1981, og endeligt<br />

bekræftet med korrektioner i 1999.<br />

13


18209 01.fm7 Page 14 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

I 1990 blev det offentlige konsortium International<br />

Human Genome Sequencing Consortium<br />

(IHGSC), bestående af 20 centre i 6 lande, dannet<br />

med det formål at etablere en meget nøjagtig<br />

DNA-sekvens af det humane <strong>genom</strong> (reelt<br />

det nukleære <strong>genom</strong>). Der blev nogle få år senere<br />

også etableret et privat konsortium, Celera<br />

Genomics,<br />

med samme formål. Den største del af<br />

<strong>genom</strong>sekvensen, den såkaldte råskitse (eng.<br />

draft sequence),<br />

blev publiceret samtidig under<br />

stor mediebevågenhed af de to konsortier i februar<br />

2001. Da de to konsortier har anvendt<br />

hvert sit udgangsmateriale til sekventeringen, er<br />

råskitserne ikke identiske. I begge råskitser var<br />

der endvidere store mangler, idet bl.a. ca. 10%<br />

af eukromatinets DNA ikke var sekventeret<br />

(Boks 1.2). I oktober 2004 blev en færdig<br />

DNA-sekvens af det humane <strong>genom</strong> publiceret,<br />

hvor >99% af eukromatinet er sekventeret<br />

færdig.<br />

De to eksisterende referencesekvenser for det<br />

humane <strong>genom</strong> indeholder hver sin sekvens af<br />

14<br />

Menneskecelle<br />

Cellekernen<br />

(det nukleære<br />

<strong>genom</strong>)<br />

Mitokondrie<br />

(mitokondrie<strong>genom</strong>et)<br />

Figur 1.1 Et menneskes arvemasse består af to distinkte<br />

dele: 1) det nukleære <strong>genom</strong> som i sin diploide<br />

form indeholder ca. 6 milliarder basepar (6 Gb), der er<br />

fordelt på 23 par lineære DNA-molekyler, ét for hvert<br />

kromosom, hvor det korteste er ca. 47 mio. basepar<br />

langt og det længste er omkring 246 mio. basepar<br />

langt; 2) mitokondrie-<strong>genom</strong>et, som er et cirkulært<br />

DNA-molekyle på 16,6 kb, og med flere kopier i hvert<br />

mitokondrie.<br />

DNA-molekylerne i de 22 autosomer og de to<br />

kønskromosomer X og Y. En sådan referencesekvens<br />

af de 24 forskellige DNA-molekyler<br />

betegnes »det haploide humane <strong>genom</strong>« og består<br />

af ca. 3,1 milliarder nukleotidpar.<br />

Den humane referencesekvens indeholder<br />

meget overraskende kun omkring 27.000 protein-kodende<br />

gener (Tabel 1.1), hvor man tidligere<br />

troede, at der var mellem 65.000 og<br />

100.000. De tidligere skøn var så høje, fordi de<br />

bl.a. var baseret på en antagelse om at hvert gen<br />

definerede ét enkelt protein. Vi ved i dag at en<br />

proces som alternativ splejsning af mRNA (se<br />

side 27) udgør en langt mere væsentlig del af<br />

<strong>genom</strong>-ekspressionen end tidligere antaget, og<br />

at et gen derfor kan kode for dannelse af flere<br />

forskellige proteiner med forskellige funktioner.<br />

Mitokondrie-<strong>genom</strong>et indeholder 37 gener,<br />

hvoraf 13 koder for proteiner der er involveret<br />

i ATP-produktionen, den oxidative fosforylering.<br />

Resten koder for de RNA-molekyler der<br />

er involveret i den mitokondrielle protein-syntese<br />

(se Figur 1.27).<br />

Figur 1.2 skitserer flowet af den genetiske information<br />

i forbindelse med gen-ekspression:<br />

fra DNA til RNA til protein. Genomet er den<br />

samlede DNA-sekvens, transkriptomet udgøres<br />

af RNA-transkripterne, og proteomet er den<br />

samlede gruppe af proteiner som bliver udtrykt.<br />

Mennesket består af mere end 250 forskellige<br />

celletyper, og alle somatiske, kerneholdige celler<br />

fra samme individ indeholder samme <strong>genom</strong>,<br />

mens transkriptomet og proteomet er forskelligt<br />

fra celle til celle som følge af variation i<br />

gen-ekspressionen.<br />

I de følgende afsnit vil den genetiske informations<br />

struktur, funktion og dynamik på de<br />

enkelte niveauer blive gennemgået i mere detaljeret<br />

form.


18209 01.fm7 Page 15 Friday, March 3, 2006 12:37 PM<br />

Nukleinsyrernes opbygning<br />

DNA<br />

DNA som kemisk enhed blev opdaget af Johann<br />

Friedrich Miescher (1844-95). Det var dog først<br />

i 1930’erne at man blev i stand til at undersøge<br />

den kemiske struktur nærmere.<br />

DNA’s centrale biologiske funktion blev først<br />

erkendt i begyndelsen af 1940’erne, hvor den<br />

amerikanske mikrobiolog Oswald Avery (1877-<br />

1955) og medarbejdere kunne vise at DNA er<br />

bærer af den genetiske information. Før den tid<br />

havde man ikke skænket DNA megen opmærksomhed<br />

i genetisk henseende, idet man mente at<br />

et så relativt monotont opbygget molekyle, som<br />

man troede der var tale om, ikke kunne give anledning<br />

til den mangfoldighed af arter vi kender.<br />

Efter Averys opdagelse interesserede man sig mere<br />

for DNA-molekylet, og biokemikeren Erwin<br />

Chargaff (1905-2002) fandt i slutningen af<br />

1940’erne at i ethvert DNA-molekyle er antallet<br />

af A’er lig med antallet af T’er og på samme måde<br />

er antallet af G’er lig antallet af C’er. Chargaff<br />

fandt også at sammensætningen af DNA varierer<br />

fra art til art mht. de relative mængder af A+T og<br />

G+C. Samtidig lykkedes det biofysikeren Rosalind<br />

Franklin (1920-58) ved hjælp af røntgen-krystallografi<br />

at vise at DNA sandsynligvis er spiralsnoet<br />

som en helix, men om der var to eller tre<br />

kæder var uklart.<br />

Nukleinsyrernes opbygning<br />

Genom Transkriptom Proteom<br />

DNA<br />

Replikation<br />

Transkription<br />

RNA<br />

Translation<br />

Protein<br />

Figur 1.2 Skitse af flowet af den genetiske information i en menneskecelle. Genomet er den samlede DNA-sekvens,<br />

transkriptomet udgøres af RNA-transkripterne, og proteomet er den samlede gruppe af proteiner som <strong>genom</strong>et koder for.<br />

James Watson (f. 1928) og Francis Crick<br />

(1916-2004) kunne i 1953 offentliggøre den<br />

korrekte model for et DNA-molekyle, som bestående<br />

af to strenge snoet omkring hinanden i<br />

en dobbelthelix1<br />

(også kaldet Watson-Crickmodellen,<br />

Figur 1.3A). Hver DNA-streng består<br />

af en kæde af alternerende deoxyribose og<br />

fosfat med en base bundet til hver deoxyriboseenhed.<br />

I modellen danner de to DNA-strenge en stige<br />

formet som en højredrejet spiral (Figur<br />

1.3A). Det er senere vist, at en DNA-dobbelthelix<br />

også kan antage andre former, som bl.a.<br />

har betydning for binding af regulatoriske proteiner.<br />

De to kæder holdes sammen af hydrogen-bindinger<br />

mellem baserne, hvor A i den<br />

ene kæde parres med T i den anden, og G tilsvarende<br />

med C. Heraf følger, at kender man<br />

base-rækkefølgen (sekvensen) i den ene streng,<br />

så kender man automatisk også rækkefølgen i<br />

den anden streng – de to strenges basesekvenser<br />

er komplementære. Det bemærkes at der er 3<br />

hydrogen-bindinger mellem G og C og kun 2<br />

mellem A og T. Dette betyder at jo højere indholdet<br />

af GC-par er i et DNA-segment, desto<br />

1 1953a Watson JD & Crick FHC. Molecular structure of nucleic<br />

acids: a structure for deoxyribose nucleic acid. Nature<br />

171: 737-738 og 1953b Watson JD & Crick FHC. Genetical<br />

implications of the structure of deoxyribonucleic<br />

acid. Nature 171: 964-967<br />

15


18209 01.fm7 Page 16 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

mere energi skal der til for at bryde hydrogenbindingerne<br />

og adskille de to DNA-strenge i<br />

det pågældende område. Dette har betydning<br />

16<br />

A<br />

B<br />

CH 3<br />

N<br />

5' 3'<br />

C G<br />

A T<br />

G C<br />

T A<br />

C G<br />

A T<br />

T A<br />

C G<br />

C G<br />

A T<br />

A T<br />

C G<br />

A T<br />

C G<br />

G C<br />

3' 5'<br />

O N<br />

N N<br />

O<br />

H<br />

Hydrogen<br />

bindinger<br />

N<br />

Thymin Adenin<br />

N<br />

5'<br />

3'<br />

O<br />

O P OH<br />

O<br />

CH2 5' O<br />

C H H C<br />

4'<br />

H C C H<br />

3'<br />

O H<br />

O P OH<br />

O<br />

2'<br />

C G<br />

CH2 5' O<br />

C H C<br />

4'<br />

H C H<br />

3'<br />

O H<br />

O P OH<br />

O<br />

2'<br />

O<br />

C C<br />

O<br />

CH2 O<br />

HO P O<br />

G C<br />

H<br />

C<br />

CH T A<br />

2<br />

5' O<br />

C H H C<br />

4'<br />

H C C<br />

3'<br />

H<br />

2'<br />

O H<br />

3'<br />

H<br />

H<br />

2'<br />

H<br />

1'<br />

4'<br />

C H H C<br />

5'<br />

O<br />

C C<br />

O<br />

CH2 O<br />

HO P O<br />

O<br />

3'<br />

H<br />

2'<br />

H<br />

1'<br />

C H H<br />

5' C<br />

H<br />

4'<br />

C C<br />

O<br />

CH2 O<br />

HO P O<br />

O<br />

3'<br />

1'<br />

1'<br />

H<br />

H<br />

2'<br />

H<br />

1'<br />

4'<br />

C H H C<br />

5'<br />

1'<br />

N<br />

H<br />

N O<br />

N N<br />

O<br />

N<br />

ved DNA-replikation og transkription samt<br />

ved DNA-analyse.<br />

N<br />

N<br />

H<br />

Cytosin Guanin<br />

Figur 1.3 DNA-molekylets struktur. A. Til venstre er vist DNA-dobbelthelix, som består af to DNA-polynukleotidstrenge,<br />

som er snoet om hinanden og danner en højredrejet spiral der holdes sammen af hydrogen-bindinger mellem<br />

de parrede baser. Til højre er vist, at polynukleotidstrengene består af deoxyribose-fosfat-kæder, hvor nukleotiderne i<br />

hver streng er koblet sammen med 3'-5' fosfodiester-bindinger og baserne (A, G, C og T) er kovalent bundet til deoxyribosen.<br />

Pilene angiver orienteringen af de to DNA-strenge, der er antiparallelle i forhold til hinanden. B. DNA indeholder<br />

4 forskellige baser, som parvis er komplementære. Basernes kemiske struktur gør at der kun effektivt kan dannes<br />

hydrogen-bindinger mellem A og T samt mellem G og C i DNA-dobbelthelix. Der dannes to hydrogen-bindinger mellem<br />

A og T mens der dannes tre hydrogen-bindinger mellem G og C. Denne baseparring mellem de to polynukleotidstrenge<br />

kan kun ske når disse er antiparallelt orienteret.<br />

N<br />

3'<br />

5'


18209 01.fm7 Page 17 Friday, March 3, 2006 12:37 PM<br />

A<br />

B<br />

HOCH2 O OH<br />

H<br />

H H<br />

H<br />

OH OH<br />

Ribose<br />

O<br />

HC<br />

C<br />

NH<br />

HC<br />

N<br />

H<br />

C<br />

Uracil<br />

O<br />

HOCH 2 O OH<br />

H<br />

H H<br />

OH H<br />

H<br />

Deoxyribose<br />

H 3 C<br />

Når to DNA-strenge ved baseparring associeres<br />

til en DNA-dobbelthelix sker det i modsat<br />

orientering, hvilket vil sige at hvis den ene<br />

streng fx er orienteret i 5'→3'-retning<br />

så vil den<br />

anden streng orienteres i 3'→5'-retning;<br />

de er<br />

antiparallelle, som vist i Figur 1.3A. Nomenklaturen<br />

for retningen skyldes, at nukleotiderne<br />

under syntesen af DNA-strengen bindes sammen<br />

af esterbindingen mellem den fri OHgruppe<br />

i det sidst indbyggede nukleotid og fosfatgruppen<br />

i det ny. Den fri OH-gruppe sidder<br />

på det C-atom i deoxyribosen der betegnes<br />

med 3' og definerer dermed DNA-strengens 3'ende.<br />

Tilsvarende defineres 5'-enden af den fri<br />

fosfatgruppe på deoxyribosens 5'-C.<br />

En DNA-streng består således af en lang række<br />

enheder (nukleotider), som hver igen består<br />

af følgende tre elementer: 1) deoxyribose, som<br />

er et kulhydrat med 5 C-atomer (en pentose),<br />

hvortil der dels er bundet 2) en nitrogenholdig<br />

base (A, G, C eller T), dels 3) en fosfatgruppe.<br />

Cytosin og thymin tilhører pyrimidingruppen af<br />

baser, der er opbygget af en sekskantet pyrimi-<br />

C<br />

HC<br />

O<br />

C<br />

NH<br />

C<br />

ON<br />

H<br />

Thymin<br />

C<br />

5' 3'<br />

Nukleinsyrernes opbygning<br />

Figur 1.4 Strukturelle forskelle mellem RNA og DNA.<br />

A. RNA indeholder kulhydratet ribose, som svarer til DNA’ets deoxyribose, men ribosen har en ekstra OH-gruppe.<br />

B. RNA indeholder basen uracil, som ligner thymin, men mangler CH3-gruppen. C. I RNA er nukleotiderne som i DNA<br />

koblet sammen med 3'-5' fosfodiester-bindinger. I modsætning til DNA er RNA enkeltstrenget, men indeholder ofte<br />

korte strækninger af nukleotider som baseparrer med komplementære sekvenser andre steder i samme molekyle ( ).<br />

Dette medfører at et RNA-molekyle kan foldes i en tredimensionel struktur bestemt af nukleotidsekvensen.<br />

G<br />

U<br />

A<br />

U<br />

C<br />

C<br />

A<br />

U<br />

A<br />

G<br />

dinring, mens guanin og adenin tilhører puringruppen,<br />

som har en femkantet ring koblet til<br />

den sekskantede (se Figur 1.3B).<br />

RNA<br />

RNA-molekyler er polynukleotider, ligesom<br />

DNA-molekylet, men adskiller sig på tre væsentlige<br />

punkter fra DNA (Figur 1.4): 1) kulhydrat-molekylet<br />

i RNA-nukleotiderne er ribose,<br />

Boks 1.1<br />

Længdeenheder i DNA- og RNA-molekyler<br />

Da DNA er dobbeltstrenget, angives længden af molekylerne<br />

i antal basepar (bp). Et kilobasepar (kb) er<br />

103 bp og et megabasepar (Mb) er 106 bp. Et gigabasepar<br />

(Gb) er 109 bp.<br />

1 kb = 1000 bp<br />

1Mb = 1000 kb = 1.000.000 bp<br />

1 Gb = 1000 Mb = 1.000.000 kb = 1.000.000.000 bp<br />

Længden af RNA-molekyler kan ikke udtrykkes i bp, da<br />

de er enkeltstrengede, hvorfor længden angives i antal<br />

nukleotider.<br />

17


18209 01.fm7 Page 18 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

2) RNA indeholder ikke thymin, men i stedet<br />

pyrimidinen uracil, som ligeledes er komplementær<br />

til adenin, og 3) RNA-molekyler er<br />

enkeltstrengede, men indeholder oftest korte<br />

strækninger af nukleotider som baseparrer med<br />

komplementære sekvenser andre steder i molekylet<br />

(Figur 1.4C).<br />

Pakning af DNA til kromosomer<br />

Kromosomerne gennem cellecyklus<br />

Kromosomer afbildes næsten altid i en tilstand<br />

hvor kromatinet, dvs. DNA og associerede<br />

proteiner, er mest kompakt. Denne tilstand optræder<br />

kun i en meget kort periode af cellens<br />

livscyklus, nemlig i metafasen i celledelingen<br />

(Figur 1.5 og 1.6; se også Kapitel 2).<br />

På alle andre tidspunkter ligger kromosomerne<br />

som lange, tynde og fine tråde i cellekernen,<br />

og kan kun vanskeligt visualiseres i mikroskopet.<br />

Et kromosom fungerer som en strukturel<br />

enhed i cellen, og hvert enkelt kromosom ligger<br />

i et afgrænset afsnit ( compartment)<br />

i cellekernen<br />

(Figur 1.6).<br />

18<br />

Figur 1.5 Spredte kromosomer fra en celle i metafasen<br />

efter Giemsa-farvning, hvor man kan se lyse og mørke<br />

bånd langs de enkelte kromosomer. Parvis er kromosomernes<br />

båndmønster ens undtagen for X- og Y-kromosomerne.<br />

Tallene angiver eksempler på kromosompar,<br />

her nr. 1 og 13 samt kønskromosomerne X og Y.<br />

Hvert kromatid (G1-fase-kromosom/G2-fa<br />

se-kromosomhalvdel – se Figur 2.1) indeholder<br />

ét langt, lineært, dobbeltstrenget DNA-molekyle<br />

som er mange millioner basepar langt.<br />

Figur 1.6 Til venstre er vist en FISH-farvning af metafase-kromosomer fra dyrkede lymfocytter med whole chromosome<br />

painting-prober for kromosom 2 (rød) og kromosom 16 (grøn) (Se Kap. 4 for beskrivelse af FISH-farvning). Kontrastfarven<br />

er 4’,6-diamidino-2-fenylindol (DAPI), som farver de øvrige kromosomer (blå). Til højre er vist en cellekerne,<br />

hvor man kan se de enkelte kromosomer (2 og 16) liggende i hvert sit compartment. De øvrige kromosomer kan ikke<br />

ses individuelt, men er kontrastfarvet blå.


18209 01.fm7 Page 19 Friday, March 3, 2006 12:37 PM<br />

Længden af det enkelte DNA-molekyle afhænger<br />

af størrelsen af kromosomet som vist i Tabel<br />

1.1.<br />

Kromosomstrukturen og graden af kromosomernes<br />

kondensering varierer med cellecyklus<br />

(se Mitosen, side 52), og man skelner på<br />

den baggrund mellem mitotiske kromosomer<br />

og interfasekromosomer.<br />

Pakning af DNA til kromosomer<br />

Tabel 1.1 Det haploide humane <strong>genom</strong>. DNA-indholdet samt antallet funktionelle gener i hvert<br />

kromosom.<br />

Fra National Center for Biotechnology Information (NCBI) Human Genome Project, november 2005<br />

Kromosom Mb % af <strong>genom</strong>et Samlede antal gener Antal Gener/Mb * % af gener i alt<br />

1 246 8,0 2610 10,6 9,7<br />

2 243 7,9 1748 7,2 6,5<br />

3 200 6,5 1381 6,9 5,2<br />

4 191 6,2 1024 5,4 3,8<br />

5 189 6,1 1190 6,3 4,4<br />

6 171 5,5 1394 8,2 5,2<br />

7 159 5,1 1378 8,7 5,1<br />

8 146 4,7 927 6,3 3,5<br />

9 138 4,5 1076 7,8 4,0<br />

10 135 4,4 983 7,3 3,7<br />

11 135 4,4 1692 12,5 6,3<br />

12 132 4,3 1268 9,6 4,7<br />

13 114 3,7 496 4,3 1,9<br />

14 106 3,4 1173 11,0 4,4<br />

15 100 3,3 906 9,0 3,4<br />

16 89 2,9 1032 11,6 3,8<br />

17 79 2,6 1394 17,7 5,2<br />

18 76 2,5 400 5,3 1,5<br />

19 64 2,1 1592 25,0 5,9<br />

20 62 2,0 710 11,4 2,6<br />

21 47 1,5 337 7,2 1,3<br />

22 50 1,6 701 14,1 2,6<br />

X 155 5,0 1141 7,4 4,3<br />

Y 58 1,9 255 4,4 1,0<br />

3085 100,0 26808 8,7 100,0<br />

* Bemærk variationen i gen-tætheden på de enkelte kromosomer<br />

Interfasekromosomer og kromatindomæner<br />

Den samlede længde af alle 46 DNA-molekyler<br />

i en cellekerne i G1-fasen er ca. 2 meter. De er<br />

pakket i en cellekerne som for en typisk menneskecelle<br />

vil være omkring 5-8 µm i diameter.<br />

Omregnet svarer det til at hvis man forestiller<br />

sig cellekernen på størrelse med en tennisbold<br />

19


18209 01.fm7 Page 20 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

så skulle den indeholde en ca. 20 km lang og<br />

meget tynd tråd (ca. 20 µm i tykkelse).<br />

For at cellekernen skal kunne rumme ca. 2 meter<br />

DNA, må det nøgne DNA pakkes med forskellige<br />

proteiner til det kompleks der kaldes kromatin.<br />

Disse proteiner består af en familie af basiske<br />

proteiner kaldet histoner og en heterogen<br />

gruppe af sure såkaldte non-histon-proteiner,<br />

som er knap så velkarakteriserede som histonerne.<br />

De forskellige hierarkiske niveauer i pakningen<br />

af kromosomer er skematiseret i Figur 1.7.<br />

Der er fem hovedtyper af histoner (H1, H2A,<br />

H2B, H3 og H4) som spiller en særdeles vigtig<br />

rolle for pakningen af DNA’et i cellekernen.<br />

Aminosyresekvenserne (aminosyrer er byggesten<br />

i proteiner) af H2A, H2B, H3 og H4 er<br />

20<br />

600 nm<br />

Kromatinloop<br />

(~75 kb)<br />

p<br />

q<br />

13<br />

12<br />

11.2<br />

11.1<br />

11.1<br />

11.2<br />

12<br />

21.1<br />

21.2<br />

21.3<br />

22<br />

23<br />

24<br />

25<br />

Kromatider<br />

600 nm 600 nm<br />

Scaffold<br />

30 nm<br />

9,5 Mb<br />

6,0 Mb<br />

7,0 Mb<br />

4,5 Mb<br />

5,5 Mb<br />

3,0 Mb<br />

8,5 Mb<br />

8,0 Mb<br />

4,5 Mb<br />

7,5 Mb<br />

8,0 Mb<br />

10 nm<br />

1,5 Mb<br />

Nukleosom<br />

30 nm 10 nm<br />

Kromatinfiber<br />

2 nm<br />

Linker DNAdobbelthelix<br />

Figur 1.7 Fra DNA-dobbelthelix til metafase-kromosom. Her er vist et ideogram for human kromosom 17 i G-båndmønster<br />

(400-bånds opløsning). Til venstre på ideogrammet er vist båndnummereringen og til højre på ideogrammet<br />

er vist de omtrentlige længder af DNA-dobbelthelix indeholdt i de enkelte lyse og mørke bånd. Til højre for ideogrammet<br />

er vist en stiliseret tegning som viser princippet i at de to kromatider hver består af en lang DNA-dobbelthelix.<br />

Disse er pakket på den måde som er illustreret nederst i figuren. Den estimerede pakningsratio for humane kromosomer<br />

er 1:10 på nukleosom-niveau, 1:36 for 30 nm kromatin-fiberen og 1: >10.000 for metafase-kromosomet.<br />

meget velbevaret gennem evolutionen, som<br />

vist i Tabel 1.2 for H4, hvor der er en meget<br />

høj grad af sekvens-identitet mellem meget forskellige<br />

eukaryote arter. Dette betyder at<br />

DNA-pakningen er en grundlæggende mekanisme,<br />

som er ens for selv meget forskelligartede<br />

eukaryote organismer. To kopier af hver af<br />

disse fire histoner danner tilsammen en histonoktamer,<br />

som et segment af DNA-dobbelthelixen<br />

på ca. 140 bp vindes omkring ligesom en<br />

tråd om en spole. Det svarer til at dobbelthelixen<br />

er vundet lige under 2 gange rundt om oktameren<br />

og fortsætter i et kort linker-segment<br />

på<br />

mellem 20 og 60 basepar til næste histon-oktamer.<br />

Det enkelte kompleks bestående af histonoktamer<br />

og DNA kaldes et nukleosom,<br />

og er


18209 01.fm7 Page 21 Friday, March 3, 2006 12:37 PM<br />

den grundlæggende strukturelle enhed i kromatinet.<br />

Histon H1, hvis aminosyresekvens varierer<br />

en del mere mellem arterne end de øvrige<br />

histoners, synes at binde til DNA fra kanten af<br />

hvert nukleosom.<br />

Igennem cellecyklus undergår kromosomerne<br />

en ordnet cyklus af kondensering og dekondensering.<br />

I interfasekernen er kromosomerne og<br />

kromatinet relativt dekondenseret sammenlignet<br />

med kondenseringsgraden af kromatinet i metafase-kromosomerne.<br />

Dog er det sådan at selv i<br />

interfasekernen er DNA mere kondenseret end<br />

det ville være i sin native, proteinfrie form (også<br />

kaldet nøgent DNA). Det meste, hvis ikke alt,<br />

DNA i cellekernen er associeret med histoner,<br />

hvilket kondenserer det til ca. 10% af dets native<br />

længde (Figur 1.7). Eksempelvis vil DNA’et i<br />

kromosom 17 i sin native, nøgne form have en<br />

længde på ca. 5 cm og efter kompleksdannelsen<br />

med histonerne vil den være ca. 0,5 cm.<br />

Nukleosomfiberen (10 nm-fiberen, Figur<br />

1.7), som har et perler-på-en-snor-udseende, er<br />

igen pakket som en helix i en sekundær kromatinstruktur<br />

kaldet en solenoide. I et elektronmikroskop<br />

kan denne kromatinfiber ses som en 30<br />

nm tyk fiber og er således ca. 3 gange tykkere<br />

end nukleosomfiberen.<br />

Pakning af DNA til kromosomer<br />

Tabel 1.2 Aminosyre-sekvenserne i ét-bogstavkode (se Kap. 17, side ##) for histon H4 fra forskellige<br />

arter. Understregning viser forskel fra den humane sekvens og »……« angiver manglende aminosyrer.<br />

Data er fra NCBI.<br />

Menneske<br />

Okse<br />

Kylling<br />

Rotte<br />

Majs<br />

Bananflue<br />

S. pombe (gær)<br />

aminosyre nr 1 103<br />

msgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrgvlk vflenvirda vtytehakrk tvtamdvvya lkrqgrtlyg fgg<br />

msgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrgvlk vflenvirda vtytehakrk tvtamdvvya lkrqgrtlyg fgg<br />

msgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrgvlk vflenvirda vtytehakrk tvtamdvvya lkrqgrtlyg fgg<br />

msgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrgvlk vflenvirda vtytehakrk tvtamdvvya lkrqgrtlyg fgg<br />

msgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrgvlk iflenvirda vtyteharrk tvtamdvvya lkrqgrtlyg fgg<br />

mtgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrgvlk vflenvirda vtytehakrk tvtamdvvya lkrqgrtlyg fgg<br />

msgrgkggkg lgkggakrhr kilrdniqgi tkpairrlar rggvkrisal vyeetravlk lflenvirda vtytehakrk tvtsldvvys lkrqgrtiyg fgg<br />

Pyrenomonas salina msgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrsvlk vflenvirda vtyteharrk tvtamdvvya lkrqgrtlyg fgg<br />

Aspergillus nidus<br />

msgrg...........akrhr kilrdniqgi tkpairrlar rggvkrisam iyeetrgvlk tflegvirda vtytehakrk tvtsldvvya lkrqgrtlyg fgg<br />

Hver omdrejning i solenoiden svarer til seks<br />

nukleosomer og synes at udgøre den grundlæggende<br />

enhed i kromatin-organisationen. Pakket<br />

således vil DNA’et i kromosom 17 være ca.<br />

0,1 cm langt.<br />

Hver solenoide er igen pakket i form af såkaldte<br />

loops (slynger) eller domæner, som med<br />

intervaller på omkring 10-100 kb er fastgjort til<br />

Boks 1.2<br />

HETEROKROMATIN<br />

1 Konstitutivt heterokromatin repræsenterer DNA<br />

som ikke indeholder gener og altid bevares kompakt<br />

i sin organisation. Denne del omfatter bl.a.<br />

centromer- og telomer-DNA.<br />

2 Fakultativt heterokromatin mener man indeholder<br />

gener som er inaktive i nogle celler, eller er inaktive<br />

i bestemte dele af cellecyklus, mens de i andre celler<br />

eller andre dele af cellecyklus er aktive. Når generne<br />

er inaktive, pakkes de som heterokromatin.<br />

Det menes at kromatinstrukturen er så kompakt at<br />

de proteiner som er involveret i gen-ekspression ikke<br />

kan komme til.<br />

EUKROMATIN<br />

De resterende kromosomregioner som indeholder<br />

de aktive gener, er mindre kompakte og tillader at<br />

ekspressions-proteinerne kan komme til. Eukromatin<br />

findes spredt i kromosomerne.<br />

21


18209 01.fm7 Page 22 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

et non-histon-protein-netværk også kaldet matrix<br />

eller scaffold (proteinskelet) (Figur 1.9A).<br />

De enkelte loops er bundet til protein-skelettet<br />

via AT-rige DNA-regioner kaldet MARs ( matrix-associated<br />

regions)<br />

eller SARs ( scaffold attachment<br />

regions).<br />

Det er ikke endeligt afklaret om<br />

disse loops er de grundlæggende funktionelle<br />

enheder ved eksempelvis replikation eller<br />

transkription eller begge dele.<br />

Når cellerne ikke er i deling, kan man med<br />

lysmikroskopi se at cellekernen har lyse og<br />

mørkt farvede områder. De mørkt farvede<br />

områder synes at koncentrere sig i periferien af<br />

cellekernen og kaldes heterokromatin. Det er<br />

relativt kompakt i sin organisation, selvom det<br />

er mindre kompakt end i metafase-kromosom-strukturen.<br />

Man skelner mellem konstitutivt<br />

og fakultativt heterokromatin (Boks<br />

1.2),<br />

Mitotiske kromosomer<br />

De ovenfor omtalte loops kan udgøre begyndelsen<br />

til de fortykkelser som kan ses i mikroskopet<br />

i den tidlige profase, hvor mitosen begynder.<br />

I selve profasen kan kromosomerne let ses<br />

i lysmikroskopet. Efter farvning af kromosomerne<br />

kan der identificeres 1000 bånd eller flere<br />

(høj-opløsnings-båndfarvning), og et bånd<br />

vil således kunne rumme flere millioner basepar<br />

og måske 30-100 gener. I profasen er kromosom<br />

17 kondenseret til en længde på ca. 15 µm<br />

svarende til 1/3000 af længden af DNA-molekylets<br />

native form.<br />

Når kondenseringen er maksimal, som i<br />

metafasen, har kromosomerne en længde på ca.<br />

1/50.000 af DNA’ets native længde. I en metafase<br />

efter båndfarvning kan et bånd således teoretisk<br />

indeholde ca. 5-20 millioner basepar.<br />

Med menneskets ca. 27.000 gener og et samlet<br />

antal bånd på metafasekromosomerne på 400<br />

bliver den gennemsnitlige gentæthed ca. 70 gener<br />

per bånd.<br />

22<br />

Efter mitosen dekondenserer kromosomerne<br />

og indtager igen deres kromatinstruktur i interfasekernen,<br />

hvor de er klar til at begynde en ny<br />

cyklus.<br />

Strukturer i kromosomet<br />

Metafasekromosomet, der dannes på et tidspunkt<br />

i cellecyklus, efter at DNA-replikationen<br />

har fundet sted (se videre i kapitel 2), består<br />

af to udgaver af et lineært DNA-molekyle<br />

repræsenteret ved de to kromatider, som holdes<br />

sammen i centromeret (Figur 1.8 og<br />

1.9B). Centromeret har forskellig placering på<br />

de enkelte kromosomer (se karyotypen, Figur<br />

1.8).<br />

En vigtig del af centromer-funktionen knytter<br />

sig dels til at holde kromatiderne sammen,<br />

dels til selve adskillelsen heraf i mitosen og<br />

meiosen (Figur 1.11). En plade-lignende struktur,<br />

kinetokoren, der ligger på overfladen af de<br />

to kromatider i centromer-regionen, fungerer<br />

som vedhæftningspunkt for de mikrotubuli,<br />

der stråler ud fra centriolerne, og trækker de<br />

segregerende kromatider til hver deres dattercelle.<br />

Det er særlige DNA-sekvenser, kaldet<br />

alphoid DNA (se Tabel 1.5), som udgør<br />

DNA’et i centromer-regionerne, og der er stor<br />

sekvenslighed mellem disse fra forskellige arter.<br />

De fungerer som bindingssted for centromerspecifikke<br />

proteiner, hvoraf der er mindst fem<br />

forskellige, og som hæfter tentrådene.<br />

En anden vigtig region på kromosomet er den<br />

terminale region, telomeren, dvs. den yderste<br />

ende af kromosomets to arme (Figur 1.10). Telomer-regionen<br />

består af DNA, der udgøres af<br />

den repeterede enhed: 5'-TTAGGG-3' (hhv.<br />

5'-CCCTAA-3'). Den er repeteret op til et par<br />

tusind gange og udgør op til ca. 12 kb i hver ende<br />

af kromatiderne. Yderst er der et 3'-overhæng,<br />

som består af enkeltstrenget DNA (se Figur<br />

1.12).


18209 01.fm7 Page 23 Friday, March 3, 2006 12:37 PM<br />

Telomer-længden er vigtig for kromosomets<br />

stabilitet, men bliver lidt mindre efter hver replikation,<br />

og når længden kommer ned under<br />

en bestemt grænse, er det en afgørende og<br />

medvirkende årsag til celle-aldring og snarlig -<br />

død. Cancerceller har dog bevaret aktiviteten af<br />

nogle gener, der koder for proteiner (bl.a. telomeraser),<br />

som kan sikre bevarelsen af telomerlængden<br />

under replikationen, hvilket har betydning<br />

for deres immortalitet.<br />

Genomets struktur<br />

Figur 1.8 Et eksempel på en kromosom-undersøgelse med G-båndfarvning af celler fra en knoglemarvsprøve. Resultatet<br />

er den mandlige karyotype 46,XY. Til højre for hvert kromosompar er vist et G-båndsideogram i 400-bånds opløsning<br />

hvor de små tal angiver eksempler på båndnummerering (se Kap. 17, side 252). De røde områder viser centromererne.<br />

De har forskellig placering på de enkelte kromosomer og markerer skellet mellem den korte (p) og lange (q) arm<br />

heraf. De akrocentriske kromosomer 13, 14, 15, 21 og 22 indeholder på den korte arm rRNA-generne, der koder for ribosom-RNA<br />

(rRNA). rRNA-generne er repeteret flere hundrede gange. De gråt markerede områder på den lange arm<br />

nær centromeret på kromosomerne 1, 3, 4, 9, 16 og 19, de korte arme af de akrocentriske kromosomer samt Yq12 angiver<br />

lokalisationen af konstitutivt heterokromatin, se Boks 1.2.<br />

Genomets struktur<br />

Generelt<br />

Den genetiske information i en menneskecelle<br />

består, som tidligere omtalt, af to <strong>genom</strong>er: et<br />

kompliceret nukleært <strong>genom</strong> og et mere simpelt<br />

mitokondrie-<strong>genom</strong> (Figur 1.13). Det nukleære<br />

<strong>genom</strong> udgør langt hovedparten af den genetiske<br />

information mens mitokondrie-<strong>genom</strong>et<br />

samlet kun er ansvarligt for en mindre del heraf<br />

og i øvrigt kun en del som vedrører nogle af de<br />

23


18209 01.fm7 Page 24 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

Figur 1.9 A. Et elektronmikroskopisk udsnit af en cellekerne,<br />

hvor man efter særlig protein-ekstraktion kan<br />

se de enkelte kromatin-fibre strækkende sig ud fra<br />

scaffold. B. Et scanningelektron-mikroskopibillede af et<br />

metafasekromosom, som viser de to kromatider bundet<br />

sammen i centromeret. De mange små knude-formede<br />

projektioner viser de enkelte grupper af kromatin-loops<br />

(se også Figur 1.7).<br />

specifikke mitokondrielle, omend livsnødvendige,<br />

funktioner.<br />

Med udgangspunkt i skitsen ovenfor af det<br />

humane <strong>genom</strong> vil de enkelte dele heraf blive<br />

gennemgået mere detaljeret.<br />

24<br />

Mikrotubuli<br />

Kinetokor<br />

Figur 1.11 Kinetokoren er det sted, hvor mikrotubuli<br />

vedhæfter og trækker de segregerende kromatider til<br />

hver deres dattercelle.<br />

A<br />

B<br />

Kromatid<br />

Telomer<br />

Centromer<br />

Subtelomer<br />

region<br />

100-300 kb ˜ 12 kb<br />

Telomer- Telomer<br />

associerede<br />

repeats<br />

Figur 1.10 A. Et metafasekromosom består af to kromatider<br />

(kaldet søsterkromatider), som holdes sammen<br />

i centromeret. Regionerne i enderne af kromatiderne<br />

benævnes telomerer. B. Et udsnit af den ene ende af et<br />

kromatid, hvor telomeren udgør de terminale ca. 12 kb,<br />

Telomer-associerede repeats udgør 100-300 kb (se Tabel<br />

1.5) og mest centromert ligger subtelomer-regionen,<br />

som er rig på gener.<br />

Det nukleære <strong>genom</strong>s opbygning<br />

Kernen i en menneskecelle indeholder mere<br />

end 99% af cellens samlede DNA-indhold, der<br />

i det haploide <strong>genom</strong> udgør 3,1 Gb. Det indeholder,<br />

som tidligere angivet, omkring 27.000<br />

gener. Den samlede DNA-mængde i en celle,<br />

udgør i interfasen ca. 7 pg (1 pg = 10 -12 gram).<br />

Som det fremgår af Figur 1.13 består <strong>genom</strong>et<br />

i cellekernen af dels gener og gen-relaterede<br />

sekvenser, dels intergenisk DNA. Gener og<br />

5’<br />

3’<br />

..... AGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAG<br />

•••••••••••••••••••••••••••<br />

..... TCCCAATCCCAATCCCAATCCCAATCC<br />

3’ 5’<br />

Figur 1.12 Telomer-regionen. De terminale op til 12<br />

kb af et kromosom udgøres af den repeterede enhed<br />

5'-TTAGGG-3' (indrammet). Enheden er repeteret op til<br />

et par tusinde gange. Ved hver celledeling bliver regionen<br />

kortere.


18209 01.fm7 Page 25 Friday, March 3, 2006 12:37 PM<br />

Gener og genrelaterede<br />

sekvenser<br />

1.100 Mb<br />

Kodende<br />

DNA 48 Mb<br />

Pseudogener<br />

Ikke-kodende<br />

DNA 1.052 Mb<br />

Genfragmenter<br />

Introns,<br />

UTR<br />

Det nukleære <strong>genom</strong><br />

3.100 Mb<br />

~27.000 gener<br />

LINEs<br />

640 Mb<br />

gen-relaterede sekvenser udgør ca. 35% af <strong>genom</strong>et,<br />

hvor den kodende del kun udgør i alt<br />

ca. 1,5% af det samlede <strong>genom</strong>.<br />

Langt hovedparten af <strong>genom</strong>et, ca. 65%, udgøres<br />

af intergenisk DNA, dvs. DNA-sekvenser<br />

som ligger mellem generne. Det intergeniske<br />

DNA består hovedsageligt af forskellige former<br />

for repeterede DNA-sekvenser, som vil blive<br />

beskrevet nærmere nedenfor (se side 35ff).<br />

Gener og gen-relaterede sekvenser<br />

Kodende DNA – genernes struktur<br />

En organismes DNA koder for al RNA og dermed<br />

de proteiner som er nødvendige for, at organismen<br />

kan danne og vedligeholde sine celler,<br />

væv og organer. Samlet udgør den proteinkodende<br />

information hovedparten af det omkring<br />

48 Mb kodende DNA, dvs. ca. 1,5% af hele<br />

<strong>genom</strong>et.<br />

Et gen kan defineres som et segment af kromosomalt<br />

DNA der er indeholder den nødvendige<br />

information for dannelsen af et funktionelt<br />

produkt. Man skelner nu mellem to grupper af<br />

gener: 1) gener som transkriberes til mRNA,<br />

<strong>Menneskets</strong> <strong>genom</strong><br />

Intergenisk DNA<br />

2.000 Mb<br />

Interspersed<br />

repeats 1.400 Mb<br />

SINEs<br />

420 Mb<br />

LTRelementer<br />

250 Mb<br />

Transposoner<br />

90 Mb<br />

2 rRNAgener<br />

Mitokondrie-<strong>genom</strong>et<br />

16,6 kb<br />

37 gener<br />

22 tRNAgener<br />

Andre intergeniske<br />

regioner 600 Mb<br />

Mikrosatellitter<br />

90 Mb<br />

Figur 1.13 Skematisk oversigt som viser de forskellige elementer i menneskets <strong>genom</strong>.<br />

Andre<br />

510 Mb<br />

Genomets struktur<br />

13 polypeptidkodende<br />

gener<br />

der i ribosomer translateres til protein, og 2) gener,<br />

hvis transkripter er ikke-kodende og som<br />

anvendes direkte til særlige funktioner (fx tR-<br />

NA, rRNA, snRNA osv). – se Boks 1.3.<br />

Boks 1.3 Ikke-kodende RNA (udvalgte eksempler)<br />

Type Funktion<br />

rRNA proteinsyntese<br />

tRNA proteinsyntese<br />

snRNA mRNA-processering<br />

snoRNA RNA-processering<br />

Xist-RNA X-kromosom-inaktivering<br />

telomerase-RNA telomersyntese<br />

miRNA RNA-interferens<br />

Det bemærkes at ifølge denne definition indeholder<br />

et gen ikke kun de kodende sekvenser<br />

man kan genfinde i transkriptet, men også de<br />

ofte tætved liggende regulatoriske sekvenser,<br />

der er nødvendige for en kontrolleret ekspression<br />

af genet (promotor, enhancere mv., se Figur<br />

1.18 og 1.19 og afsnittet »Fra DNA til protein«,<br />

side 40ff).<br />

25


18209 01.fm7 Page 26 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

Hos eukaryote organismer er de proteinkodende<br />

gener som regel diskontinuerte, forstået<br />

på den måde at genets proteinkodende in-<br />

26<br />

Kodende RNA<br />

(mRNA)<br />

Gener<br />

Ikke-kodende RNA<br />

(fx tRNA, rRNA)<br />

Figur 1.14 Genernes transkriptionsprodukter kan<br />

som følge af deres funktion opdeles i to hovedgrupper:<br />

1) kodende RNA, koder for dannelse af proteiner,<br />

2) ikke-kodende RNA, som kan have enzymatisk eller<br />

strukturel funktion (Boks 1.3).<br />

3'<br />

5'<br />

-75<br />

CCAAT<br />

box<br />

Promotorsekvenser<br />

-30<br />

TATA<br />

box<br />

Transkriptionsstart<br />

Exon 1<br />

1 30 31<br />

Exon 2<br />

104<br />

intron 1 intron 2<br />

+1<br />

Cap ATG<br />

site startcodon<br />

}<br />

C A<br />

AAGGT<br />

G AGT<br />

}<br />

(Y) n NYAGG<br />

Konsensus-sekvenser for<br />

5'- (donor) og 3'- (acceptor)<br />

splejsningssignaler<br />

formation, er delt op i en serie af delsekvenser<br />

kaldet exons, som er adskilt af ikke-kodende<br />

såkaldte intron-sekvenser som illustreret i Figur<br />

1.15.<br />

»Opstrøms« (upstream) og »nedstrøms« (downstream)<br />

er begreber, som hhv. definerer 5'- og 3'regionerne<br />

og bruges ved stedsangivelse i forhold<br />

til en given position i et gens DNA, i RNA<br />

eller i cDNA. Opstrøms- hhv. nedstrøms-regionerne<br />

for transkriptionsstart og -stop indeholder<br />

ofte områder som er af betydning for regulationen<br />

af et givet gens ekspression, dvs. hvor<br />

meget og hvornår et gen skal udtrykkes.<br />

Transkriptionen (dvs. dannelsen af en RNAkopi)<br />

af et gen foregår altid således at transkriptet<br />

(RNA-kopien) syntetiseres i retningen<br />

}<br />

Transkription<br />

og capping<br />

105<br />

}<br />

Exon 3<br />

146<br />

TAA<br />

stopcodon<br />

Transkriptionsstop<br />

5'<br />

3'<br />

AATAAA<br />

signal for trimning<br />

og polyadenylering<br />

Cap Exon 1 Exon 2 Exon 3<br />

5'<br />

intron 1 intron 2 3'<br />

UTR<br />

Det primære transkript<br />

(præ-mRNA)<br />

UTR<br />

Figur 1.15 Nukleære proteinkodende geners anatomi. Her er som et eksempel vist β-globin-genet med regulatoriske<br />

promotor-sekvenser (CCAAT-box og TATA-box), som sidder opstrøms for start af de aminosyre-kodende sekvenser<br />

(ATG). Disse promotor-sekvenser har betydning for reguleringen af ekspressionen. Opstrøms sidder et Cap site og nedstrøms<br />

sidder et polyadenyleringssignal. Når transkriptionen er til ende, bliver 3 transkriptionsproduktet trimmet og<br />

polyadenyleret i 3'-enden, hvilket beskytter transkriptet mod nedbrydning og desuden faciliterer transport ud af cellekernen.<br />

Endvidere bemærkes det at proteinkodende gener hos eukaryote organismer med få undtagelser er diskontinuerte,<br />

dvs. de kodende sekvenser er afbrudt af introns også kaldet intervening sequences (IVS). Der er konsensussekvenser<br />

i intron-exon-overgangene som har betydning for at introns splejses rigtigt ud ved den post-transkriptionelle<br />

processering af præ-mRNA’et (se afsnittet Splejsningsmutationer, side 61). UTR = untranslated region.


18209 01.fm7 Page 27 Friday, March 3, 2006 12:37 PM<br />

3’<br />

5’<br />

Gen II Gen III<br />

Gen I<br />

Intergenisk<br />

DNA<br />

5'→3', da RNA-forlængelsen finder sted i den<br />

ende som har en fri 3'-OH-gruppe. Kun den<br />

ene af genets to DNA-strenge anvendes som<br />

template (skabelon) for RNA’et; template-strengen<br />

er den streng der er antiparallel til den nydannede<br />

RNA-kopi. Det er bestemte nukleotidsekvenser<br />

i opstrøms-regionen, som definerer<br />

startpunktet for transkriptionen. Nogle gener<br />

i et kromosom kodes fra den ene DNAstreng<br />

mens andre gener kodes fra den anden<br />

streng og da i modsat retning (Figur 1.16).<br />

Proteinkodende gener koder for et intermediært<br />

RNA-molekyle kaldet messenger-RNA<br />

(mRNA). Det dannede mRNA transporteres<br />

ud til cytoplasmaet, hvor det via sin nukleotidsekvens<br />

styrer syntesen af det protein som sekvensen<br />

koder for, ved en proces kaldet translation<br />

(se nærmere herom side 43ff).<br />

Når et proteinkodende gen udtrykkes, dannes<br />

der først en RNA-kopi af genets ene DNAstreng<br />

(fra og med transkriptionsstartpunktet),<br />

inklusive alle exons og introns. Dette primære<br />

transkript betegnes præ-mRNA. Ved en proces<br />

der kaldes splejsning, fjernes intronsekvenserne,<br />

og exons samles derved til én proteinkodende<br />

sekvens under dannelse af det mRNA,<br />

som til slut transporteres ud i cytoplasmaet,<br />

hvor det dirigerer proteinsyntesen (Figur 1.29).<br />

Ud over splejsningen sker der en modifikation<br />

5’<br />

3’<br />

Figur 1.16 I et kromosoms DNA-molekyle er den<br />

ene streng template-strengen for nogle af generne,<br />

mens den anden er det for andre gener. Generne er<br />

skitseret svarende til deres template-streng. Pilene<br />

angiver transkriptionsretningen.<br />

Genomets struktur<br />

(processering) af det primære transkripts 3'-ende<br />

i form af en trimning (fjernelse af en kortere<br />

el. længere nukleotidsekvens) og en polyadenylering<br />

(påsætning af ca. 200 adenosinnukleotider,<br />

AMP), begge dele signaleret af polyadenyleringssignalet,<br />

5'-AATAAA-3' (se Figur 1.15).<br />

Der kan være flere polyadenyleringssignaler,<br />

som anvendes cellespecifikt (Figur 1.18). Endelig,<br />

men reelt som den første modifikation, påsættes<br />

der tidligt under transkriptionen et guanosin-nukleotid<br />

(den såkaldte cap) i transkriptets<br />

5'-ende.<br />

Tidligere troede man at splejsningsprocessen<br />

var en lige-ud-ad-landevejen proces, hvor hver<br />

exon blev samlet med sine nabo-exons for at<br />

danne et bestemt mRNA-molekyle. Det har<br />

imidlertid vist sig, at mange præ-mRNA-molekyler<br />

undergår såkaldt alternativ splejsning,<br />

hvorved der dannes mRNA-molekyler med<br />

forskellige kombinationer af exons. Der kan således<br />

fra et givet gen laves flere forskellige slags<br />

mRNA, der styrer syntesen af forskellige proteiner<br />

(Figur 1.17 og 1.18).<br />

Alternativ splejsning er en af de processer<br />

som gør det muligt for celler at danne forskellige<br />

mRNA’er ud fra samme gen. Denne type<br />

proces har man tidligere anset for relativt sjældent<br />

forekommende, men med nye studier,<br />

Præ-mRNA<br />

1 2 3<br />

1 2<br />

Figur 1.17 Alternativ splejsning, hvor det ene<br />

mRNA består af exon 1 og 2, mens det andet består af<br />

exon 1 og 3, fra samme gen. Til højre i figuren er skitseret<br />

de resulterende proteiner med forskellige funktionelle<br />

domæner.<br />

13<br />

27


18209 01.fm7 Page 28 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

baseret på bl.a. råskitsen af det humane <strong>genom</strong>,<br />

regner man nu med at den slags RNA-processering,<br />

er almindeligt forekommende. Dette<br />

betyder, at et givet gen kan danne grundlag for<br />

dannelsen af flere forskellige isoformer af proteiner.<br />

Det forhold at der kan dannes forskellige<br />

proteiner fra samme gen betyder ikke nødvendigvis<br />

at de forskellige proteiner laves af<br />

samme celle eller celletype. Det synes snarere<br />

som om der i én celletype anvendes én exonkombination<br />

i mRNA’et, mens der i en anden<br />

celletype anvendes en anden kombination. Eksempelvis<br />

koder et α-tropomyosin-gen for forskellige<br />

isoformer af proteinet, der regulerer<br />

kontraktionen i muskelceller, men som formentlig<br />

har andre funktioner i andre celletyper<br />

(Figur 1.18).<br />

<strong>Menneskets</strong> gener udviser stor variation i størrelse<br />

og intern organisation<br />

Hos bakterier er generne som regel ret små og<br />

relativt ens i størrelse, hvorimod der hos mere<br />

komplekse organismer er meget stor variation i<br />

genernes størrelse. Hos mennesket kan længden<br />

af generne variere fra at være nogle få hundrede<br />

basepar til flere megabaser (Figur 1.19 og 1.20).<br />

28<br />

3’<br />

5’<br />

5’<br />

5’<br />

5’<br />

5’<br />

5’<br />

α-tropomyosin-gen<br />

Transkription + splejsning<br />

3’<br />

3’<br />

5’<br />

3’<br />

DNA<br />

Muskel-mRNA<br />

3’ Glat muskel-mRNA<br />

3’ Fibroblast-mRNA<br />

3’ Fibroblast-mRNA<br />

Hjerne-mRNA<br />

Figur 1.18 Eksempel på alternativ splejsning, hvor de enkelte splejningsmønstre er specifikke for de enkelte celler.<br />

α-Tropomyosin har betydning for muskel-kontraktionen, mens dets rolle i andre celler er uklar. Pilene angiver steder<br />

for polyadenyleringssignaler.<br />

Som man måske kunne forvente, er der en<br />

positiv korrelation mellem størrelsen af genet<br />

og størrelsen af gen-produktet – jo større gen,<br />

desto større protein. Men der findes undtagelser;<br />

fx kodes proteinet apolipoprotein B, der<br />

består af 4.563 aminosyrer, af et gen på ca. 45<br />

kb, mens muskelproteinet dystrofin, som er<br />

3.685 aminosyrer langt, kodes af et gen på<br />

2.400 kb – altså næsten samme antal aminosyrer<br />

i de to proteiner, men mindst 50 gange forskel<br />

i genernes størrelse.<br />

Der synes at være en negativ korrelation mellem<br />

gen-størrelsen og den andel af gen-længden<br />

som findes udtrykt på mRNA-niveau,<br />

hvilket omskrevet betyder at jo større gen, jo<br />

mindre er den relative exon-andel af hele genet.<br />

Dette skyldes ikke at exons i store gener er<br />

mindre end exons i små gener. I stedet er forklaringen<br />

at store gener har lange intron-sekvenser,<br />

hvilket søjlediagrammerne i Figur 1.20<br />

illustrerer.<br />

Mange gener har en <strong>genom</strong>isk udstrækning<br />

på over 100 kb; det størst kendte er dystrofingenet<br />

(DMD, det gen der er muteret ved Duchennes<br />

muskeldystrofi), der er på 2,4 Mb. Variationen<br />

i størrelsesfordelingen af de kodende


18209 01.fm7 Page 29 Friday, March 3, 2006 12:37 PM<br />

β-globin<br />

HPRT<br />

»CAT«<br />

»GC-rig«<br />

»TATA«<br />

»TATA«<br />

sekvenser er mindre ekstrem, og man har beregnet<br />

at gennemsnitslængden for en exon hos<br />

mennesket er ca. 200 bp, selvom der forekommer<br />

yderligheder. Det kan bl.a. nævnes at genet<br />

for det gigantiske muskelprotein titin (med isoformer<br />

på op til 33.000 aminosyrers længde)<br />

har den til dato længste samlede kodende gensekvens<br />

på 114.414 basepar (ud af ialt 294 kb),<br />

fordelt på det ligeledes største antal exons (363)<br />

og med den ligeledes størst kendte enkeltexon<br />

(17,1 kb).<br />

Som det fremgår af ovenstående, kan antallet<br />

af exons og introns samt deres størrelse variere<br />

ganske betydeligt, og som følge heraf varierer<br />

størrelsen af de enkelte gener også ganske meget.<br />

Et gennemsnitsgen hos mennesket har ca.<br />

9 exons med en middellængde på ca. 200 bp, en<br />

samlet intronlængde på ca. 3 kb, 27 kb i<br />

<strong>genom</strong>isk udstrækning og koder for et polypeptid<br />

på ca. 450 aminosyrer.<br />

Der findes også eksempler, om end få, på gener<br />

hos mennesket som mangler introns, men<br />

1 2 3<br />

0 0,5 1,0 1,5 2,0 kb<br />

1 2 3 4 5 6 78 9<br />

0 25 50 kb<br />

Faktor VIII<br />

1 2-6 7 - 13 14 15 - 22 7 - 13 26<br />

0 50 100 150 200 kb<br />

Genomets struktur<br />

Figur 1.19 Tre eksempler på gener hos mennesket. De enkelte exons er nummererede. »CAT«, »TATA« og »GC-rig«<br />

er regulatoriske elementer i opstrøms regionen (promotor-regionen).<br />

HPRT = hypoxanthin-guanin-phosphoribosyl-transferase.<br />

disse gener er generelt små (fx histon-gener og<br />

tRNA-gener, Figur 1.20).<br />

Genernes fordeling i <strong>genom</strong>et<br />

Som tidligere anført kan man beregne, at der<br />

ville være ét gen pr. ca. 120 kb <strong>genom</strong>sekvens,<br />

hvis generne var jævnt fordelt (omkring 27.000<br />

gener fordelt over 3,1 Gb). Det er de imidlertid<br />

ikke, og man har fundet at gentætheden varierer<br />

et sted mellem 0 og 64 gener pr. 100 kb.<br />

Denne ulige fordeling i <strong>genom</strong>et kendte man til<br />

længe før råskitsen af <strong>genom</strong>et var færdiggjort,<br />

og denne viden var resultatet af forskellige typer<br />

studier, bl.a. Giemsa-farvning af kromosomerne,<br />

som giver et kromosomspecifikt båndmønster<br />

(Boks 1.4).<br />

Man ved fra andre undersøgelser at farvestoffet<br />

Giemsa har en højere affinitet for AT-rige<br />

DNA-regioner, og man vidste yderligere, at<br />

hos mennesket er ca. 60% af DNA’ets basepar<br />

AT-par. Det var derfor oplagt at antage at de<br />

29


18209 01.fm7 Page 30 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

mørke G-bånd i kromosomerne må have et<br />

AT-indhold som ligger over 60%.<br />

Cytogenetiske undersøgelser sammenholdt<br />

med kliniske observationer tydede endvidere på<br />

at der måtte være færre gener i de mørke G-<br />

30<br />

Klasse I HLA 46%<br />

β-globin 38%<br />

Insulin 33%<br />

α-interferon 100%<br />

Histon H4 100%<br />

tRNA 100%<br />

0 2 4 6<br />

Phenylalaninhydroxylase<br />

3%<br />

LDL-receptor 11%<br />

Apolipoprotein B 33%<br />

HPRT 4%<br />

α1 (II) collagen 20%<br />

Serumalbumin 12%<br />

kb 0 20 40 60 80 100 kb<br />

Dystrophin 0,6%<br />

Utrophin 1,4%<br />

NF1 4%<br />

CFTR 2,4%<br />

Faktor VIII 3%<br />

0 500<br />

1000 1500 2000 2500<br />

Figur 1.20 Eksempler på gen-størrelser i kb. Exon-indhold er angivet som % ud for hver søjle. Bemærk den omvendte<br />

relation mellem gen-størrelse og exon-indhold.<br />

NF1 = neurofibromatose type 1-genet, CFTR = cystic fibrosis transmembrane regulator.<br />

Boks 1.4<br />

G-båndmønster Egenskaber<br />

Mørke bånd Indeholder AT-rigt DNA.<br />

Replikeres sent i S-fasen, men<br />

kondenserer tidligt i cellecyklus.<br />

Gen-fattigt (indeholder hovedsageligt<br />

vævsspecifikke gener).<br />

Generne kan være store pga. meget<br />

lange introns.<br />

Lyse bånd Indeholder GC-rigt DNA.<br />

Replikeres tidligt i S-fasen, men<br />

kondenserer sent i cellecyklus.<br />

Gen-rigt (både husholdningsgener<br />

og vævsspecifikke).<br />

Generne er relativt små, primært<br />

pga. små introns.<br />

bånd og som følge heraf at de lyse G-bånd måtte<br />

indeholde flere gener end målt gennemsnitligt<br />

over <strong>genom</strong>et. En forudsigelse som er bekræftet<br />

af det humane <strong>genom</strong>projekt. Det er<br />

også påvist, at subtelomer-regionerne, dvs. regionerne<br />

100-300 kb centromert for telomererne<br />

(se Figur 1.10B), der er lyse ved G-båndfarvning,<br />

har den største gentæthed overhovedet<br />

i <strong>genom</strong>et.<br />

Hvilke typer gener indeholder det humane <strong>genom</strong>?<br />

Man kan gruppere generne hos eukaryote organismer<br />

på forskellig måde. Én måde er at inddele<br />

dem efter deres funktion, hvilket har den<br />

fordel at man fra disse ret brede funktionelle<br />

grupper (Figur 1.21) kan underinddele i et hierarkisk<br />

system med stigende specificitet og opnå<br />

en funktionel beskrivelse hvor der bliver gradvis<br />

færre gener i hver gruppe.<br />

En ulempe som denne inddeling ikke tager<br />

højde for, er at der er mange gener som vi endnu<br />

ikke kender den samlede funktion af, hvor-<br />

kb


18209 01.fm7 Page 31 Friday, March 3, 2006 12:37 PM<br />

Andre<br />

aktiviteter<br />

38%<br />

Ekspression,<br />

replikation etc. 23%<br />

Signaltransduktion<br />

21%<br />

Figur 1.21 Gener inddelt efter funktion<br />

Almene<br />

biokemiske<br />

cellulære<br />

funktioner 18%<br />

for de ved denne type inddeling må udelades fra<br />

en funktionel beskrivelse.<br />

En bedre metode, som man nu benytter, er at<br />

anvende en klassifikation, som baserer sig på de<br />

enkelte strukturelle enheder i proteinerne, og<br />

altså ikke proteinets samlede funktion som sådan.<br />

Et typisk proteinmolekyle er opbygget af<br />

en række forskellige domæner, som hver især<br />

har en biokemisk funktion. Hver type domæne<br />

har en karakteristisk aminosyresekvens, som<br />

måske ikke er helt præcis den samme i alle de<br />

proteiner det forekommer i, men tæt nok på sådan<br />

at funktionen ikke varierer nævneværdigt<br />

når man sammenligner domænerne de enkelte<br />

proteiner imellem.<br />

Med afslutningen af det human <strong>genom</strong>projekt<br />

har man fundet at næsten alle proteiner har<br />

større eller mindre strukturelle ligheder med<br />

hinanden. Kendskab til disse forhold er vigtig<br />

for forståelsen af genernes evolution og udvik-<br />

Genomets struktur<br />

ling. Der er på internationalt plan udarbejdet<br />

en omfattende webdatabase (Structural Classification<br />

of Proteins, SCOP, se Kap. 17 side 254),<br />

hvor alle kendte proteiner er organiseret i henhold<br />

til deres evolutionære og strukturelle<br />

slægtsskab. Protein-domæner med fælles almen<br />

funktion tilhører en familier – det er i denne<br />

sammenhæng værd at bemærke, at proteiner<br />

eller gener kan tilhøre flere familier afhængigt<br />

af hvor mange domæner de indeholder. Som et<br />

par eksempler på domænefamilier kan nævnes<br />

DEAD box-familien og WD-repeat-familien.<br />

DEAD box-familien indeholder aminosyresekvensen:<br />

Asp-Glu-Ala-Asp; med ét-bogstavkoden:<br />

D-E-A-D (Tabel 17.2, side 250).<br />

Blandt DEAD box-proteinerne er RNA-helicaser<br />

de mest almindelige og er involveret i<br />

næsten alle processer vedrørende RNA bl.a.<br />

som co-aktivator af transkriptionen ved at<br />

hjælpe til med adskillelsen af DNA-strengene i<br />

dobbelt-helixen. WD-repeat-familien indeholder<br />

aminosyre-sekvensen: Trp-Asp sv.t. W-D<br />

i ét-bogstav-koden. Proteiner med WD-repeats<br />

er involveret i protein-protein-interaktioner<br />

og regulerer en række forskellige cellulære<br />

funktioner, bl.a. kromatin-remodellering og<br />

transkription.<br />

Man kan også se på hvordan antallet af protein-domæner<br />

i <strong>genom</strong>er fra forskellige organismer<br />

fordeler sig (Tabel 1.3). Som det ses anvender<br />

de mere komplekse organismer de enkelte<br />

typer domæner i flere gener ligesom de også har<br />

Tabel 1.3 Eksempler på forskellige <strong>genom</strong>ers indhold af gener der koder for proteindomæner<br />

Antal gener i <strong>genom</strong>et som koder for domænet<br />

Domæne Funktion Mennesket Bananfluen Gær<br />

Zinkfinger, C2H2-type<br />

Zinkfinger, GATA-type<br />

Homeobox<br />

Death<br />

Connexin<br />

Ephrin<br />

DNA-binding<br />

DNA-binding<br />

Gen-regulering ved fx fosterudvikling<br />

Programmeret celledød<br />

Elektrisk kobling mellem celler<br />

Nervecellevækst<br />

564<br />

011<br />

160<br />

016<br />

014<br />

007<br />

234<br />

005<br />

100<br />

005<br />

000<br />

002<br />

034<br />

009<br />

006<br />

000<br />

000<br />

000<br />

31


18209 01.fm7 Page 32 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

flere typer domæner. Eksempler på det første er<br />

zinkfinger-motiverne (C2H2- og GATA-typerne).<br />

Det er domæner der gør proteinet i stand<br />

til at binde til DNA. Som det fremgår af tabellen<br />

har mennesket mere end 500 gener, hvor<br />

disse domæner forekommer. I bananfluen og<br />

gær forekommer disse domæner i færre antal<br />

gener hhv. 239 og 43.<br />

Disse forskelle er sandsynligvis resultatet af en<br />

evolutionær proces hvor exons fra forskellige<br />

gener er blevet kopieret og splejset sammen, såkaldt<br />

exon shuffling (Figur 1.22). Man har eksperimentelt<br />

påvist at visse af de komplekse proteiner<br />

hos mennesket har domæner som meget<br />

ligner bakteriers simple proteiner således at proteindomæner<br />

med meget grundlæggende biokemiske<br />

funktioner, har en høj grad af sekvenslighed<br />

selv mellem meget simple og meget<br />

komplekse organismer.<br />

Det funktionelle antal gener i et <strong>genom</strong> kan<br />

øges på andre måder, hvoraf man nu kender to<br />

typer usædvanlig gen-organisation: 1) overlappende<br />

gener, og 2) gener-i-gener.<br />

32<br />

NH 2 COOH EGF<br />

NH 2 COOH Chymotrypsin<br />

NH 2 COOH Urokinase<br />

NH 2 COOH Faktor IX<br />

NH 2 COOH Plasminogen<br />

Figur 1.22 Nogle resultater af exon shuffling. Hvert<br />

symbol repræsenterer en familie af proteindomæner,<br />

som hver består af 30-50 aminosyrer. Domænerne repræsenterer<br />

exons som på et tidspunkt i evolutionsforløbet<br />

er forenet for at danne nye, større og mere<br />

komplekse proteiner. Ud for hvert protein er angivet<br />

dets navn.<br />

EGF = epidermal growth factor.<br />

DNA-sekvens<br />

(L-strengen)<br />

Start<br />

Met Leu…<br />

5'–CCAATGCTAA–3'<br />

…Gln<br />

Cys Stop<br />

Gen<br />

ND4<br />

ND4L<br />

Figur 1.23 Overlappende gener i mitokondrie-DNA,<br />

jf. Figur 1.27. Begyndelsen af genet ND4 overlapper<br />

afslutningen af genet ND4L. Aminosyresekvenserne i<br />

hhv. begyndelsen og afslutningen af de to polypeptider<br />

er anført i trebogstavkode. Det ses at læserammerne<br />

for de to gener er forskudt i forhold til hinanden.<br />

Gener der overlapper hinanden har enten<br />

hver sin template-streng eller deres mRNA’er<br />

translateres i overlapsområdet i hver sin læseramme,<br />

dvs aflæsningen af mRNA-sekvenserne<br />

sker med forskellige og faseforskudte startpunkter.<br />

Overlappende gener findes ofte i små kompakte<br />

<strong>genom</strong>er som fx virus<strong>genom</strong>er. De er<br />

sjældne i nukleære <strong>genom</strong>er fra højerestående<br />

eukaryoter. Der er et enkelt eksempel på et beskedent<br />

overlap i det kompakte mitokondrie<strong>genom</strong><br />

(Figur 1.23).<br />

Den anden type, gener-i-gener, er derimod<br />

relativt hyppigt forekommende i nukleære <strong>genom</strong>er.<br />

Et eksempel herpå i det humane <strong>genom</strong><br />

ses i neurofibromatose type 1-genet (NF1) som<br />

i intron 35 indeholder tre små gener, OMG,<br />

EVI2A og EVI2B (Figur 1.24). Hvert af disse<br />

»interne« gener er igen opdelt i egne exons og<br />

introns. Sådanne gener transkriberes ofte omvendt<br />

i forhold til værtsgenets transkriptionsretning<br />

– eller, sagt med andre ord, disse »interne«<br />

gener har værtsgenets ikke-template-streng som<br />

deres egen template-streng. Et andet eksempel er<br />

snoRNA-gener (small nucleolar RNA, som er<br />

ikke-kodende RNA der kemisk modificerer<br />

andre RNA’er) som ligeledes er beliggende i<br />

andre geners intron-sekvenser.


18209 01.fm7 Page 33 Friday, March 3, 2006 12:37 PM<br />

3’<br />

5’<br />

Neurofibromatose type 1-genet<br />

Intron 35<br />

OMG EVI2B EVI2A<br />

5kb<br />

Genfamilier: Multigenfamilier og superfamilier<br />

Når man taler om genfamilier er det vigtigt at<br />

huske at det humane <strong>genom</strong>, som det ser ud i<br />

dag, er resultatet af en lang evolutionær proces<br />

som stadig pågår.<br />

Genfamilier kan inddeles efter deres evolutionære<br />

og strukturelle fællesskab (Boks 1.5).<br />

Den ene familie defineres som en gruppe af gener<br />

eller proteiner, der har sekvenshomologi<br />

med relaterede overlappende funktioner og<br />

hvor der er et klart evolutionært slægtskab. Er<br />

det en gruppe af proteiner eller gener, hvor der<br />

er en fælles evolutionær oprindelse, men hvor<br />

der ikke er overlappende funktioner, defineres<br />

de som tilhørende en superfamilie. Det er værd<br />

at bemærke at et protein eller gen godt kan til-<br />

5’<br />

3’<br />

Figur 1.24 Gener-i-gener. Forekommer relativt hyppigt<br />

i det nukleære <strong>genom</strong>, hvor genet er indeholdt i en<br />

intron af et andet gen. Et eksempel herpå er neurofibromatose<br />

type 1 genet, som indeholder tre små gener<br />

(OMG, EVI2A og EVI2B) i intron 35. Hvert af de små interne<br />

gener har egne exons og introns. Generne er<br />

skitseret på deres template-streng og pilene viser<br />

transkriptionsretningen (jf. Figur 1.16).<br />

OMG = oligodendrocyte myelin glycoprotein<br />

EVI = ectopic viral integration site<br />

Boks 1.5 Klassifikation af genfamilier med<br />

angivelse af kendte antal (oktober 2004).<br />

1. Familier, hvor der er et klart evolutionært slægtskab<br />

(2845 familier).<br />

2. Superfamilier, hvor der er en fælles evolutionær<br />

oprindelse (1539 superfamilier).<br />

3. Protein-domæner (folds), hvor der eksisterer strukturelle<br />

ligheder (945 foldninger).<br />

α-globin-genklyngen<br />

Kromosom 16p<br />

Genomets struktur<br />

ζ ψζ ψα2 ψα1 α2 α1 θ<br />

5’ 3’<br />

β-globin-genklyngen<br />

Kromosom 11p<br />

ε Gγ Aγ ψβ δ β<br />

5’ 3’<br />

0 20 40 60 kb<br />

Figur 1.25 <strong>Menneskets</strong> α- og β-globin-genklynger.<br />

Begge klynger indeholder gener som udtrykkes på forskellige<br />

trin i individets udvikling. Gen-klyngerne indeholder<br />

flere pseudogener (ψζ, ψα1, ψα2, ψβ og θ), se<br />

side 34.<br />

høre flere superfamilier. Hvis der er områder,<br />

domæner, hvor der kun er mindre, strukturelle<br />

ligheder mellem proteiner eller gener, kan de<br />

inddeles herefter.<br />

Visse genfamiliers gen-ekspression er mere<br />

eller mindre fælles mens andre ikke har koordineret<br />

regulation heraf. Disse forskelle synes at<br />

være resultatet af en evolutionær proces som<br />

har haft betydning for deres <strong>genom</strong>iske organisation.<br />

Hvis man ser på hvordan de forskellige genfamilier<br />

er organiseret i <strong>genom</strong>et kan man skelne<br />

mellem tre overordnede typer af arrangementer:<br />

1. Familier, hvor generne ligger i relativt tætte<br />

klynger (clusters) og som har et evolutionært<br />

og funktionelt slægtskab. Som eksempler<br />

herpå kan nævnes multigenfamilien for ribosomalt<br />

RNA (rRNA) og histon-multigenfamilien.<br />

Andre genfamilier har lidt mere forskelligartede<br />

funktioner, hvor de bedst<br />

kendte eksempler er α- og β-globin-generne,<br />

som er beliggende på hhv. kromosom<br />

16p og 11p (Figur 1.25). Man regner med at<br />

de er opstået ved gentagne duplikationer i<br />

løbet af hvirveldyrenes evolution gennem de<br />

33


18209 01.fm7 Page 34 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

seneste 500 millioner år. Disse to klynger af<br />

gener koder for globin-kæder, der udtrykkes<br />

på forskellige udviklingstrin fra embryonet<br />

til det fødte individ. Til denne familie hører<br />

også myoglobin-genet på kromosom 22q.<br />

Flere af α- og β-globin-genklyngernes genlignende<br />

sekvenser producerer ikke noget<br />

RNA- eller protein-produkt, og de er således<br />

uden kendt funktion. Sådanne ikke-fungerende<br />

gen-lignende sekvenser kaldes<br />

pseudogener (se nærmere næste spalte).<br />

2. Superfamilier, hvor generne både ligger i<br />

klynger og spredt i <strong>genom</strong>et. De gener, som<br />

ligger i klynger danner ofte multigen-familier<br />

med overlappende funktioner, mens de<br />

der ligger spredt har mere forskelligartede<br />

funktioner. Den største genfamilie i menneskets<br />

<strong>genom</strong> er måske immunglobulin-gensuperfamilien,<br />

der består af gener på kromosom<br />

6 (HLA-vævstype-antigen-komplekset),<br />

på kromosomerne 7 og 14 (T-celle-receptor-gener)<br />

og på kromosomerne 2, 14 og<br />

22 (gener for immunglobulinernes tunge og<br />

lette kæder).<br />

3. Familier, hvor generne kun findes spredt i<br />

<strong>genom</strong>et. Mange af de spredte genfamilier<br />

mener man er dannet ved revers transkription<br />

af RNA og efterfølgende integrering i<br />

<strong>genom</strong>et. Den integrerede sekvens, også kaldet<br />

retrosekvens, er deriveret fra mRNAtranskriptet<br />

af det oprindelige gen og indeholder<br />

derfor ikke introns. De fleste af disse<br />

retrosekvenser er degenererede og blevet til<br />

pseudogener, men nogle få sekvenser har bevaret<br />

deres funktion – en sådan funktionel<br />

retrosekvens benævnes retrogen eller processeret<br />

gen. Det autosomale gen for enzymet<br />

phosphoglyceratkinase (PGK2) beliggende<br />

på 6p er et eksempel herpå. Det er interessant,<br />

at ekspressionsmønstret for dette<br />

gen er forskelligt fra det oprindelige gens<br />

(PGK1), som ligger på X-kromosomet.<br />

34<br />

Ikke-kodende DNA<br />

Det ikke-kodende DNA udgør omkring 1.052<br />

Mb og kan inddeles i følgende 3 grupper: 1)<br />

pseudogener, 2) gen-fragmenter, og 3) introns<br />

og UTR’er.<br />

Et pseudogen defineres som et <strong>genom</strong>isk<br />

DNA-segment som i sin basesekvens ligner et<br />

regulært funktionelt gen, men som ikke har noget<br />

(funktionelt) genprodukt. Et pseudogen,<br />

der har en høj grad af lighed med et funktionelt<br />

gen betegnes ligesom dette, men med ψ foran<br />

gen-symbolet (jf. pseudogenerne i globingenklyngerne,<br />

Figur 1.25). Denne gruppe af<br />

pseudogener anses for at være evolutionære<br />

restprodukter, som er blevet inaktiveret af mutationer<br />

i deres kodende og/eller regulatoriske<br />

sekvenser. En anden gruppe pseudogener er tilsyneladende<br />

opstået ved en proces, hvor en ekstra<br />

DNA-kopi er dannet fra mRNA ved revers<br />

transkription og efterfølgende integrering heraf<br />

i <strong>genom</strong>et (retrotransposon). Sådanne pseudogener<br />

mangler introns og kaldes ofte for processerede<br />

pseudogener. De er typisk beliggende i<br />

en anden kromosom-region end det gen hvis<br />

mRNA de er en kopi af. Der er beskrevet i alt<br />

ca. 15.000 pseudogener i menneskets <strong>genom</strong>.<br />

Gen-fragmenter er en anden gruppe af genrester<br />

der er en følge af evolutionen. Denne<br />

gruppe består af trunkerede gener og andre<br />

gen-segmenter. De trunkerede gener mangler<br />

en større eller mindre del af den ene ende af det<br />

fuldstændige gen, mens gen-segmenterne er<br />

små isolerede regioner fra det oprindelige gen.<br />

Introns er omtalt ovenfor (side 26 og Figur<br />

1.15). UTR står for untranslated region som er<br />

betegnelse for nogle andre, ikke-translaterede<br />

regioner i proteinkodende gener. Der findes<br />

typisk 2 sådanne regioner i hvert proteinkodende<br />

gen, hhv. opstrøms (5'-UTR) og<br />

nedstrøms (3'-UTR) for den proteinkodende<br />

sekvens. UTR-sekvenserne transkriberes, og i


18209 01.fm7 Page 35 Friday, March 3, 2006 12:37 PM<br />

Tabel 1.4 De forskellige typer af interspersed repeat DNA i menneskets <strong>genom</strong>.<br />

modsætning til introns udsplejser de ikke fra<br />

præ-mRNA’et.<br />

Intergenisk DNA<br />

Intergenisk DNA er det DNA som ligger mellem<br />

generne. Det udgør omkring 5 af hele <strong>genom</strong>et,<br />

og ca. 70% heraf udgøres af repeterede<br />

DNA-sekvenser (repetitivt DNA).<br />

Det er fortsat uafklaret hvorfor <strong>genom</strong>et indeholder<br />

så megen tilsyneladende nyttesløst<br />

DNA (junk DNA). En af hypoteserne går på, at<br />

der ikke er et selektiontryk for at fjerne det,<br />

hvorfor det tolereres. Man mener, at det repetitive<br />

DNA mindsker sandsynligheden for at<br />

mutationer rammer vigtige gener og derfor har<br />

været en selektiv fordel. Der er også undersøgelser<br />

som tyder på at det repetitive DNA kan<br />

være medvirkende til dannelsen af nye gener,<br />

gen-domæner eller regulatoriske områder.<br />

Intergenisk DNA kan inddeles i to overordnede<br />

grupper: 1) interspersed repeats, hvis individuelle<br />

repeterede enheder er fordelt over hele<br />

<strong>genom</strong>et på en tilsyneladende tilfældig måde og<br />

Genomets struktur<br />

Type af repeat Undertype Størrelse på repeat-enhed Antal kopier % af <strong>genom</strong>et<br />

SINEs:<br />

Short Interspersed<br />

Nuclear Elements<br />

LINEs:<br />

Long Interspersed<br />

Nuclear Elements<br />

Alu<br />

MIR-familier<br />

LINE-1 (Kpn)<br />

LINE-2<br />

LINE-3<br />

LTR-elementer:<br />

Long Terminal Repeats ERV klasse I<br />

ERV(K) klasse II<br />

ERV(L) klasse III<br />

MaLR<br />

Andre DNA-transposoner<br />

hAT<br />

Tc-1<br />

PiggyBack<br />

Uklassificeret<br />

Fuld længde 0,3 kb<br />

Middelstørrelse 0,13 kb<br />

Fuld længde 6,1 kb, men<br />

Middelstørrelse 0,8 kb<br />

Middelstørrelse 0,25 kb<br />

-<br />

- Middelstørrelse 1,3 kb<br />

-<br />

Middelstørrelse 0,5 kb<br />

Varierende, men middelstørrelse<br />

måske 0,25 kb<br />

Middelstørrelse måske 0,4 kb<br />

1.558.000<br />

1.090.000<br />

468.000<br />

868.000<br />

516.000<br />

315.000<br />

037.000<br />

443.000<br />

112.000<br />

8.000<br />

83.000<br />

240.000<br />

294.000<br />

195.000<br />

75.000<br />

2.000<br />

60.000<br />

10%<br />

2%<br />

5-13%<br />

2,1%<br />

0,2%<br />

-<br />

0,2%<br />

-<br />

4%<br />

2,5%<br />

0,8%<br />

2) tandem-repeteret DNA hvis repeterede enheder<br />

ligger ved siden af hinanden på række.<br />

Interspersed repeats<br />

Omkring 44% af menneskets <strong>genom</strong> udgøres af<br />

interspersed repeat DNA. Det er nukleotidsekvenser<br />

som er deriveret fra såkaldte transposoner.<br />

Man mener at de har en vigtig funktion i<br />

<strong>genom</strong>ets evolution. Der findes 4 typer af transposoner:<br />

SINEs, LINEs, LTR-elementer og<br />

andre DNA-transposoner (Tabel 1.4).<br />

Transposoner kaldes sådan fordi de udviser<br />

mobilitet idenfor <strong>genom</strong>et, enten ved at skifte<br />

plads af og til (»jumping genes«) eller – hyppigere<br />

– ved at blive kopieret ind på en anden lokalitet.<br />

Dette sker via et intermediært RNA-produkt,<br />

som ved revers transkription danner<br />

DNA, der indsættes som en ny kopi, kaldet en<br />

retrotransposon, et andet sted i <strong>genom</strong>et (se også<br />

afsnittet Insertion ved transposition side 68).<br />

Transposoner er meget udbredte i <strong>genom</strong>et<br />

og hyppige i gen-relaterede sekvenser, herunder<br />

untranslated regions (UTRs). De kan have regulerende<br />

funktioner i <strong>genom</strong>et ved bl.a. at ud-<br />

35


18209 01.fm7 Page 36 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

gøre alternative promotorer i forskellige gener<br />

(se side 47, herunder Figur 1.31 for nærmere<br />

beskrivelse heraf).<br />

Blandt de forskellige transposoner er de primat-specifikke<br />

Alu-sekvenser blandt de hyppigst<br />

forekommende med 1,1 million kopier.<br />

De udgør i alt ca. 10% af <strong>genom</strong>et. Alu-elementerne<br />

er 300bp repeat-enheder, og man har<br />

påvist at de bl.a. har betydning for <strong>genom</strong>isk regulation<br />

af gen-ekspressionen. Nyere undersøgelser<br />

tyder på at de kan have patogenetisk betydning<br />

også.<br />

Et eksempel på et meget »Alu-rigt« gen er<br />

BRCA1-genet, som er involveret i arvelig disposition<br />

til mamma- og ovarie-cancer. Genet<br />

har en <strong>genom</strong>isk udstrækning på ca. 80 kb og<br />

omkring 40% heraf udgøres af Alu-sekvenser.<br />

Man har påvist, at BRCA1-mRNA forekommer<br />

i to former – den ene med en kort 5'-UTR,<br />

som udtrykkes i normalt mamma-væv. Den anden<br />

form har en længere 5'-UTR, som følge af<br />

Alu-element-insertion, og udtrykkes i mammacancer-væv<br />

ved den sporadiske form. Når<br />

5'-UTR-regionen er blevet forlænget som følge<br />

af Alu-element-insertion i BRCA1-mRNA bliver<br />

translationseffektiviteten reduceret med<br />

90%. Ved den arvelige form for mamma-cancer<br />

har man fundet mutationer i BRCA1-genet,<br />

som medfører nedsat funktion af BRCA1-proteinet.<br />

Den patofysiologiske mekanisme i de to<br />

situationer er den samme, nemlig nedsat funktion<br />

af BRCA1-proteinet, men den genetiske årsag<br />

er forskellig.<br />

Af andre sygdomme, hvor man har fundet at<br />

transposoner spiller en rolle, kan bl.a. nævnes<br />

hæmofili A (Faktor VIII) og B (Faktor IX) og<br />

prædisposition til colonpolypper og -cancer<br />

(APC-genet).<br />

Tandemrepeteret DNA<br />

Tandemrepeteret DNA er almindeligt forekommende<br />

i eukaryote <strong>genom</strong>er, inklusive<br />

36<br />

menneskets. Denne type af repeteret DNA kaldes<br />

satellit-DNA, fordi DNA-fragmenter indeholdende<br />

tandemrepeterede sekvenser danner<br />

satellitbånd (bånd ved siden af hovedbåndet)<br />

når det <strong>genom</strong>iske DNA fraktioneres ved densitetsgradientcentrifugering<br />

(Figur 1.26).<br />

Disse familier består af blokke (arrays) af<br />

tandemt repeterede DNA-sekvenser. De enkelte<br />

blokke kan forekomme på få eller på mange<br />

kromosomale lokalisationer og kan have betydning<br />

i forbindelse med eksempelvis den rekombination<br />

der foregår under meiosen samt<br />

for dannelsen af duplikationer (Figur 3.1 og<br />

3.9). Afhængigt af størrelsen af den repeterede<br />

enhed kan det stærkt repeterede ikke-kodende<br />

DNA inddeles i fire grupper: 1) megasatellit-<br />

DNA; 2) satellit-DNA; 3) minisatellit-DNA;<br />

og 4) mikrosatellit-DNA (Tabel 1.5).<br />

Megasatellit–DNA-gruppen består af blokke<br />

som samlet er op imod 1 Mb i længde. Den<br />

enkelte repeat-enhed er 2-5 kb lang og er moderat<br />

repeteret.<br />

1,60<br />

1,65<br />

1,70<br />

1,75<br />

1,80<br />

g/cm 3<br />

Satellitbånd<br />

Hovedbånd<br />

Figur 1.26 Gradientcentrifugering af DNA fra menneskeceller.<br />

Repeterede DNA-fragmenter migrerer til<br />

en satellitposition oven over hovedbåndet pga. forskelle<br />

i GC-indhold. Begrebet »satellit-DNA« kommer<br />

af den måde hvorpå dette repetitive DNA er blevet oprenset<br />

fra den resterende del af DNA’et i en menneskecelle<br />

(hovedbånd). Det foregår ved en såkaldt densitetsgradientcentrifugering<br />

ved et meget højt antal<br />

omdrejninger (ultracentrifugering) med anvendelse af<br />

en CsCl (cæsiumklorid)-gradient.


18209 01.fm7 Page 37 Friday, March 3, 2006 12:37 PM<br />

Tabel 1.5 Tandemrepeteret DNA.<br />

Gruppe Størrelse på<br />

repeat enhed<br />

Megasatellit-DNA (blokke er på op mod Mange kb<br />

hundrede kb)<br />

RS447<br />

Ikke navngivet<br />

Ikke navngivet<br />

Satellit-DNA (blokke er på 100 kb til mange<br />

Mb i længden)<br />

α-satellit-DNA (alphoid DNA)<br />

β-satellit-DNA (Sau3A-familie)<br />

Satellit 1 (AT-rigt)<br />

Satellit 2 og 3<br />

Minisatellit-DNA (blokke er på 0,1-20 kb)<br />

Telomer familie<br />

Hypervariabel familie og<br />

Telomer-associerede repeats<br />

Mikrosatellit-DNA (blokke er ofte mindre<br />

end 150 bp)<br />

4,7 kb<br />

2,5 kb<br />

3,0 kb<br />

5-171 bp<br />

171 bp<br />

68 bp<br />

25-48 bp<br />

5 bp<br />

6-64 bp<br />

6 bp<br />

9-64 bp<br />

1-4 bp<br />

Satellit-DNA-gruppen består af blokke som<br />

samlet kan blive op imod 1-5 Mb i længden.<br />

Den enkelte repeat-enhed er typisk 5-171 bp<br />

lang og repeteret flere tusinde gange. Alphoid<br />

DNA, som findes i centromererne, er et typisk<br />

eksempel herpå.<br />

Minisatellit-DNA består af mindre blokke,<br />

hvor størrelsen af repeat-enheden er på 6-64 bp.<br />

Dette resulterer i samlede repeat-blokke på typisk<br />

mellem 100 bp og 20 kb. De første højvariable<br />

DNA-markører man anvendte i retsgenetiske<br />

undersøgelser (DNA-profilanalyser) var<br />

minisatellitter (se afsnittet Genetiske markører<br />

og markøranalyse, side 69).<br />

Mikrosatellit-DNA udgøres hovedsageligt<br />

af repeterede enheder som sjældent er mere end<br />

4 bp i længden. De betegnes derfor også short<br />

tandem repeats (STR) og udgør ca. 3% af <strong>genom</strong>et.<br />

Det er karakteristisk for mikrosatellitterne<br />

at antallet af repeterede enheder kan ændres,<br />

Kromosomal lokalisation<br />

Genomets struktur<br />

Forskellige lokaliseringer på visse kromosomer<br />

50-70 kopier i 4p15 og flere kopier distalt på 8p<br />

~400 kopier på 4q13 og 19q13<br />

~50 kopier på X-kromosomet<br />

Især ved centromererne<br />

Centromert heterokromatin på alle kromosomer<br />

Centromert heterokromatin på 1,9,13,14,15,21,22 og Y<br />

Centromert heterokromatin på de fleste kromosomer<br />

De fleste, måske alle, kromosomer<br />

Ved eller tæt på telomerer af alle kromosomer<br />

Alle telomerer<br />

Alle kromosomer, ofte tæt på telomerer<br />

Spredt rundt på alle kromosomer<br />

hvilket sandsynligvis skyldes fejl i forbindelse<br />

med DNA-replikationen eller er en følge af<br />

skæv overkrydsning (se Kap. 3). Trinukleotidsygdommene<br />

er eksempler herpå (se side<br />

221ff). En gruppe af disse kaldes polyglutaminsygdomme.<br />

De skyldes en ekspansion i antallet<br />

af trinukleotidet 5'-CAG-3'. Denne enhed er<br />

normalt repeteret et varierende antal gange i<br />

flere gener (fx huntingtin-genet og spinocerebellar<br />

aktasi-generne). Enheden bliver ved disse<br />

gener translateret og koder for aminosyren glutamin.<br />

Når der sker en ekspansion i antallet af<br />

CAG-repeats, forøges antallet af glutamin-enheder<br />

i de ramte proteiner, hvorved disse proteiners<br />

funktion ændres. Man kender til dato 8<br />

forskellige polyglutamin-sygdomme (mere herom<br />

i Kap. 14). Dinukleotid-enheden 5'-CA-3'<br />

er meget almindelig i det humane <strong>genom</strong> og<br />

udgør omkring 0,5% af hele <strong>genom</strong>et. Mononukleotid-enheden<br />

5'-A-3' udgør ca. 0,3%.<br />

37


18209 01.fm7 Page 38 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

Den store variation i længden af mange miniog<br />

mikrosatellitblokke gør dem til vigtige genetiske<br />

markører (se Kap. 3, side 69).<br />

Large-scale copy number variation (LCV)<br />

Man har inden for de seneste år overraskende<br />

fundet en ny type af <strong>genom</strong>variation den såkaldte<br />

large-scale copy number variation (LCV) i<br />

forbindelse med anvendelsen af array komparativ<br />

<strong>genom</strong>hybridisering (CGH, se side 89) er<br />

blevet mere udbredt. Det drejer sig om variationer<br />

der omfatter duplikation eller deletion af<br />

store DNA-segmenter på mellem 100 og 2.000<br />

kb, uden tilsyneladende association med sygdom.<br />

Til dato (2006) er der påvist 255 LCVområder<br />

i <strong>genom</strong>et, og 24 heraf er fundet hos<br />

mere end 10% af de undersøgte personer.<br />

Man forstår endnu ikke betydningen af denne<br />

<strong>genom</strong>variation og kender bl.a. ikke hyppigheden<br />

heraf eller udbredelsen i <strong>genom</strong>et.<br />

Forekomsten af LCV hos fænotypisk normale<br />

individer har udvidet rammerne for den genetiske<br />

variation hos mennesket, og kun fremtiden<br />

kan vise betydningen eller konsekvenserne,<br />

om nogen, af sådanne store polymorfier i <strong>genom</strong>et.<br />

Mitokondrie-DNA (mtDNA)<br />

En somatisk celle indeholder flere hundrede,<br />

evt. – afhængigt af celletypen – flere tusind mitokondrier,<br />

som igen hver især indeholder op<br />

til 10 molekyler mtDNA. Der kan således forekomme<br />

mange tusinde kopier af dette molekyle<br />

i hver celle. For de modne kønscellers vedkommende<br />

er der den dramatiske forskel at et æg indeholder<br />

omkring 100.000 mtDNA-molekyler,<br />

mens en sædcelle i sit langt mindre cytoplasma-volumen<br />

kun indeholder op mod 100<br />

mitokondrier, som yderligere under normale<br />

forhold nedbrydes hvis de indføres i ægcellen<br />

under befrugtningen.<br />

38<br />

Dette er baggrunden for at mitokondrie-<br />

DNA nedarves via ægceller, dvs. i rene kvindelinjer<br />

– såkaldt matroklin arvegang (Kap. 5).<br />

Forekomsten af sygdomsfremkaldende (patogene)<br />

mutationer i mtDNA gør at også denne del<br />

af <strong>genom</strong>et har betydelig medicinsk vigtighed.<br />

Det er derfor nødvendigt at kende til mitokondrie-DNA<br />

og de patogene mtDNA-mutationers<br />

kliniske manifestationer, ligesom det ved<br />

udredning af familieanamnese og fortolkning af<br />

stamtræer er nødvendigt at være opmærksom<br />

på om de foreliggende oplysninger er forenelige<br />

eller uforenelige med matroklin arvegang (se<br />

Kap. 5, Figurerne 5.1e & 5.1f).<br />

mtDNA-molekylet<br />

<strong>Menneskets</strong> mtDNA er et lille, ringsluttet<br />

DNA-molekyle på 16,6 kb.<br />

Den fuldstændige nukleotidsekvens af et<br />

menneske-mtDNA blev offentliggjort for første<br />

gang i 1981 1 . Det pågældende molekyle fandtes<br />

at være på 16.569 bp, og dets sekvens blev straks<br />

(under betegnelsen Cambridge-referencesekvensen<br />

(CRS), eller Anderson-sekvensen) referencesekvens<br />

for alle efterfølgende mtDNAsekvensanalyser<br />

hos mennesket. Til dette formål<br />

har man lige fra begyndelsen benyttet en<br />

fortløbende nummerering af molekylets basepar<br />

med et bestemt basepar i den såkaldte kontrolregion<br />

som nr. 1 (Figur 1.27).<br />

Efterhånden som mange laboratorier verden<br />

over gennemførte sekvensanalyser af mtDNA,<br />

blev det imidlertid klart at der måtte være en<br />

del fejl i den oprindelige referencesekvens. Faktisk<br />

stammede en lille del af sekvensen fra en<br />

anden persons mtDNA, og en anden, mindre<br />

del fra okse-mtDNA. Det har derfor været<br />

nødvendigt at revidere sekvensen, hvilket blev<br />

gjort i 1999, efter at man havde haft lejlighed<br />

1 Anderson S et al. Sequence and organization of the human<br />

mitochondrial <strong>genom</strong>e. Nature 1981; 290: 457-465.


18209 01.fm7 Page 39 Friday, March 3, 2006 12:37 PM<br />

Leu (UUR)<br />

ND1<br />

IIe<br />

Met<br />

ND2<br />

Trp<br />

OL 16S<br />

Gln<br />

Ala<br />

Asn<br />

Cys<br />

Tyr<br />

CO I<br />

Val<br />

12S<br />

til, med nyere og bedre metoder, på ny at sekventere<br />

det oprindelige, bevarede mtDNA fra<br />

Cambridge 1 . Ved revisionen slog man bl.a. fast<br />

at der i 1981-sekvensen var anført et basepar for<br />

meget i position 3106-3107 (i genet for 16S<br />

rRNA). Den reviderede referencesekvens<br />

(rCRS) er således rent faktisk kun på 16.568 bp.<br />

Af hensyn til den allerede meget omfattende lit-<br />

1 Andrews RM et al. Reanalysis and revision of the Cambridge<br />

reference sequence for human mitochondrial DNA.<br />

Nature genetics 1999; 23: 147.<br />

Kontrolregionen<br />

Phe<br />

O H<br />

Thr<br />

Pro<br />

Glu<br />

ND6<br />

L-strengen<br />

Cytb<br />

Ser (UCN)<br />

Asp<br />

Lys<br />

Gly<br />

Arg<br />

ND3<br />

CO III<br />

CO II<br />

ATPase 6<br />

ATPase 8<br />

Mitokondrie-DNA (mtDNA)<br />

H-strengen<br />

ND4<br />

ND4L<br />

teratur om variation i bestemte positioner af<br />

mtDNA-sekvensen, med grundigt indarbejdede<br />

numre der for de allerflestes vedkommende<br />

ville blive ændret ved en konsekvent revision,<br />

har man valgt at bibeholde den oprindelige<br />

nummerering, men med et hul (gap) i sekvensen<br />

sv.t. position 3107.<br />

mtDNA’s kodende funktion<br />

ND5<br />

Leu (CUN)<br />

Ser (AGY)<br />

His<br />

Figur 1.27 Genetisk kort over menneskets mitokondrie-DNA (mtDNA).<br />

mtDNA’ets 37 gener er markeret på den af de to strenge der er template ved syntesen af det funktionelle RNA (mRNA,<br />

rRNA og tRNA). Gensymbolerne er følgende: 12S og 16S koder for hhv. 12S og 16S rRNA, ND1-6 for subunits i NADHdehydrogenase,<br />

CO I-III for subunits i cytokrom c-oxidase, ATPase 6 og 8 for subunits i ATP-syntase, Cytb for cytokrom<br />

b. De små udfyldte cirkler angiver tRNA-gener og er markeret med trebogstavsymbolet for den tilhørende aminosyre<br />

(se tabel i Kap. 17, side 250). Leucin-tRNA (Leu) og serin-tRNA (Ser) har hver to gener sv.t. deres to codon-familier (Tabel<br />

1.6), jf. codon-angivelserne i de anførte parenteser (R = A el. G; Y = C el. U; N = A, G, C el. U). OH og OL angiver<br />

replikationsstart for hhv. den tunge og den lette streng. Kontrolregionen er ikke kodende, men indeholder – foruden OH<br />

– separate transkriptionsstartsekvenser for de to strenge samt to regioner med højvariable sekvenser. Molekylets basepar<br />

nummereres fortløbende fra basepar nr. 1 (i kontrolregionen) og frem, i retning mod uret (pilen). (Adapteret fra<br />

Attardi, G. The elucidation of the human mitochondrial <strong>genom</strong>e. A historical perspective. BioEssays 1986;5:34-9.)<br />

Siden 1986 har man kendt hele mitokondrie-<br />

DNA’ets kodende funktion (Figur 1.27). Den-<br />

39


18209 01.fm7 Page 40 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

ne del af menneskets <strong>genom</strong> har således været<br />

beskrevet i detaljer flere år før den store kortlægning<br />

af menneskets nukleære <strong>genom</strong> tog sin<br />

begyndelse.<br />

mtDNA indeholder i alt 37 gener. Heraf koder<br />

2 for ribosomalt RNA (hhv. 12S og 16S<br />

rRNA), 22 koder for tRNA, og 13 er proteinkodende.<br />

De 13 polypeptider er alle engageret<br />

i den oxidative fosforylering (OXPHOS) og<br />

dermed i mitokondriernes livsvigtige syntese af<br />

ATP (adenosintrifosfat).<br />

Pga. den ulige fordeling af puriner (adenin og<br />

guanin) og pyrimidiner (cytosin og thymin)<br />

mellem mtDNA-molekylets to strenge, betegnes<br />

den ene streng som tung (H-strengen, H =<br />

heavy), den anden som let (L-strengen, L =<br />

light). For 12 af de 13 proteinkodende gener i<br />

mtDNA er H-strengen template-streng ved<br />

transkriptionen, og L-strengen derfor »den<br />

RNA-lignende streng«, dvs. den streng hvis<br />

nukleotidsekvens er lig mRNA-sekvensen, såfremt<br />

thymin (T) erstattes med uracil (U). Dette<br />

er baggrunden for at man, når man beskriver<br />

mtDNA-sekvenser og -mutationer, bruger Lstrengens<br />

sekvens (se fx Tabel 5.5 s. 110), også<br />

i de tilfælde hvor L-strengen er genets templatestreng,<br />

jf ND6.<br />

Mitokondrie<strong>genom</strong>et er specielt ved at ingen<br />

af dets gener indeholder introns, ligesom<br />

der stort set heller ikke findes ikke-kodende<br />

basepar mellem generne, når undtages den såkaldte<br />

kontrolregion: det ca. 1100 bp store<br />

område mellem generne for prolin-tRNA<br />

(tRNA Pro ) og phenylalanin-tRNA (tRNA Phe )<br />

(Figur 1.27). Den informationsmæssige kompakthed<br />

i mtDNA’et understreges af at<br />

transkripterne fra de fleste af de proteinkodende<br />

gener afsluttes med en ufuldstændig stopcodon<br />

der først fuldendes til UAA ved den posttranskriptionelle<br />

polyadenylering af mRNA’et.<br />

40<br />

Sekvensvariation i mtDNA<br />

Ved rutinemæssig mtDNA-analyse vil man hos<br />

de allerfleste personer kun påvise én mtDNAsekvens.<br />

Denne homogene tilstand betegnes<br />

homoplasmi; dette til forskel fra den sjældnere<br />

situation hvor der påvises to forskellige sekvenser,<br />

såkaldt heteroplasmi.<br />

På populationsniveau er der til gengæld tale<br />

om en betydelig sekvensvariation mellem tilfældigt<br />

udvalgte individer der således udviser<br />

homoplasmi for hver deres mtDNA-sekvens.<br />

Den typiske sekvensvariation mellem individer<br />

er uden fænotypiske konsekvenser og betegnes<br />

derfor som normalgenetisk variation.<br />

Dertil kommer den lejlighedsvise variation der<br />

skyldes patogene mutationer; disse vil blive<br />

omtalt i Kap 5, se afsnittet Mitokondriesygdomme,<br />

side 108ff).<br />

Haplotyper og haplogrupper<br />

Da mtDNA nedarves som et fast sammentømret<br />

molekyle, betegnes en persons mtDNA-sekvens<br />

også som vedkommendes mtDNAhaplotype.<br />

De mange forskellige haplotyper<br />

som blev kortlagt ved omfattende populationsgenetiske<br />

studier i 1980’erne og -90’erne har<br />

kunnet indpasses i et sammenhængende, overordnet<br />

stamtræ over udviklingen af mtDNA’ets<br />

sekvensdiversitet hos mennesket. I forbindelse<br />

hermed har man defineret et antal hovedgrupper<br />

af haplotyper som har fået betegnelsen<br />

haplogrupper.<br />

Fra DNA til protein<br />

Gen-ekspression<br />

I det følgende gives en oversigt over de væsentligste<br />

elementer, set fra et genetisk synpunkt, af<br />

processerne transkription og translation.<br />

Transkription og translation er samlet den måde<br />

hvorpå celler udlæser, eller udtrykker, deres genetiske<br />

information (Figur 1.2 og 1.28).


18209 01.fm7 Page 41 Friday, March 3, 2006 12:37 PM<br />

cDNA<br />

N C<br />

N . . . . . C<br />

rRNA<br />

Kromosomalt<br />

DNA<br />

Transkription<br />

Cellekernen<br />

tRNA<br />

mRNA Andet RNA<br />

Protein<br />

Der kan dannes mange identiske RNA-kopier<br />

fra det samme gen, og hvert mRNA-molekyle<br />

kan dirigere dannelsen af mange identiske proteinmolekyler.<br />

Selvom der for de allerfleste proteinkodende<br />

geners vedkommende kun findes to<br />

kopier af hvert gen i hver celle (en maternel og<br />

en paternel allel), vil den successive amplifikation<br />

via mRNA gøre cellen i stand til at syntetisere<br />

den nødvendige mængde af protein.<br />

Gener hvis processerede transkript er slutproduktet,<br />

forekommer ofte i mange kopier. For<br />

eksempel findes der ca. 200 kopier af de gener<br />

der koder for ribosomalt RNA (rRNA). De<br />

5’<br />

Eksport til andre<br />

celler/væv<br />

3’<br />

Kerneproteiner<br />

snRNA<br />

Andre<br />

proteiner<br />

rRNA<br />

Ribosomproteiner<br />

Translation<br />

N C<br />

Andre organeller + cytosol<br />

Fra DNA til protein<br />

Mitokondrie<br />

mtDNA<br />

Transkription<br />

mRNA tRNA<br />

OXPHOS<br />

Figur 1.28 Gen-ekspressionen i en menneskecelle. Der foregår transkription i både cellekernen og mitokondrierne. I<br />

cellekernen dannes et primært transkript som processeres før det transporteres ud af cellekernen. Bemærk at en lille<br />

del af RNA-molekylerne i cellekernen naturligt kan omdannes til cDNA af viralt eller cellulært kodet revers transkriptase<br />

og derefter integreres forskellige steder i det kromosomale DNA. Mitokondrierne syntetiserer dets eget rRNA og<br />

tRNA samt nogle få proteiner som er involveret i den oxidative fosforylering (OXPHOS). De mitokondrielle DNA- og<br />

RNA-polymeraser, proteinerne i mitokondriets ribosomer, enzymerne i trikarboxidationen og urinstofcyklus mv. samt<br />

hovedparten af proteinerne i den oxidative fosforylering kodes af nukleære gener.<br />

· · · · · markerer post-translationelle modifikationer såsom fx glykosylering og fosforylering.<br />

sidder fordelt på den korte arm af de akrocentriske<br />

kromosomer (13, 14, 15, 21 og 22, se<br />

Figur 1.8) og er alle aktive. Dette betyder at disse<br />

gener særdeles effektivt kan danne rRNA til<br />

de mange ribosomer der er nødvendige for<br />

proteinsyntesen. For de gener, hvor der kun<br />

findes to kopier kan den enkelte allel transkriberes<br />

og translateres med forskellig effektivitet,<br />

hvilket gør cellen i stand til at regulere mængden<br />

af de forskellige proteiner i og uden for cellen.<br />

En celles transkription foregår dels i cellekernen,<br />

hvor det nukleære DNA befinder sig, dels<br />

41


18209 01.fm7 Page 42 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

i mitokondrierne (Figur 1.28). For at mRNA<br />

fra de nukleære gener kan translateres, må det<br />

transporteres ud af cellekernen hvilket sker<br />

gennem porer i kernemembranen. Før RNA<br />

forlader cellekernen undergår det nogle processeringstrin.<br />

Afhængigt af om transkriptet skal<br />

blive til mRNA eller en anden slags RNA bliver<br />

det processeret forskelligt før det forlader<br />

cellekernen. Kun det RNA som skal blive til<br />

mRNA udsættes for: 1) RNA-capping i 5'-enden<br />

og 2) polyadenylering i 3'-enden. Disse trin<br />

har betydning for mRNA-stabiliteten og er af<br />

betydning for eksporten ud af cellekernen.<br />

Endvidere fungerer modifikationerne som signaler<br />

for proteinsyntese-maskineriet sådan at<br />

når begge modifikationer er til stede, opfattes<br />

molekylet som intakt, og translationen kan begynde<br />

(se dog afsnittet nonsense-medieret<br />

RNA-nedbrydning, side 67). RNA syntetiseret<br />

i mitokondrierne forbliver i mitokondriet og<br />

indgår i translationen dér.<br />

De fleste nukleære præmRNA-molekyler<br />

må undergå endnu et processeringstrin i form af<br />

RNA-splejsning (se nærmere beskrivelse side<br />

27).<br />

Eksempler på måder for regulation af<br />

genekspression – promotorer, enhancere og<br />

silencere<br />

Mennesket består af ca. 250 forskellige slags celler.<br />

Hos et normalt individ har de somatiske<br />

celler samme DNA-indhold, dvs. de har samme<br />

genetiske information til rådighed. Celler fra<br />

forskellige væv er imidlertid meget forskellige<br />

mht. hvilke gener de udtrykker, dvs. hvilken<br />

del af den genetiske information de udnytter.<br />

Eksempelvis indeholder et individs leukocytter<br />

og hjerneceller den samme genetiske information,<br />

men deres RNA- og protein-indhold er<br />

meget forskelligt. Man skelner mellem såkaldte<br />

husholdningsproteiner, der findes i alle celler<br />

og har betydning for cellens basale funktion, og<br />

42<br />

de såkaldte celle/vævs-specifikke proteiner, der<br />

kun produceres i visse celler og som har særlige<br />

og specialiserede funktioner enten i eller uden<br />

for cellen/vævet.<br />

Før RNA-syntesen kan begynde, skal der<br />

samles et transkriptionsinitieringskompleks opstrøms<br />

for genet, idet RNA-polymeraser hos<br />

mennesket ikke kan initiere transkription selvstændigt.<br />

I umiddelbar nærhed af genets kodende<br />

sekvens er der nogle korte sekvenselementer<br />

der agerer som genkendelsessignaler for transkriptionsfaktorer<br />

der binder til DNA og dermed<br />

guider og aktiverer RNA-polymerasen.<br />

Disse korte sekvenser ligger oftest opstrøms for<br />

den kodende sekvens og benævnes kollektivt<br />

promotor-regionen.<br />

Der findes bl.a. en særlig promotor, kaldet<br />

»TATA-boksen«, foran gener der koder for<br />

celle/vævsspecifikke proteiner (se Figurerne<br />

1.15 og 1.19). Den består af sekvensen<br />

5'-TATAAAA-3' ca. 25-30 basepar opstrøms<br />

for transkriptionsinitieringsstedet. Gener der<br />

koder for husholdningsproteiner har sædvanligvis<br />

en eller flere »GC-bokse« (sekvensen<br />

5'-GGGCGG-3') i varierende afstand fra<br />

transkriptionsinitieringsstedet (Figur 1.19). Et<br />

andet almindeligt promotor-element er »CATboksen«<br />

(fx 5'-CCAAT-3') som sidder 75-80<br />

bp opstrøms for transkriptionsinitieringsstedet<br />

(Figur 1.15 og 1.19) ligesom der ofte findes enhancer-<br />

og silencer-sekvenser i nogen afstand fra<br />

de enkelte gener. Det er sekvenser som binder<br />

forskellige faktorer, der regulerer ekspressionen<br />

af generne ved hhv. at øge og nedsætte transkriptionsinitieringen.<br />

Transkription og translation<br />

Ved transkriptionen bliver nukleotidsekvensen<br />

i genets ene DNA-streng kopieret til et komplementært<br />

RNA-molekyle (det primære<br />

transkript) vha. en DNA-afhængig RNA-polymerase.<br />

DNA’ets dobbelthelix åbnes, og den


18209 01.fm7 Page 43 Friday, March 3, 2006 12:37 PM<br />

DNA-streng der er orienteret i 3'→5'-retningen<br />

fungerer som template for transkriptionen.<br />

Syntesen af RNA foregår i 5'→3'-retningen.<br />

Translationen (proteinsyntesen) foregår i en<br />

læseramme hvis begyndelse defineres af startcodon,<br />

AUG, der koder for aminosyren methionin<br />

(Figur 1.15 og 1.29b). I det nysyntetiserede<br />

polypeptid vil denne methionin altså være den<br />

N-terminale aminosyre og polypeptidkædeforlængelsen<br />

er sket i retning mod den C-terminale<br />

ende. For de fleste proteiners vedkommende<br />

fraspaltes den N-terminale methionin dog<br />

umiddelbart efter syntesen.<br />

Ved translationen oversættes mRNA’ets basesekvens<br />

i grupper af 3 baser (codons), som definerer<br />

polypeptidets aminosyresekvens. Aminosyrerne<br />

føres til ribosomerne vha. transfer-<br />

RNA (tRNA) (Figur 1.29b-d). Hver aminosyre<br />

har sit eget tRNA, som i molekylet har en såkaldt<br />

anticodon, der er komplementær til den<br />

codon i mRNA som tRNA’et bindes til, mens<br />

det afleverer aminosyren. Eksempelvis kan<br />

nævnes at tRNA for glycin har 3'-CCG-5' som<br />

anticodon og baseparrer med codon 5'-GGC-3'<br />

på mRNA, se Figur 1.29b og 1.29c. Codon 1,<br />

2, 3 og 4 i det skitserede mRNA translateres til<br />

aminosyresekvensen methionin (Met), glycin<br />

(Gly), serin (Ser) og isoleucin (Ile). Glycin og<br />

alanin følger i positionerne 5 og 6.<br />

Selve translationsprocessen kan inddeles i tre<br />

trin (Figur 1.29c): 1) Initiering, hvor der dannes<br />

et initieringskompleks bestående af mRNA, et<br />

ribosom og tRNA sv.t. codon 1; dette kræver<br />

forskellige initieringsfaktorer. 2) Elongering er<br />

det næste trin, og består af codon-genkendelse<br />

(binding af tRNA), etablering af peptid-binding<br />

og flytning af ribosomet, vha. en translokase,<br />

3 baser frem i 3'-retningen på mRNA;<br />

dette trin kræver tilstedeværelsen af elongeringsfaktorer<br />

sådan at de successive aminosyrer<br />

påsættes det voksende polypeptid. 3) Termine-<br />

Fra DNA til protein<br />

ringen er det sidste trin, og translationen stopper<br />

når en af de tre stopcodons UAA, UGA eller<br />

UAG nås. Det dannede polypeptid forlader<br />

ribosomet, som dissocierer til dets subunits og<br />

mRNA.<br />

mRNA har en begrænset levetid i cytoplasmaet,<br />

forskelligt for de enkelte mRNA’er. Eksempelvis<br />

har β-globin-mRNA en halveringstid<br />

(t1) på omkring 10 timer, mens andre har en<br />

t1 < 30 min.<br />

Den genetiske kode<br />

Den genetiske kode udgør et sæt biologiske<br />

regler der bestemmer hvordan nukleotidsekvensen<br />

i DNA oversættes til aminosyresekvens<br />

via mRNA. Den anvendte genetiske<br />

kode er næsten universel for nukleære gener,<br />

dvs. at med enkelte undtagelser benytter alle<br />

arter samme kode for kernegenernes vedkommende.<br />

Bakterier ligeså.<br />

Koden er opbygget af kodeord (codons), der<br />

udgøres af en sekvens på 3 baser som bestemmer<br />

hvilken aminosyre der skal kobles på ved<br />

translationen. Hver codon angiver én aminosyre.<br />

Derimod kan en aminosyre godt kan have<br />

flere forskellige codons (jf. Tabel 1.6). Den genetiske<br />

kode kaldes derfor degenereret, hvilket<br />

kan eksemplificeres ved at aminosyren fenylalanin,<br />

har to codons: UUU og UUC, mens der<br />

er seks forskellige codons for aminosyren serin:<br />

UCU, UCC, UCA, UCG, AGU og AGC.<br />

Den genetiske kode blev dechifreret og beskrevet<br />

i 1966 og er angivet i sin helhed i Tabel 1.6,<br />

se også kodetabellen side 249. Der er anført 20<br />

forskellige aminosyrer, men rent faktisk indeholder<br />

nogle få proteiner en 21. aminosyre, selenocystein<br />

(Sec), hvis tRNA genkender codonen<br />

UGA (jf Tabel 1.6).<br />

Mitokondriernes genetiske kode er lidt anderledes.<br />

Translationen af deres 13 mRNAmolekyler<br />

sker på mitokondriernes egne ribosomer,<br />

under anvendelse af det mitokondrielle<br />

43


18209 01.fm7 Page 44 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

44<br />

a. Transkription<br />

5'<br />

3'<br />

DNA-dobbelthelix<br />

b. Translation<br />

RNA<br />

Methionin Glycin Serin Isoleucin Glycin Alanin<br />

Polypeptid<br />

A U G G G C U C C A U C G G C G C A G C A A G C<br />

5' 1 2 3 4 5 6 7 8 3'<br />

Codons<br />

mRNA<br />

c. Translationsforløb<br />

3'<br />

C C G C G T<br />

5' A U G G G C U C C A U G G G C U C C<br />

A G U U A A U C C 3'<br />

U A C<br />

Ribosom<br />

Met<br />

1. Initiering<br />

d. Strukturen af transfer-RNA (tRNA)<br />

1. Kløverbladstruktur<br />

5'<br />

G<br />

C<br />

G<br />

G<br />

A<br />

U<br />

A<br />

C<br />

C<br />

A<br />

C<br />

G<br />

C<br />

U<br />

U<br />

A<br />

A<br />

G A C A C C U<br />

U<br />

G A<br />

U<br />

G<br />

C U C A<br />

C U G U G C<br />

G G A G C U<br />

G G<br />

A<br />

A<br />

G<br />

C<br />

C<br />

A<br />

G<br />

A<br />

C<br />

U<br />

G A A<br />

Loop 3<br />

Loop 1<br />

Variabel loop<br />

G<br />

G<br />

U<br />

C<br />

Loop 2 A<br />

3'<br />

Anticodon<br />

Figur 1.29 Se Billedtekst på siden overfor.<br />

Met<br />

C C G<br />

Gly<br />

Ribosom<br />

A G G<br />

Ser<br />

2. Elongering<br />

Phe<br />

2. Tredimensionel struktur<br />

Loop 3<br />

20<br />

Variabel loop<br />

Anticodon-loop<br />

(Loop 2)<br />

54<br />

44<br />

32<br />

U C A<br />

Leu Met Ser<br />

64<br />

Ribosom<br />

3. Terminering<br />

4<br />

7<br />

26<br />

38<br />

12<br />

69<br />

5'<br />

Loop 1<br />

Anticodon<br />

72<br />

3'<br />

5'<br />

76<br />

3'<br />

Acceptorende


18209 01.fm7 Page 45 Friday, March 3, 2006 12:37 PM<br />

sæt af tRNA-molekyler som definerer mitokondriernes<br />

specielle variant af den genetiske<br />

kode (Tabel 1.7); her koder UGA for tryptofan<br />

(Trp), og AGA og AGG fungerer som supplerende<br />

stopcodons i stedet for at kode for arginin<br />

(Arg).<br />

Translation og posttranslationelle<br />

modifikationer<br />

Et segment af en nukleotidsekvens kan læses i tre<br />

forskellige læserammer (Figur 1.30, læserammerne<br />

A, B og C), men kun én af dem er rigtig (A i<br />

Figur 1.30 se dog side 32, Figur 1.23). Den defineres<br />

oftest af den første AUG-sekvens i mR-<br />

NA’et, som så er codon 1, og nysyntetiserede<br />

polypeptider har, som tidligere nævnt (side 43),<br />

Fra DNA til protein<br />

Tabel 1.6 Den genetiske standardkode. Aminosyrerne er angivet ved deres tre- og étbogstavkode (se tabel<br />

i Appendix, side 35). Man har konventionelt bestemt at en codon skrives med 5'-nukleotidet til venstre.<br />

GCA<br />

GCC<br />

GCG<br />

GCU<br />

AGA<br />

AGG<br />

CGA<br />

CGC<br />

CGG<br />

CGU AAC<br />

AAU GAC<br />

GAU UGC<br />

UGU CAA<br />

CAG GAA<br />

GAG<br />

GGA<br />

GGC<br />

GGG<br />

GGU CAC<br />

CAU<br />

AUA<br />

AUC<br />

AUU<br />

UUA<br />

UUG<br />

CUA<br />

CUC<br />

CUG<br />

CUU AAA<br />

AAG AUG UUC<br />

UUU<br />

A R N D C Q E G H I L K M F P S T W Y V<br />

*) I enkelte nukleære gener fungerer UGA som codon for selenocystein.<br />

methionin som N-terminal aminosyre. Efter<br />

translationen undergår polypeptidet forskellige<br />

former for kemiske ændringer, såkaldte posttranslationelle<br />

modifikationer, som er nødvendige<br />

for at opnå det modne slutprodukt, fx et aktive<br />

enzym. Ud over fraspaltning af en eller flere<br />

aminosyrer, herunder den N-terminale methionin,<br />

kan de posttranslationelle modifikationer typisk<br />

bestå i oxidation af cysteiner for at danne<br />

disulfidbroer, samt i glykosylering, fosforylering<br />

etc. Et polypeptids aminosyresekvens betegnes<br />

dets primære struktur og er af afgørende betydning<br />

for sekundærstrukturen, der er den tredimensionelle<br />

form på dele af et polypeptid eksempelvis<br />

α-helix og β-sheet. Den tertiære struktur<br />

er den foldede form af hele polypeptidet,<br />

Figur 1.29 Transkription og translation. A. Det første trin i gen-ekspressionen er transkription af den ene DNA-streng<br />

med dannelse af komplementært RNA. Processen styres af mange proteiner kaldet transkriptionsfaktorer. RNA-syntesen<br />

foregår ved hjælp af RNA-polymerase og kræver at DNA-dobbelthelix åbnes. Syntesen sker i 5' → 3'-retningen,<br />

dvs. komplementært til 3' → 5'-retningen på den DNA-streng der fungerer som template.<br />

Efter transkriptionen sker der en RNA-processering og -splejsning med dannelse af mRNA. B. Translationen er den<br />

proces hvor en række af codons i mRNA oversættes til en korresponderende aminosyresekvens på ribosomerne i cytoplasmaet.<br />

Translationen sker i en læseramme, som defineres af start-codon AUG. De enkelte codons er nummereret.<br />

C. Man definerer tre trin under translationen: initiering, elongering og terminering. Hvert af disse trin har forskellige<br />

proteiner som regulerer processen. De enkelte aminosyrer bringes til ribosomet af specifikke tRNA-molekyler via anticodon<br />

som baseparrer med den rette aminosyrecodon i mRNA. Når to aminosyrer sidder tæt ved hinanden dannes der<br />

en peptidbinding mellem dem, det næstsidst ankomne tRNA frigøres, og ribosomet bevæger sig en codon til højre, hvor<br />

processen gentages til der optræder en stopcodon. D. Til venstre er vist tRNA på såkaldt kløverbladsform. Acceptorarmen<br />

(3'-enden) binder den specifikke aminosyre, i dette eksempel fenylalanin, hvilket kan aflæses af anticodon. Den<br />

tredimensionelle struktur af tRNA er vist til højre. De forskellige loops har funktioner i relation til at elongeringsprocessen<br />

forløber uden fejl. markerer modificeret nukleotid.<br />

CCA<br />

CCC<br />

CCG<br />

CCU<br />

AGC<br />

AGU<br />

UCA<br />

UCC<br />

UCG<br />

UCU<br />

ACA<br />

ACC<br />

ACG<br />

ACU UGG UAC<br />

UAU<br />

Ala Arg Asn Asp Cys Gln Glu Gly Hls Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val stop<br />

GUA<br />

GUC<br />

GUG<br />

GUU<br />

UAA<br />

UAG<br />

UGA *<br />

45


18209 01.fm7 Page 46 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

A<br />

B<br />

C<br />

mens den kvaternære form er den sluttelige konformation<br />

af et multimert protein. Fx hæmoglobin,<br />

som består af 2 α-globin-monomerer, 2 βglobin<br />

monomerer og 4 hæmmolekyler hver<br />

med ét jernatom.<br />

Genomisk regulation af<br />

gen-ekspressionen<br />

Med afslutningen af det humane <strong>genom</strong>projekt<br />

har vi en næsten komplet liste over de gener<br />

som er nødvendige for at danne et individ og<br />

vedligeholde dets celler og organsystemer. Forståelsen<br />

af hvordan den biologiske information<br />

anvendes, kræver dog langt mere end et simpelt<br />

katalog over gener selvom det er en væsentlig<br />

information.<br />

Man har påvist, at andelen af mRNA udgør<br />

omkring 2-3% af det samlede RNA i en menneskecelle.<br />

Et lille antal mRNA’er findes i flere<br />

tusinde kopier, andre findes i flere hundrede<br />

kopier, mens hovedparten findes i mindre end<br />

10 kopier pr. celle. Man regner med, at der i alt<br />

findes omkring 500.000 mRNA-molekyler i<br />

en enkelt menneskecelle. Af de omkring<br />

27.000 gener man har fundet i menneskets <strong>genom</strong>,<br />

er det kun omkring en tredjedel, der udtrykkes<br />

i de enkelte væv og celletyper. Da der<br />

er hundredevis af forskellige celletyper dannende<br />

forskellige organer, der desuden har forskellige<br />

fysiologiske, udviklingsmæssige og patofy-<br />

46<br />

CAGUCUAUGGCAAAUAAGGUAGACCAU<br />

Met Ala Asn Lys Val Asp His<br />

Tyr Gly Lys<br />

Leu Trp Glu<br />

STOP<br />

Ile Arg STOP<br />

Figur 1.30 Læserammen for translationen. Se teksten<br />

for detaljer.<br />

Tabel 1.7<br />

mtDNA.<br />

Den genetiske kode for menneskets<br />

Forskelle fra kernekoden<br />

codon kernekode mtDNA-kode<br />

AUU Ile Ile (startcodon i ND2)<br />

AUA Ile Met<br />

UGA Stop Trp<br />

AGA Arg Stop<br />

AGG Arg Stop<br />

siologiske tilstande, eksisterer der således tusinder<br />

af forskellige transkriptomer.<br />

Beskrivelse og forståelse af de biologiske systemer<br />

som bestemmer hvilke af disse mange<br />

gener der skal være aktive i hvilke celler og på<br />

hvilket tidspunkt, samt hvilke regioner af de<br />

enkelte gener som skal udtrykkes i de enkelte<br />

celler, er mindst lige så vigtig som selve det humane<br />

<strong>genom</strong>s sekvensinformation. Man har allerede<br />

påvist vigtige faktorer i disse systemer,<br />

såkaldte epigenetiske markører, der har betydning<br />

for den differentierede anvendelse af den<br />

biologiske information som de enkelte celler<br />

har. De epigenetiske markører varierer fra celletype<br />

til celletype og har yderligere den vigtige<br />

egenskab at de kan videregives ved celledelingen.<br />

Faktorer i dette system ændrer ikke DNAbaserækkefølgen,<br />

men modificerer i stedet nogle<br />

af baserne, modificerer mængden og typen af<br />

transkript posttranskriptionelt eller modificerer<br />

proteiner omkring DNA-molekylet (Tabel<br />

1.8).<br />

Alternativ transkription og processering<br />

Ud over de kontrolmekanisker som har betydning<br />

for styringen af transkripters initiering og<br />

elongering, eksisterer der mekanismer som regulerer<br />

hvilke specifikke alternative transkripter<br />

der udtrykkes fra et gen. Ved genekspression<br />

kan en celle anvende flere forskellige pro-


18209 01.fm7 Page 47 Friday, March 3, 2006 12:37 PM<br />

Tabel 1.8 Eksempler på epigenetiske modifikationer<br />

til regulation af gen-ekspressionen.<br />

Alternativ transkription og processering<br />

alternativ splejsning meget hyppig<br />

alternativ anvendelse af promotorer almindelig<br />

alternativ polyadenylering almindelig<br />

RNA-editering<br />

Genomiske modifikationer<br />

sjælden<br />

metylering/demetylering af DNA meget hyppig<br />

acetylering/deacetylering af histon<br />

RNA-interferens<br />

meget hyppig<br />

nedbrydning af mRNA almindelig<br />

motorer og differentiel RNA-processering og<br />

der kan således ud fra et relativt lille antal gener<br />

dannes et stort antal forskellige isoformer af<br />

genprodukter. Disse opdagelser har ændret den<br />

klassiske definition af et gen, og den simple relation<br />

»ét gen – ét polypeptid« er ikke mere<br />

gældende.<br />

Mange gener har to eller flere alternative promotorer<br />

hvilket kan resultere i dannelsen af forskellige<br />

isoformer af genprodukter med forskellige<br />

egenskaber. Et af de bedst undersøgte gener,<br />

hvor differentiel promotor anvendes, er<br />

Genomisk regulation af gen-ekspressionen<br />

det store dystrofin-gen (DMD), som består af<br />

79 exons fordelt på 2,4 Mb. Mindst 8 forskellige<br />

promotorer er beskrevet (Figur 1.31), og de<br />

anvendes til celletypespecifik ekspression af<br />

dystrofin-genet. Atter andre isoformer af dystrofin-genet<br />

skyldes alternativ splejsning.<br />

Omkring halvdelen af menneskets gener har<br />

primære transkripter der undergår alternativ<br />

splejsning, hvor forskellige exon-kombinationer<br />

bliver inkluderet i det færdige transkript<br />

ved RNA-processering (Figur 1.17 og 1.18).<br />

Det har vist sig at visse transkripter har bestemte<br />

exon-kombinationer i forskellige væv. De forskellige<br />

isoformer i de forskellige væv giver<br />

mange muligheder for ændrede funktionelle<br />

egenskaber, men detaljeret viden herom mangler<br />

endnu. Alternativ splejsning har vist sig at<br />

være en af de vigtigste mekanismer bag dannelsen<br />

af forskellige isoformer.<br />

Alternativ polyadenylering er en anden almindelig<br />

måde til dannelse af isoformer. Et eksempel<br />

herpå er alternativ polyadenylering af<br />

calcitonin-transkriptet, hvilket resulterer i<br />

vævsspecifik ekspression af to isoformer (Figur<br />

1.32). Calcitonin er et cirkulerende Ca 2+ -homøostatisk<br />

hormon som produceres i gl. thyroidea.<br />

Det calcitonin-gen-relaterede peptid<br />

L C M P R CNS S G<br />

L1 C1 M1 P1<br />

0 500 1000 1500 2000<br />

2 5 10 15 20 30 40 45 50 55 60 70 79<br />

Dp427 Dp260 Dp140 Dp116 Dp71<br />

Figur 1.31 Mindst 8 forskellige promotorer benyttes til cellespecifik ekspression af dystrofin-genet. Positionen af de<br />

8 alternative promotorer er vist øverst: L i lymfocytter, C i hjernebarken (cortex cerebri), M i muskel, P i Purkinjefibre,<br />

R i retina, CNS i central nervesystemet, S i schwannske celler, G for generel promotor. Exons er nummererede 1-79.<br />

Notér at promotorvalget afgør hvilken exon der bliver den første i det pågældende transkript (L1, C1, M1, P1, R1 osv.).<br />

Dp427, Dp260, Dp140, Dp116, Dp71 refererer til størrelsen af færdige peptid i kDa, eksempelvis 427 kDa for Dp427.<br />

kb<br />

47


18209 01.fm7 Page 48 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

(CGRP) syntetiseres i hypothalamus og har<br />

neuromodulatoriske egenskaber. Ud fra samme<br />

gen kan der således dannes peptider med forskellige<br />

egenskaber relateret til forskellige funktioner<br />

i forskellige væv.<br />

RNA-editering er en sjældnere form for<br />

posttranskriptionel processering hos mennesket<br />

og involverer enzym-medieret insertion, deletion<br />

eller modifikation af enkelte nukleotider<br />

på RNA-niveau (fx deaminering af cytosin til<br />

uracil) som fører til ændret mRNA-sekvens.<br />

Man kender til dato kun få gener, hvor denne<br />

måde til dannelse af isoformer anvendes (fx<br />

apolipoprotein B).<br />

Genomiske modifikationer til regulation<br />

af gen-ekspressionen<br />

I Tabel 1.9 er der givet en oversigt over de epigenetiske<br />

modifikationer, som har betydning<br />

for aktive og mindre aktive gener.<br />

48<br />

Calcitoningenet<br />

mRNA<br />

Polypeptidforstadium<br />

Polypeptid<br />

Cap<br />

Gl. thyroidea<br />

Neuronalt<br />

væv<br />

Gl. thyroidea<br />

1 2 3 4<br />

Calcitonin<br />

pA1 pA2 1 2 3 4 5a 5b<br />

Poly-<br />

A<br />

Differentiel splejsning<br />

og polyadenylering<br />

Translation<br />

Posttranslationel<br />

kløvning<br />

Cap<br />

Neuronalt væv<br />

1 2 3 5a<br />

CGRP<br />

5b<br />

Poly-<br />

A<br />

Figur 1.32 Differentiel RNA-processering resulterer i vævsspecifikke calcitoningen-produkter. pA1 og pA2 repræsenterer<br />

alternative polyadenyleringssignaler som anvendes i hhv. gl. thyroidea og neuronalt væv. Notér at calcitonin<br />

kodes af exon 4-sekvenser i gl. thyroidea, mens calcitonin-gen-relateret-peptid (CGRP) i neuronalt væv syntetiseres fra<br />

5'-delen af exon 5 (5a) som et resultat af alternativ splejsning.<br />

Den eneste kendte modifikation af DNA hos<br />

mennesket er metylering af cytosin i position 5<br />

i CpG-dinukleotider. I normale celler foregår<br />

DNA-metylering især i dé <strong>genom</strong>iske områder<br />

som har repeterede sekvenser såsom satellit-<br />

DNA, SINEs og LINEs. Hypermetylering af et<br />

gen eller gen-område nedsætter ekspressionen<br />

af disse og omvendt ved hypometylering.<br />

En anden vigtig epigenetisk modifikation er<br />

den posttranskriptionelle modifikation af histonerne<br />

som DNA er viklet omkring. Denne<br />

modifikation består i påsætning af acetyl-grupper<br />

på lysin-enheder tæt på den N-terminale<br />

ende af histonerne. De acetylerede N-termini<br />

danner haler som stikker ud fra histon-oktameren.<br />

Acetylerede histoner har mindre affinitet<br />

over for DNA og medfører en mere åben<br />

struktur, der er bedre egnet til transkription.<br />

Med andre ord, acetylering af histoner fremmer


18209 01.fm7 Page 49 Friday, March 3, 2006 12:37 PM<br />

Tabel 1.9 Epigenetiske modifikationer ved aktive og inaktive gener.<br />

gen-ekspressionen mens de-acetylering hæmmer<br />

denne ekspression.<br />

For nylig er det blevet vist at processerne for<br />

DNA-metylering og histon-acetylering er koblede,<br />

men den nærmere biologiske betydning<br />

heraf er endnu ikke klarlagt.<br />

DNA-metylering og<br />

imprintningsygdomme<br />

Tidligt i embryogenesen hos kvinder sker der i<br />

somatiske celler normalt en permanent og tilfældig<br />

inaktivering af det ene X-kromosom<br />

som følge af en hypermetylering. Dette betyder<br />

at ca. halvdelen af de somatiske celler hos kvinder<br />

har det paternelt nedarvede X-kromosom<br />

aktivt mens de øvrige celler har det maternelle<br />

X-kromosom aktivt (se nærmere om X-inaktivering<br />

i Kap. 5, side 106ff).<br />

Epigenetiske modifikationer har også sygdomsmæssig<br />

betydning, hvilket bl.a. understreges<br />

af det stigende antal sygdomme, hvor det er<br />

påvist at disse modifikationer er involveret i patogenesen.<br />

En kobling mellem DNA-metylering og<br />

cancer blev kendt for flere år siden, hvor det<br />

blev vist at cancercellers <strong>genom</strong> er relativt hypometyleret<br />

i forhold til normale cellers. Det er<br />

interessant at dette tab af metylering hovedsageligt<br />

er sket i de repetitive områder af <strong>genom</strong>et.<br />

Et andet fænomen er imprintning. Visse regioner<br />

i de maternelle og paternelle <strong>genom</strong>er er<br />

ikke funktionelle ækvivalenter. Gener i sådanne<br />

regioner har forskellig ekspression afhængig af<br />

den parentale oprindelse. En sådan forskel i<br />

gen-ekspressionen som følge af den parentale<br />

Genomisk regulation af gen-ekspressionen<br />

Epigenetisk modifikation Aktive gener Inaktive gener<br />

DNA-metylering Relativ hypometylering<br />

specielt af promotor-regionen<br />

Relativ hypermetylering<br />

inklusive promotor-regionen<br />

Histon-acetylering Acetylerede histoner De-acetylerede histoner<br />

oprindelse kaldes for imprintning. Grunden til<br />

dette fænomen er at der er forskel i graden af<br />

metylering mellem den maternelle og paternelle<br />

allel. Eksempelvis, hvis et maternelt gen er<br />

metyleret (inaktivt) mens det paternelle ikke er,<br />

vil kun det paternelle blive udtrykt. Hvis der<br />

sker forstyrrelser i dette normale imprintningsystem,<br />

medfører det udvikling af forskellige<br />

sygdomme afhængigt af de berørte regioner.<br />

Det har vist sig at visse cancerformer såsom<br />

Wilms’ tumor og kolorektal cancer har forstyrrelser<br />

i de imprintede gener. Der findes også andre<br />

grupper af sygdomme, hvor forstyrret imprintning<br />

har patogenetisk betydning, eksempelvis<br />

Beckwith-Wiedemanns syndrom samt<br />

Prader-Willis og Angelmans syndromer (se<br />

nærmere herom i Kap. 15, side 238ff).<br />

Med baggrund i ovenstående syndromer er<br />

der nu betydelig farmakologisk interesse i at udvikle<br />

medikamina som skal kunne revertere<br />

epigenetiske abnormiteter.<br />

RNA-interferens<br />

Man har for nylig fundet at ekspressionen af ca.<br />

3 af alle menneskets gener reguleres af en ny<br />

klasse af molekyler kaldet miRNA. Det er en<br />

forkortelse for mikro-RNA, der udgøres af små<br />

RNA-molekyler med en længde på 21-30 nukleotider.<br />

De er ikke peptidkodende, men udtrykkes<br />

vævs- og udviklingsmæssigt specifikt og<br />

regulerer ekspressionen af andre gener ved at<br />

binde sig til specifikke mRNA-molekyler og<br />

iværksætte nedbrydning heraf.<br />

Til dato har man identificeret omkring 400<br />

forskellige miRNA’er som har betydning for<br />

49


18209 01.fm7 Page 50 Friday, March 3, 2006 12:37 PM<br />

udvikling og vedligeholdelse af stamceller, hjerne-<br />

og muskelceller. Det har endvidere vist sig<br />

at tab af bestemte miRNA’er kan føre til dysreguleret<br />

insulinsekretion og til celler der ikke<br />

kan dele sig som følge af manglende funktionelle<br />

centromerer.<br />

Betydning og Perspektiver<br />

Det humane <strong>genom</strong> har gennem de sidste 10 år<br />

haft høj grad af fokus inden for den biologiske<br />

og medicinske forskning, og dette vil utvivlsomt<br />

fortsætte endnu en rum tid. Men hvorfor<br />

er al den aktivitet koncentreret om dette og andre<br />

<strong>genom</strong>er (fx mus, gris og ris)? Der er flere<br />

grunde hertil.<br />

For det første vil det humane <strong>genom</strong> danne<br />

grundlag for et genkatalog, hvor man kender<br />

sekvensen af hvert gen selvom man måske ikke<br />

kender dets funktion. Herudover vil man have<br />

adgang til oplysninger om de enkelte geners regulatoriske<br />

områder og om hvordan generne er<br />

lokaliseret i forhold til andre gener. Mange af<br />

disse gener vil, når de ikke fungerer korrekt, give<br />

anledning til genetisk sygdom. Via et genka-<br />

talog for mennesket vil man have hurtig adgang<br />

til sekvensdetaljerne om disse gener, hvilket er<br />

udgangspunktet for at kunne undersøge og forstå<br />

sygdomsmekanismerne, hvilket igen vil<br />

kunne føre til strategier for behandling og profylakse.<br />

Det humane genkatalog er endnu i sin vorden<br />

og mens det færdiggøres, vil der nu blive<br />

rettet mere fokus på transkriptomet og proteomet<br />

(Figur 1.2), som udgør nøglefaktorer for at<br />

forstå hvordan den genetiske information indeholdt<br />

i <strong>genom</strong>et omsættes i den enkelte celle,<br />

herunder hvad der sker i forbindelse med forskellige<br />

sygdomme. Det bliver også interessant<br />

at se hvilken funktion alt det intergeniske DNA<br />

har. Det udgør trods alt ca. 5 af <strong>genom</strong>et.<br />

Sekventeringen af det humane og andre <strong>genom</strong>er<br />

presser teknologien til det yderste og<br />

fungerer derfor også som drivkraft i den fortsatte<br />

teknologiske udvikling af nye og mere effektive<br />

metoder inden for den basalbiologiske og<br />

medicinske forskning, og til betydelig forbedret<br />

diagnostik.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!