27.07.2013 Views

1 Menneskets genom

1 Menneskets genom

1 Menneskets genom

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

18209 01.fm7 Page 13 Friday, March 3, 2006 12:37 PM<br />

1<br />

Indledning<br />

<strong>Menneskets</strong> <strong>genom</strong><br />

Eigil Kjeldsen og Søren Nørby<br />

Alle cellulære organismer lige fra de simpleste<br />

bakterier til de mest komplekse eukaryote organismer,<br />

herunder mennesket, har DNA som<br />

bærer af den genetiske information.<br />

De enkelte organismers liv afhænger af cellernes<br />

evne til at kunne opbevare, åbne og oversætte<br />

de genetiske instruktioner som kræves for<br />

at kunne danne og vedligeholde den levende<br />

organisme. For artens eksistens er det endvidere<br />

nødvendigt at cellerne kan føre den genetiske<br />

information videre til næste generation (se videre<br />

i kapitel 2).<br />

Den genetiske information ligger lagret på en<br />

digital måde i DNA’et, som er opbygget af kulhydratet<br />

deoxyribose, fosfat og fire baser. De fire<br />

baser kaldes A, G, C og T, forkortelser for henholdsvis<br />

adenin, guanin, cytosin og thymin, og<br />

det er rækkefølgen af disse som definerer den<br />

genetiske information. Den genetiske information<br />

er lineær og kan beskrives som et sprog<br />

hvor alfabetet har fire bogstaver. Organismer er<br />

forskellige fra hinanden som følge af at rækkefølgen<br />

og antallet af bogstaver er forskellig.<br />

Et individs <strong>genom</strong> kan defineres som den<br />

fuldstændige genetiske information (DNAindhold)<br />

i den pågældendes celler. Den geneti-<br />

ske information er indeholdt i baserækkefølgen,<br />

som kan aflæses ved DNA-sekventering. <strong>Menneskets</strong><br />

arvemasse beskrives ofte som bestående<br />

af to <strong>genom</strong>er: et komplekst nukleært <strong>genom</strong><br />

(kerne-DNA), som udgør 99,9995% af den<br />

samlede genetiske information og et mere simpelt<br />

opbygget mitokondrie-<strong>genom</strong> (mitokondrie-DNA,<br />

mtDNA), som udgør de resterende<br />

0,0005% (Figur 1.1).<br />

Hver af de omkring 1013<br />

(10.000 milliarder)<br />

somatiske celler, som et udvokset menneske<br />

består af, har sin egen kopi af det nukleære <strong>genom</strong>.<br />

Det nukleære <strong>genom</strong> er i de somatiske celler<br />

diploidt og organiseret i 23 par lineære<br />

DNA-molekyler, ét for hvert af cellens 46 kromosomer,<br />

44 autosomer og 2 kønskromosomer,<br />

XX for kvinder og XY for mænd (Figur<br />

1.5 og 1.8).<br />

Mitokondrie<strong>genom</strong>et er anderledes organiseret<br />

og består af et lille cirkulært DNA-molekyle,<br />

som findes i mange kopier i det enkelte mitokondrie<br />

ligesom der er flere mitokondrier i<br />

den enkelte celle (se nærmere side 38ff). En referencesekvens<br />

for menneskets mtDNA blev<br />

første gang offentliggjort i 1981, og endeligt<br />

bekræftet med korrektioner i 1999.<br />

13


18209 01.fm7 Page 14 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

I 1990 blev det offentlige konsortium International<br />

Human Genome Sequencing Consortium<br />

(IHGSC), bestående af 20 centre i 6 lande, dannet<br />

med det formål at etablere en meget nøjagtig<br />

DNA-sekvens af det humane <strong>genom</strong> (reelt<br />

det nukleære <strong>genom</strong>). Der blev nogle få år senere<br />

også etableret et privat konsortium, Celera<br />

Genomics,<br />

med samme formål. Den største del af<br />

<strong>genom</strong>sekvensen, den såkaldte råskitse (eng.<br />

draft sequence),<br />

blev publiceret samtidig under<br />

stor mediebevågenhed af de to konsortier i februar<br />

2001. Da de to konsortier har anvendt<br />

hvert sit udgangsmateriale til sekventeringen, er<br />

råskitserne ikke identiske. I begge råskitser var<br />

der endvidere store mangler, idet bl.a. ca. 10%<br />

af eukromatinets DNA ikke var sekventeret<br />

(Boks 1.2). I oktober 2004 blev en færdig<br />

DNA-sekvens af det humane <strong>genom</strong> publiceret,<br />

hvor >99% af eukromatinet er sekventeret<br />

færdig.<br />

De to eksisterende referencesekvenser for det<br />

humane <strong>genom</strong> indeholder hver sin sekvens af<br />

14<br />

Menneskecelle<br />

Cellekernen<br />

(det nukleære<br />

<strong>genom</strong>)<br />

Mitokondrie<br />

(mitokondrie<strong>genom</strong>et)<br />

Figur 1.1 Et menneskes arvemasse består af to distinkte<br />

dele: 1) det nukleære <strong>genom</strong> som i sin diploide<br />

form indeholder ca. 6 milliarder basepar (6 Gb), der er<br />

fordelt på 23 par lineære DNA-molekyler, ét for hvert<br />

kromosom, hvor det korteste er ca. 47 mio. basepar<br />

langt og det længste er omkring 246 mio. basepar<br />

langt; 2) mitokondrie-<strong>genom</strong>et, som er et cirkulært<br />

DNA-molekyle på 16,6 kb, og med flere kopier i hvert<br />

mitokondrie.<br />

DNA-molekylerne i de 22 autosomer og de to<br />

kønskromosomer X og Y. En sådan referencesekvens<br />

af de 24 forskellige DNA-molekyler<br />

betegnes »det haploide humane <strong>genom</strong>« og består<br />

af ca. 3,1 milliarder nukleotidpar.<br />

Den humane referencesekvens indeholder<br />

meget overraskende kun omkring 27.000 protein-kodende<br />

gener (Tabel 1.1), hvor man tidligere<br />

troede, at der var mellem 65.000 og<br />

100.000. De tidligere skøn var så høje, fordi de<br />

bl.a. var baseret på en antagelse om at hvert gen<br />

definerede ét enkelt protein. Vi ved i dag at en<br />

proces som alternativ splejsning af mRNA (se<br />

side 27) udgør en langt mere væsentlig del af<br />

<strong>genom</strong>-ekspressionen end tidligere antaget, og<br />

at et gen derfor kan kode for dannelse af flere<br />

forskellige proteiner med forskellige funktioner.<br />

Mitokondrie-<strong>genom</strong>et indeholder 37 gener,<br />

hvoraf 13 koder for proteiner der er involveret<br />

i ATP-produktionen, den oxidative fosforylering.<br />

Resten koder for de RNA-molekyler der<br />

er involveret i den mitokondrielle protein-syntese<br />

(se Figur 1.27).<br />

Figur 1.2 skitserer flowet af den genetiske information<br />

i forbindelse med gen-ekspression:<br />

fra DNA til RNA til protein. Genomet er den<br />

samlede DNA-sekvens, transkriptomet udgøres<br />

af RNA-transkripterne, og proteomet er den<br />

samlede gruppe af proteiner som bliver udtrykt.<br />

Mennesket består af mere end 250 forskellige<br />

celletyper, og alle somatiske, kerneholdige celler<br />

fra samme individ indeholder samme <strong>genom</strong>,<br />

mens transkriptomet og proteomet er forskelligt<br />

fra celle til celle som følge af variation i<br />

gen-ekspressionen.<br />

I de følgende afsnit vil den genetiske informations<br />

struktur, funktion og dynamik på de<br />

enkelte niveauer blive gennemgået i mere detaljeret<br />

form.


18209 01.fm7 Page 15 Friday, March 3, 2006 12:37 PM<br />

Nukleinsyrernes opbygning<br />

DNA<br />

DNA som kemisk enhed blev opdaget af Johann<br />

Friedrich Miescher (1844-95). Det var dog først<br />

i 1930’erne at man blev i stand til at undersøge<br />

den kemiske struktur nærmere.<br />

DNA’s centrale biologiske funktion blev først<br />

erkendt i begyndelsen af 1940’erne, hvor den<br />

amerikanske mikrobiolog Oswald Avery (1877-<br />

1955) og medarbejdere kunne vise at DNA er<br />

bærer af den genetiske information. Før den tid<br />

havde man ikke skænket DNA megen opmærksomhed<br />

i genetisk henseende, idet man mente at<br />

et så relativt monotont opbygget molekyle, som<br />

man troede der var tale om, ikke kunne give anledning<br />

til den mangfoldighed af arter vi kender.<br />

Efter Averys opdagelse interesserede man sig mere<br />

for DNA-molekylet, og biokemikeren Erwin<br />

Chargaff (1905-2002) fandt i slutningen af<br />

1940’erne at i ethvert DNA-molekyle er antallet<br />

af A’er lig med antallet af T’er og på samme måde<br />

er antallet af G’er lig antallet af C’er. Chargaff<br />

fandt også at sammensætningen af DNA varierer<br />

fra art til art mht. de relative mængder af A+T og<br />

G+C. Samtidig lykkedes det biofysikeren Rosalind<br />

Franklin (1920-58) ved hjælp af røntgen-krystallografi<br />

at vise at DNA sandsynligvis er spiralsnoet<br />

som en helix, men om der var to eller tre<br />

kæder var uklart.<br />

Nukleinsyrernes opbygning<br />

Genom Transkriptom Proteom<br />

DNA<br />

Replikation<br />

Transkription<br />

RNA<br />

Translation<br />

Protein<br />

Figur 1.2 Skitse af flowet af den genetiske information i en menneskecelle. Genomet er den samlede DNA-sekvens,<br />

transkriptomet udgøres af RNA-transkripterne, og proteomet er den samlede gruppe af proteiner som <strong>genom</strong>et koder for.<br />

James Watson (f. 1928) og Francis Crick<br />

(1916-2004) kunne i 1953 offentliggøre den<br />

korrekte model for et DNA-molekyle, som bestående<br />

af to strenge snoet omkring hinanden i<br />

en dobbelthelix1<br />

(også kaldet Watson-Crickmodellen,<br />

Figur 1.3A). Hver DNA-streng består<br />

af en kæde af alternerende deoxyribose og<br />

fosfat med en base bundet til hver deoxyriboseenhed.<br />

I modellen danner de to DNA-strenge en stige<br />

formet som en højredrejet spiral (Figur<br />

1.3A). Det er senere vist, at en DNA-dobbelthelix<br />

også kan antage andre former, som bl.a.<br />

har betydning for binding af regulatoriske proteiner.<br />

De to kæder holdes sammen af hydrogen-bindinger<br />

mellem baserne, hvor A i den<br />

ene kæde parres med T i den anden, og G tilsvarende<br />

med C. Heraf følger, at kender man<br />

base-rækkefølgen (sekvensen) i den ene streng,<br />

så kender man automatisk også rækkefølgen i<br />

den anden streng – de to strenges basesekvenser<br />

er komplementære. Det bemærkes at der er 3<br />

hydrogen-bindinger mellem G og C og kun 2<br />

mellem A og T. Dette betyder at jo højere indholdet<br />

af GC-par er i et DNA-segment, desto<br />

1 1953a Watson JD & Crick FHC. Molecular structure of nucleic<br />

acids: a structure for deoxyribose nucleic acid. Nature<br />

171: 737-738 og 1953b Watson JD & Crick FHC. Genetical<br />

implications of the structure of deoxyribonucleic<br />

acid. Nature 171: 964-967<br />

15


18209 01.fm7 Page 16 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

mere energi skal der til for at bryde hydrogenbindingerne<br />

og adskille de to DNA-strenge i<br />

det pågældende område. Dette har betydning<br />

16<br />

A<br />

B<br />

CH 3<br />

N<br />

5' 3'<br />

C G<br />

A T<br />

G C<br />

T A<br />

C G<br />

A T<br />

T A<br />

C G<br />

C G<br />

A T<br />

A T<br />

C G<br />

A T<br />

C G<br />

G C<br />

3' 5'<br />

O N<br />

N N<br />

O<br />

H<br />

Hydrogen<br />

bindinger<br />

N<br />

Thymin Adenin<br />

N<br />

5'<br />

3'<br />

O<br />

O P OH<br />

O<br />

CH2 5' O<br />

C H H C<br />

4'<br />

H C C H<br />

3'<br />

O H<br />

O P OH<br />

O<br />

2'<br />

C G<br />

CH2 5' O<br />

C H C<br />

4'<br />

H C H<br />

3'<br />

O H<br />

O P OH<br />

O<br />

2'<br />

O<br />

C C<br />

O<br />

CH2 O<br />

HO P O<br />

G C<br />

H<br />

C<br />

CH T A<br />

2<br />

5' O<br />

C H H C<br />

4'<br />

H C C<br />

3'<br />

H<br />

2'<br />

O H<br />

3'<br />

H<br />

H<br />

2'<br />

H<br />

1'<br />

4'<br />

C H H C<br />

5'<br />

O<br />

C C<br />

O<br />

CH2 O<br />

HO P O<br />

O<br />

3'<br />

H<br />

2'<br />

H<br />

1'<br />

C H H<br />

5' C<br />

H<br />

4'<br />

C C<br />

O<br />

CH2 O<br />

HO P O<br />

O<br />

3'<br />

1'<br />

1'<br />

H<br />

H<br />

2'<br />

H<br />

1'<br />

4'<br />

C H H C<br />

5'<br />

1'<br />

N<br />

H<br />

N O<br />

N N<br />

O<br />

N<br />

ved DNA-replikation og transkription samt<br />

ved DNA-analyse.<br />

N<br />

N<br />

H<br />

Cytosin Guanin<br />

Figur 1.3 DNA-molekylets struktur. A. Til venstre er vist DNA-dobbelthelix, som består af to DNA-polynukleotidstrenge,<br />

som er snoet om hinanden og danner en højredrejet spiral der holdes sammen af hydrogen-bindinger mellem<br />

de parrede baser. Til højre er vist, at polynukleotidstrengene består af deoxyribose-fosfat-kæder, hvor nukleotiderne i<br />

hver streng er koblet sammen med 3'-5' fosfodiester-bindinger og baserne (A, G, C og T) er kovalent bundet til deoxyribosen.<br />

Pilene angiver orienteringen af de to DNA-strenge, der er antiparallelle i forhold til hinanden. B. DNA indeholder<br />

4 forskellige baser, som parvis er komplementære. Basernes kemiske struktur gør at der kun effektivt kan dannes<br />

hydrogen-bindinger mellem A og T samt mellem G og C i DNA-dobbelthelix. Der dannes to hydrogen-bindinger mellem<br />

A og T mens der dannes tre hydrogen-bindinger mellem G og C. Denne baseparring mellem de to polynukleotidstrenge<br />

kan kun ske når disse er antiparallelt orienteret.<br />

N<br />

3'<br />

5'


18209 01.fm7 Page 17 Friday, March 3, 2006 12:37 PM<br />

A<br />

B<br />

HOCH2 O OH<br />

H<br />

H H<br />

H<br />

OH OH<br />

Ribose<br />

O<br />

HC<br />

C<br />

NH<br />

HC<br />

N<br />

H<br />

C<br />

Uracil<br />

O<br />

HOCH 2 O OH<br />

H<br />

H H<br />

OH H<br />

H<br />

Deoxyribose<br />

H 3 C<br />

Når to DNA-strenge ved baseparring associeres<br />

til en DNA-dobbelthelix sker det i modsat<br />

orientering, hvilket vil sige at hvis den ene<br />

streng fx er orienteret i 5'→3'-retning<br />

så vil den<br />

anden streng orienteres i 3'→5'-retning;<br />

de er<br />

antiparallelle, som vist i Figur 1.3A. Nomenklaturen<br />

for retningen skyldes, at nukleotiderne<br />

under syntesen af DNA-strengen bindes sammen<br />

af esterbindingen mellem den fri OHgruppe<br />

i det sidst indbyggede nukleotid og fosfatgruppen<br />

i det ny. Den fri OH-gruppe sidder<br />

på det C-atom i deoxyribosen der betegnes<br />

med 3' og definerer dermed DNA-strengens 3'ende.<br />

Tilsvarende defineres 5'-enden af den fri<br />

fosfatgruppe på deoxyribosens 5'-C.<br />

En DNA-streng består således af en lang række<br />

enheder (nukleotider), som hver igen består<br />

af følgende tre elementer: 1) deoxyribose, som<br />

er et kulhydrat med 5 C-atomer (en pentose),<br />

hvortil der dels er bundet 2) en nitrogenholdig<br />

base (A, G, C eller T), dels 3) en fosfatgruppe.<br />

Cytosin og thymin tilhører pyrimidingruppen af<br />

baser, der er opbygget af en sekskantet pyrimi-<br />

C<br />

HC<br />

O<br />

C<br />

NH<br />

C<br />

ON<br />

H<br />

Thymin<br />

C<br />

5' 3'<br />

Nukleinsyrernes opbygning<br />

Figur 1.4 Strukturelle forskelle mellem RNA og DNA.<br />

A. RNA indeholder kulhydratet ribose, som svarer til DNA’ets deoxyribose, men ribosen har en ekstra OH-gruppe.<br />

B. RNA indeholder basen uracil, som ligner thymin, men mangler CH3-gruppen. C. I RNA er nukleotiderne som i DNA<br />

koblet sammen med 3'-5' fosfodiester-bindinger. I modsætning til DNA er RNA enkeltstrenget, men indeholder ofte<br />

korte strækninger af nukleotider som baseparrer med komplementære sekvenser andre steder i samme molekyle ( ).<br />

Dette medfører at et RNA-molekyle kan foldes i en tredimensionel struktur bestemt af nukleotidsekvensen.<br />

G<br />

U<br />

A<br />

U<br />

C<br />

C<br />

A<br />

U<br />

A<br />

G<br />

dinring, mens guanin og adenin tilhører puringruppen,<br />

som har en femkantet ring koblet til<br />

den sekskantede (se Figur 1.3B).<br />

RNA<br />

RNA-molekyler er polynukleotider, ligesom<br />

DNA-molekylet, men adskiller sig på tre væsentlige<br />

punkter fra DNA (Figur 1.4): 1) kulhydrat-molekylet<br />

i RNA-nukleotiderne er ribose,<br />

Boks 1.1<br />

Længdeenheder i DNA- og RNA-molekyler<br />

Da DNA er dobbeltstrenget, angives længden af molekylerne<br />

i antal basepar (bp). Et kilobasepar (kb) er<br />

103 bp og et megabasepar (Mb) er 106 bp. Et gigabasepar<br />

(Gb) er 109 bp.<br />

1 kb = 1000 bp<br />

1Mb = 1000 kb = 1.000.000 bp<br />

1 Gb = 1000 Mb = 1.000.000 kb = 1.000.000.000 bp<br />

Længden af RNA-molekyler kan ikke udtrykkes i bp, da<br />

de er enkeltstrengede, hvorfor længden angives i antal<br />

nukleotider.<br />

17


18209 01.fm7 Page 18 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

2) RNA indeholder ikke thymin, men i stedet<br />

pyrimidinen uracil, som ligeledes er komplementær<br />

til adenin, og 3) RNA-molekyler er<br />

enkeltstrengede, men indeholder oftest korte<br />

strækninger af nukleotider som baseparrer med<br />

komplementære sekvenser andre steder i molekylet<br />

(Figur 1.4C).<br />

Pakning af DNA til kromosomer<br />

Kromosomerne gennem cellecyklus<br />

Kromosomer afbildes næsten altid i en tilstand<br />

hvor kromatinet, dvs. DNA og associerede<br />

proteiner, er mest kompakt. Denne tilstand optræder<br />

kun i en meget kort periode af cellens<br />

livscyklus, nemlig i metafasen i celledelingen<br />

(Figur 1.5 og 1.6; se også Kapitel 2).<br />

På alle andre tidspunkter ligger kromosomerne<br />

som lange, tynde og fine tråde i cellekernen,<br />

og kan kun vanskeligt visualiseres i mikroskopet.<br />

Et kromosom fungerer som en strukturel<br />

enhed i cellen, og hvert enkelt kromosom ligger<br />

i et afgrænset afsnit ( compartment)<br />

i cellekernen<br />

(Figur 1.6).<br />

18<br />

Figur 1.5 Spredte kromosomer fra en celle i metafasen<br />

efter Giemsa-farvning, hvor man kan se lyse og mørke<br />

bånd langs de enkelte kromosomer. Parvis er kromosomernes<br />

båndmønster ens undtagen for X- og Y-kromosomerne.<br />

Tallene angiver eksempler på kromosompar,<br />

her nr. 1 og 13 samt kønskromosomerne X og Y.<br />

Hvert kromatid (G1-fase-kromosom/G2-fa<br />

se-kromosomhalvdel – se Figur 2.1) indeholder<br />

ét langt, lineært, dobbeltstrenget DNA-molekyle<br />

som er mange millioner basepar langt.<br />

Figur 1.6 Til venstre er vist en FISH-farvning af metafase-kromosomer fra dyrkede lymfocytter med whole chromosome<br />

painting-prober for kromosom 2 (rød) og kromosom 16 (grøn) (Se Kap. 4 for beskrivelse af FISH-farvning). Kontrastfarven<br />

er 4’,6-diamidino-2-fenylindol (DAPI), som farver de øvrige kromosomer (blå). Til højre er vist en cellekerne,<br />

hvor man kan se de enkelte kromosomer (2 og 16) liggende i hvert sit compartment. De øvrige kromosomer kan ikke<br />

ses individuelt, men er kontrastfarvet blå.


18209 01.fm7 Page 19 Friday, March 3, 2006 12:37 PM<br />

Længden af det enkelte DNA-molekyle afhænger<br />

af størrelsen af kromosomet som vist i Tabel<br />

1.1.<br />

Kromosomstrukturen og graden af kromosomernes<br />

kondensering varierer med cellecyklus<br />

(se Mitosen, side 52), og man skelner på<br />

den baggrund mellem mitotiske kromosomer<br />

og interfasekromosomer.<br />

Pakning af DNA til kromosomer<br />

Tabel 1.1 Det haploide humane <strong>genom</strong>. DNA-indholdet samt antallet funktionelle gener i hvert<br />

kromosom.<br />

Fra National Center for Biotechnology Information (NCBI) Human Genome Project, november 2005<br />

Kromosom Mb % af <strong>genom</strong>et Samlede antal gener Antal Gener/Mb * % af gener i alt<br />

1 246 8,0 2610 10,6 9,7<br />

2 243 7,9 1748 7,2 6,5<br />

3 200 6,5 1381 6,9 5,2<br />

4 191 6,2 1024 5,4 3,8<br />

5 189 6,1 1190 6,3 4,4<br />

6 171 5,5 1394 8,2 5,2<br />

7 159 5,1 1378 8,7 5,1<br />

8 146 4,7 927 6,3 3,5<br />

9 138 4,5 1076 7,8 4,0<br />

10 135 4,4 983 7,3 3,7<br />

11 135 4,4 1692 12,5 6,3<br />

12 132 4,3 1268 9,6 4,7<br />

13 114 3,7 496 4,3 1,9<br />

14 106 3,4 1173 11,0 4,4<br />

15 100 3,3 906 9,0 3,4<br />

16 89 2,9 1032 11,6 3,8<br />

17 79 2,6 1394 17,7 5,2<br />

18 76 2,5 400 5,3 1,5<br />

19 64 2,1 1592 25,0 5,9<br />

20 62 2,0 710 11,4 2,6<br />

21 47 1,5 337 7,2 1,3<br />

22 50 1,6 701 14,1 2,6<br />

X 155 5,0 1141 7,4 4,3<br />

Y 58 1,9 255 4,4 1,0<br />

3085 100,0 26808 8,7 100,0<br />

* Bemærk variationen i gen-tætheden på de enkelte kromosomer<br />

Interfasekromosomer og kromatindomæner<br />

Den samlede længde af alle 46 DNA-molekyler<br />

i en cellekerne i G1-fasen er ca. 2 meter. De er<br />

pakket i en cellekerne som for en typisk menneskecelle<br />

vil være omkring 5-8 µm i diameter.<br />

Omregnet svarer det til at hvis man forestiller<br />

sig cellekernen på størrelse med en tennisbold<br />

19


18209 01.fm7 Page 20 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

så skulle den indeholde en ca. 20 km lang og<br />

meget tynd tråd (ca. 20 µm i tykkelse).<br />

For at cellekernen skal kunne rumme ca. 2 meter<br />

DNA, må det nøgne DNA pakkes med forskellige<br />

proteiner til det kompleks der kaldes kromatin.<br />

Disse proteiner består af en familie af basiske<br />

proteiner kaldet histoner og en heterogen<br />

gruppe af sure såkaldte non-histon-proteiner,<br />

som er knap så velkarakteriserede som histonerne.<br />

De forskellige hierarkiske niveauer i pakningen<br />

af kromosomer er skematiseret i Figur 1.7.<br />

Der er fem hovedtyper af histoner (H1, H2A,<br />

H2B, H3 og H4) som spiller en særdeles vigtig<br />

rolle for pakningen af DNA’et i cellekernen.<br />

Aminosyresekvenserne (aminosyrer er byggesten<br />

i proteiner) af H2A, H2B, H3 og H4 er<br />

20<br />

600 nm<br />

Kromatinloop<br />

(~75 kb)<br />

p<br />

q<br />

13<br />

12<br />

11.2<br />

11.1<br />

11.1<br />

11.2<br />

12<br />

21.1<br />

21.2<br />

21.3<br />

22<br />

23<br />

24<br />

25<br />

Kromatider<br />

600 nm 600 nm<br />

Scaffold<br />

30 nm<br />

9,5 Mb<br />

6,0 Mb<br />

7,0 Mb<br />

4,5 Mb<br />

5,5 Mb<br />

3,0 Mb<br />

8,5 Mb<br />

8,0 Mb<br />

4,5 Mb<br />

7,5 Mb<br />

8,0 Mb<br />

10 nm<br />

1,5 Mb<br />

Nukleosom<br />

30 nm 10 nm<br />

Kromatinfiber<br />

2 nm<br />

Linker DNAdobbelthelix<br />

Figur 1.7 Fra DNA-dobbelthelix til metafase-kromosom. Her er vist et ideogram for human kromosom 17 i G-båndmønster<br />

(400-bånds opløsning). Til venstre på ideogrammet er vist båndnummereringen og til højre på ideogrammet<br />

er vist de omtrentlige længder af DNA-dobbelthelix indeholdt i de enkelte lyse og mørke bånd. Til højre for ideogrammet<br />

er vist en stiliseret tegning som viser princippet i at de to kromatider hver består af en lang DNA-dobbelthelix.<br />

Disse er pakket på den måde som er illustreret nederst i figuren. Den estimerede pakningsratio for humane kromosomer<br />

er 1:10 på nukleosom-niveau, 1:36 for 30 nm kromatin-fiberen og 1: >10.000 for metafase-kromosomet.<br />

meget velbevaret gennem evolutionen, som<br />

vist i Tabel 1.2 for H4, hvor der er en meget<br />

høj grad af sekvens-identitet mellem meget forskellige<br />

eukaryote arter. Dette betyder at<br />

DNA-pakningen er en grundlæggende mekanisme,<br />

som er ens for selv meget forskelligartede<br />

eukaryote organismer. To kopier af hver af<br />

disse fire histoner danner tilsammen en histonoktamer,<br />

som et segment af DNA-dobbelthelixen<br />

på ca. 140 bp vindes omkring ligesom en<br />

tråd om en spole. Det svarer til at dobbelthelixen<br />

er vundet lige under 2 gange rundt om oktameren<br />

og fortsætter i et kort linker-segment<br />

på<br />

mellem 20 og 60 basepar til næste histon-oktamer.<br />

Det enkelte kompleks bestående af histonoktamer<br />

og DNA kaldes et nukleosom,<br />

og er


18209 01.fm7 Page 21 Friday, March 3, 2006 12:37 PM<br />

den grundlæggende strukturelle enhed i kromatinet.<br />

Histon H1, hvis aminosyresekvens varierer<br />

en del mere mellem arterne end de øvrige<br />

histoners, synes at binde til DNA fra kanten af<br />

hvert nukleosom.<br />

Igennem cellecyklus undergår kromosomerne<br />

en ordnet cyklus af kondensering og dekondensering.<br />

I interfasekernen er kromosomerne og<br />

kromatinet relativt dekondenseret sammenlignet<br />

med kondenseringsgraden af kromatinet i metafase-kromosomerne.<br />

Dog er det sådan at selv i<br />

interfasekernen er DNA mere kondenseret end<br />

det ville være i sin native, proteinfrie form (også<br />

kaldet nøgent DNA). Det meste, hvis ikke alt,<br />

DNA i cellekernen er associeret med histoner,<br />

hvilket kondenserer det til ca. 10% af dets native<br />

længde (Figur 1.7). Eksempelvis vil DNA’et i<br />

kromosom 17 i sin native, nøgne form have en<br />

længde på ca. 5 cm og efter kompleksdannelsen<br />

med histonerne vil den være ca. 0,5 cm.<br />

Nukleosomfiberen (10 nm-fiberen, Figur<br />

1.7), som har et perler-på-en-snor-udseende, er<br />

igen pakket som en helix i en sekundær kromatinstruktur<br />

kaldet en solenoide. I et elektronmikroskop<br />

kan denne kromatinfiber ses som en 30<br />

nm tyk fiber og er således ca. 3 gange tykkere<br />

end nukleosomfiberen.<br />

Pakning af DNA til kromosomer<br />

Tabel 1.2 Aminosyre-sekvenserne i ét-bogstavkode (se Kap. 17, side ##) for histon H4 fra forskellige<br />

arter. Understregning viser forskel fra den humane sekvens og »……« angiver manglende aminosyrer.<br />

Data er fra NCBI.<br />

Menneske<br />

Okse<br />

Kylling<br />

Rotte<br />

Majs<br />

Bananflue<br />

S. pombe (gær)<br />

aminosyre nr 1 103<br />

msgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrgvlk vflenvirda vtytehakrk tvtamdvvya lkrqgrtlyg fgg<br />

msgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrgvlk vflenvirda vtytehakrk tvtamdvvya lkrqgrtlyg fgg<br />

msgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrgvlk vflenvirda vtytehakrk tvtamdvvya lkrqgrtlyg fgg<br />

msgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrgvlk vflenvirda vtytehakrk tvtamdvvya lkrqgrtlyg fgg<br />

msgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrgvlk iflenvirda vtyteharrk tvtamdvvya lkrqgrtlyg fgg<br />

mtgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrgvlk vflenvirda vtytehakrk tvtamdvvya lkrqgrtlyg fgg<br />

msgrgkggkg lgkggakrhr kilrdniqgi tkpairrlar rggvkrisal vyeetravlk lflenvirda vtytehakrk tvtsldvvys lkrqgrtiyg fgg<br />

Pyrenomonas salina msgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrsvlk vflenvirda vtyteharrk tvtamdvvya lkrqgrtlyg fgg<br />

Aspergillus nidus<br />

msgrg...........akrhr kilrdniqgi tkpairrlar rggvkrisam iyeetrgvlk tflegvirda vtytehakrk tvtsldvvya lkrqgrtlyg fgg<br />

Hver omdrejning i solenoiden svarer til seks<br />

nukleosomer og synes at udgøre den grundlæggende<br />

enhed i kromatin-organisationen. Pakket<br />

således vil DNA’et i kromosom 17 være ca.<br />

0,1 cm langt.<br />

Hver solenoide er igen pakket i form af såkaldte<br />

loops (slynger) eller domæner, som med<br />

intervaller på omkring 10-100 kb er fastgjort til<br />

Boks 1.2<br />

HETEROKROMATIN<br />

1 Konstitutivt heterokromatin repræsenterer DNA<br />

som ikke indeholder gener og altid bevares kompakt<br />

i sin organisation. Denne del omfatter bl.a.<br />

centromer- og telomer-DNA.<br />

2 Fakultativt heterokromatin mener man indeholder<br />

gener som er inaktive i nogle celler, eller er inaktive<br />

i bestemte dele af cellecyklus, mens de i andre celler<br />

eller andre dele af cellecyklus er aktive. Når generne<br />

er inaktive, pakkes de som heterokromatin.<br />

Det menes at kromatinstrukturen er så kompakt at<br />

de proteiner som er involveret i gen-ekspression ikke<br />

kan komme til.<br />

EUKROMATIN<br />

De resterende kromosomregioner som indeholder<br />

de aktive gener, er mindre kompakte og tillader at<br />

ekspressions-proteinerne kan komme til. Eukromatin<br />

findes spredt i kromosomerne.<br />

21


18209 01.fm7 Page 22 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

et non-histon-protein-netværk også kaldet matrix<br />

eller scaffold (proteinskelet) (Figur 1.9A).<br />

De enkelte loops er bundet til protein-skelettet<br />

via AT-rige DNA-regioner kaldet MARs ( matrix-associated<br />

regions)<br />

eller SARs ( scaffold attachment<br />

regions).<br />

Det er ikke endeligt afklaret om<br />

disse loops er de grundlæggende funktionelle<br />

enheder ved eksempelvis replikation eller<br />

transkription eller begge dele.<br />

Når cellerne ikke er i deling, kan man med<br />

lysmikroskopi se at cellekernen har lyse og<br />

mørkt farvede områder. De mørkt farvede<br />

områder synes at koncentrere sig i periferien af<br />

cellekernen og kaldes heterokromatin. Det er<br />

relativt kompakt i sin organisation, selvom det<br />

er mindre kompakt end i metafase-kromosom-strukturen.<br />

Man skelner mellem konstitutivt<br />

og fakultativt heterokromatin (Boks<br />

1.2),<br />

Mitotiske kromosomer<br />

De ovenfor omtalte loops kan udgøre begyndelsen<br />

til de fortykkelser som kan ses i mikroskopet<br />

i den tidlige profase, hvor mitosen begynder.<br />

I selve profasen kan kromosomerne let ses<br />

i lysmikroskopet. Efter farvning af kromosomerne<br />

kan der identificeres 1000 bånd eller flere<br />

(høj-opløsnings-båndfarvning), og et bånd<br />

vil således kunne rumme flere millioner basepar<br />

og måske 30-100 gener. I profasen er kromosom<br />

17 kondenseret til en længde på ca. 15 µm<br />

svarende til 1/3000 af længden af DNA-molekylets<br />

native form.<br />

Når kondenseringen er maksimal, som i<br />

metafasen, har kromosomerne en længde på ca.<br />

1/50.000 af DNA’ets native længde. I en metafase<br />

efter båndfarvning kan et bånd således teoretisk<br />

indeholde ca. 5-20 millioner basepar.<br />

Med menneskets ca. 27.000 gener og et samlet<br />

antal bånd på metafasekromosomerne på 400<br />

bliver den gennemsnitlige gentæthed ca. 70 gener<br />

per bånd.<br />

22<br />

Efter mitosen dekondenserer kromosomerne<br />

og indtager igen deres kromatinstruktur i interfasekernen,<br />

hvor de er klar til at begynde en ny<br />

cyklus.<br />

Strukturer i kromosomet<br />

Metafasekromosomet, der dannes på et tidspunkt<br />

i cellecyklus, efter at DNA-replikationen<br />

har fundet sted (se videre i kapitel 2), består<br />

af to udgaver af et lineært DNA-molekyle<br />

repræsenteret ved de to kromatider, som holdes<br />

sammen i centromeret (Figur 1.8 og<br />

1.9B). Centromeret har forskellig placering på<br />

de enkelte kromosomer (se karyotypen, Figur<br />

1.8).<br />

En vigtig del af centromer-funktionen knytter<br />

sig dels til at holde kromatiderne sammen,<br />

dels til selve adskillelsen heraf i mitosen og<br />

meiosen (Figur 1.11). En plade-lignende struktur,<br />

kinetokoren, der ligger på overfladen af de<br />

to kromatider i centromer-regionen, fungerer<br />

som vedhæftningspunkt for de mikrotubuli,<br />

der stråler ud fra centriolerne, og trækker de<br />

segregerende kromatider til hver deres dattercelle.<br />

Det er særlige DNA-sekvenser, kaldet<br />

alphoid DNA (se Tabel 1.5), som udgør<br />

DNA’et i centromer-regionerne, og der er stor<br />

sekvenslighed mellem disse fra forskellige arter.<br />

De fungerer som bindingssted for centromerspecifikke<br />

proteiner, hvoraf der er mindst fem<br />

forskellige, og som hæfter tentrådene.<br />

En anden vigtig region på kromosomet er den<br />

terminale region, telomeren, dvs. den yderste<br />

ende af kromosomets to arme (Figur 1.10). Telomer-regionen<br />

består af DNA, der udgøres af<br />

den repeterede enhed: 5'-TTAGGG-3' (hhv.<br />

5'-CCCTAA-3'). Den er repeteret op til et par<br />

tusind gange og udgør op til ca. 12 kb i hver ende<br />

af kromatiderne. Yderst er der et 3'-overhæng,<br />

som består af enkeltstrenget DNA (se Figur<br />

1.12).


18209 01.fm7 Page 23 Friday, March 3, 2006 12:37 PM<br />

Telomer-længden er vigtig for kromosomets<br />

stabilitet, men bliver lidt mindre efter hver replikation,<br />

og når længden kommer ned under<br />

en bestemt grænse, er det en afgørende og<br />

medvirkende årsag til celle-aldring og snarlig -<br />

død. Cancerceller har dog bevaret aktiviteten af<br />

nogle gener, der koder for proteiner (bl.a. telomeraser),<br />

som kan sikre bevarelsen af telomerlængden<br />

under replikationen, hvilket har betydning<br />

for deres immortalitet.<br />

Genomets struktur<br />

Figur 1.8 Et eksempel på en kromosom-undersøgelse med G-båndfarvning af celler fra en knoglemarvsprøve. Resultatet<br />

er den mandlige karyotype 46,XY. Til højre for hvert kromosompar er vist et G-båndsideogram i 400-bånds opløsning<br />

hvor de små tal angiver eksempler på båndnummerering (se Kap. 17, side 252). De røde områder viser centromererne.<br />

De har forskellig placering på de enkelte kromosomer og markerer skellet mellem den korte (p) og lange (q) arm<br />

heraf. De akrocentriske kromosomer 13, 14, 15, 21 og 22 indeholder på den korte arm rRNA-generne, der koder for ribosom-RNA<br />

(rRNA). rRNA-generne er repeteret flere hundrede gange. De gråt markerede områder på den lange arm<br />

nær centromeret på kromosomerne 1, 3, 4, 9, 16 og 19, de korte arme af de akrocentriske kromosomer samt Yq12 angiver<br />

lokalisationen af konstitutivt heterokromatin, se Boks 1.2.<br />

Genomets struktur<br />

Generelt<br />

Den genetiske information i en menneskecelle<br />

består, som tidligere omtalt, af to <strong>genom</strong>er: et<br />

kompliceret nukleært <strong>genom</strong> og et mere simpelt<br />

mitokondrie-<strong>genom</strong> (Figur 1.13). Det nukleære<br />

<strong>genom</strong> udgør langt hovedparten af den genetiske<br />

information mens mitokondrie-<strong>genom</strong>et<br />

samlet kun er ansvarligt for en mindre del heraf<br />

og i øvrigt kun en del som vedrører nogle af de<br />

23


18209 01.fm7 Page 24 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

Figur 1.9 A. Et elektronmikroskopisk udsnit af en cellekerne,<br />

hvor man efter særlig protein-ekstraktion kan<br />

se de enkelte kromatin-fibre strækkende sig ud fra<br />

scaffold. B. Et scanningelektron-mikroskopibillede af et<br />

metafasekromosom, som viser de to kromatider bundet<br />

sammen i centromeret. De mange små knude-formede<br />

projektioner viser de enkelte grupper af kromatin-loops<br />

(se også Figur 1.7).<br />

specifikke mitokondrielle, omend livsnødvendige,<br />

funktioner.<br />

Med udgangspunkt i skitsen ovenfor af det<br />

humane <strong>genom</strong> vil de enkelte dele heraf blive<br />

gennemgået mere detaljeret.<br />

24<br />

Mikrotubuli<br />

Kinetokor<br />

Figur 1.11 Kinetokoren er det sted, hvor mikrotubuli<br />

vedhæfter og trækker de segregerende kromatider til<br />

hver deres dattercelle.<br />

A<br />

B<br />

Kromatid<br />

Telomer<br />

Centromer<br />

Subtelomer<br />

region<br />

100-300 kb ˜ 12 kb<br />

Telomer- Telomer<br />

associerede<br />

repeats<br />

Figur 1.10 A. Et metafasekromosom består af to kromatider<br />

(kaldet søsterkromatider), som holdes sammen<br />

i centromeret. Regionerne i enderne af kromatiderne<br />

benævnes telomerer. B. Et udsnit af den ene ende af et<br />

kromatid, hvor telomeren udgør de terminale ca. 12 kb,<br />

Telomer-associerede repeats udgør 100-300 kb (se Tabel<br />

1.5) og mest centromert ligger subtelomer-regionen,<br />

som er rig på gener.<br />

Det nukleære <strong>genom</strong>s opbygning<br />

Kernen i en menneskecelle indeholder mere<br />

end 99% af cellens samlede DNA-indhold, der<br />

i det haploide <strong>genom</strong> udgør 3,1 Gb. Det indeholder,<br />

som tidligere angivet, omkring 27.000<br />

gener. Den samlede DNA-mængde i en celle,<br />

udgør i interfasen ca. 7 pg (1 pg = 10 -12 gram).<br />

Som det fremgår af Figur 1.13 består <strong>genom</strong>et<br />

i cellekernen af dels gener og gen-relaterede<br />

sekvenser, dels intergenisk DNA. Gener og<br />

5’<br />

3’<br />

..... AGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAG<br />

•••••••••••••••••••••••••••<br />

..... TCCCAATCCCAATCCCAATCCCAATCC<br />

3’ 5’<br />

Figur 1.12 Telomer-regionen. De terminale op til 12<br />

kb af et kromosom udgøres af den repeterede enhed<br />

5'-TTAGGG-3' (indrammet). Enheden er repeteret op til<br />

et par tusinde gange. Ved hver celledeling bliver regionen<br />

kortere.


18209 01.fm7 Page 25 Friday, March 3, 2006 12:37 PM<br />

Gener og genrelaterede<br />

sekvenser<br />

1.100 Mb<br />

Kodende<br />

DNA 48 Mb<br />

Pseudogener<br />

Ikke-kodende<br />

DNA 1.052 Mb<br />

Genfragmenter<br />

Introns,<br />

UTR<br />

Det nukleære <strong>genom</strong><br />

3.100 Mb<br />

~27.000 gener<br />

LINEs<br />

640 Mb<br />

gen-relaterede sekvenser udgør ca. 35% af <strong>genom</strong>et,<br />

hvor den kodende del kun udgør i alt<br />

ca. 1,5% af det samlede <strong>genom</strong>.<br />

Langt hovedparten af <strong>genom</strong>et, ca. 65%, udgøres<br />

af intergenisk DNA, dvs. DNA-sekvenser<br />

som ligger mellem generne. Det intergeniske<br />

DNA består hovedsageligt af forskellige former<br />

for repeterede DNA-sekvenser, som vil blive<br />

beskrevet nærmere nedenfor (se side 35ff).<br />

Gener og gen-relaterede sekvenser<br />

Kodende DNA – genernes struktur<br />

En organismes DNA koder for al RNA og dermed<br />

de proteiner som er nødvendige for, at organismen<br />

kan danne og vedligeholde sine celler,<br />

væv og organer. Samlet udgør den proteinkodende<br />

information hovedparten af det omkring<br />

48 Mb kodende DNA, dvs. ca. 1,5% af hele<br />

<strong>genom</strong>et.<br />

Et gen kan defineres som et segment af kromosomalt<br />

DNA der er indeholder den nødvendige<br />

information for dannelsen af et funktionelt<br />

produkt. Man skelner nu mellem to grupper af<br />

gener: 1) gener som transkriberes til mRNA,<br />

<strong>Menneskets</strong> <strong>genom</strong><br />

Intergenisk DNA<br />

2.000 Mb<br />

Interspersed<br />

repeats 1.400 Mb<br />

SINEs<br />

420 Mb<br />

LTRelementer<br />

250 Mb<br />

Transposoner<br />

90 Mb<br />

2 rRNAgener<br />

Mitokondrie-<strong>genom</strong>et<br />

16,6 kb<br />

37 gener<br />

22 tRNAgener<br />

Andre intergeniske<br />

regioner 600 Mb<br />

Mikrosatellitter<br />

90 Mb<br />

Figur 1.13 Skematisk oversigt som viser de forskellige elementer i menneskets <strong>genom</strong>.<br />

Andre<br />

510 Mb<br />

Genomets struktur<br />

13 polypeptidkodende<br />

gener<br />

der i ribosomer translateres til protein, og 2) gener,<br />

hvis transkripter er ikke-kodende og som<br />

anvendes direkte til særlige funktioner (fx tR-<br />

NA, rRNA, snRNA osv). – se Boks 1.3.<br />

Boks 1.3 Ikke-kodende RNA (udvalgte eksempler)<br />

Type Funktion<br />

rRNA proteinsyntese<br />

tRNA proteinsyntese<br />

snRNA mRNA-processering<br />

snoRNA RNA-processering<br />

Xist-RNA X-kromosom-inaktivering<br />

telomerase-RNA telomersyntese<br />

miRNA RNA-interferens<br />

Det bemærkes at ifølge denne definition indeholder<br />

et gen ikke kun de kodende sekvenser<br />

man kan genfinde i transkriptet, men også de<br />

ofte tætved liggende regulatoriske sekvenser,<br />

der er nødvendige for en kontrolleret ekspression<br />

af genet (promotor, enhancere mv., se Figur<br />

1.18 og 1.19 og afsnittet »Fra DNA til protein«,<br />

side 40ff).<br />

25


18209 01.fm7 Page 26 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

Hos eukaryote organismer er de proteinkodende<br />

gener som regel diskontinuerte, forstået<br />

på den måde at genets proteinkodende in-<br />

26<br />

Kodende RNA<br />

(mRNA)<br />

Gener<br />

Ikke-kodende RNA<br />

(fx tRNA, rRNA)<br />

Figur 1.14 Genernes transkriptionsprodukter kan<br />

som følge af deres funktion opdeles i to hovedgrupper:<br />

1) kodende RNA, koder for dannelse af proteiner,<br />

2) ikke-kodende RNA, som kan have enzymatisk eller<br />

strukturel funktion (Boks 1.3).<br />

3'<br />

5'<br />

-75<br />

CCAAT<br />

box<br />

Promotorsekvenser<br />

-30<br />

TATA<br />

box<br />

Transkriptionsstart<br />

Exon 1<br />

1 30 31<br />

Exon 2<br />

104<br />

intron 1 intron 2<br />

+1<br />

Cap ATG<br />

site startcodon<br />

}<br />

C A<br />

AAGGT<br />

G AGT<br />

}<br />

(Y) n NYAGG<br />

Konsensus-sekvenser for<br />

5'- (donor) og 3'- (acceptor)<br />

splejsningssignaler<br />

formation, er delt op i en serie af delsekvenser<br />

kaldet exons, som er adskilt af ikke-kodende<br />

såkaldte intron-sekvenser som illustreret i Figur<br />

1.15.<br />

»Opstrøms« (upstream) og »nedstrøms« (downstream)<br />

er begreber, som hhv. definerer 5'- og 3'regionerne<br />

og bruges ved stedsangivelse i forhold<br />

til en given position i et gens DNA, i RNA<br />

eller i cDNA. Opstrøms- hhv. nedstrøms-regionerne<br />

for transkriptionsstart og -stop indeholder<br />

ofte områder som er af betydning for regulationen<br />

af et givet gens ekspression, dvs. hvor<br />

meget og hvornår et gen skal udtrykkes.<br />

Transkriptionen (dvs. dannelsen af en RNAkopi)<br />

af et gen foregår altid således at transkriptet<br />

(RNA-kopien) syntetiseres i retningen<br />

}<br />

Transkription<br />

og capping<br />

105<br />

}<br />

Exon 3<br />

146<br />

TAA<br />

stopcodon<br />

Transkriptionsstop<br />

5'<br />

3'<br />

AATAAA<br />

signal for trimning<br />

og polyadenylering<br />

Cap Exon 1 Exon 2 Exon 3<br />

5'<br />

intron 1 intron 2 3'<br />

UTR<br />

Det primære transkript<br />

(præ-mRNA)<br />

UTR<br />

Figur 1.15 Nukleære proteinkodende geners anatomi. Her er som et eksempel vist β-globin-genet med regulatoriske<br />

promotor-sekvenser (CCAAT-box og TATA-box), som sidder opstrøms for start af de aminosyre-kodende sekvenser<br />

(ATG). Disse promotor-sekvenser har betydning for reguleringen af ekspressionen. Opstrøms sidder et Cap site og nedstrøms<br />

sidder et polyadenyleringssignal. Når transkriptionen er til ende, bliver 3 transkriptionsproduktet trimmet og<br />

polyadenyleret i 3'-enden, hvilket beskytter transkriptet mod nedbrydning og desuden faciliterer transport ud af cellekernen.<br />

Endvidere bemærkes det at proteinkodende gener hos eukaryote organismer med få undtagelser er diskontinuerte,<br />

dvs. de kodende sekvenser er afbrudt af introns også kaldet intervening sequences (IVS). Der er konsensussekvenser<br />

i intron-exon-overgangene som har betydning for at introns splejses rigtigt ud ved den post-transkriptionelle<br />

processering af præ-mRNA’et (se afsnittet Splejsningsmutationer, side 61). UTR = untranslated region.


18209 01.fm7 Page 27 Friday, March 3, 2006 12:37 PM<br />

3’<br />

5’<br />

Gen II Gen III<br />

Gen I<br />

Intergenisk<br />

DNA<br />

5'→3', da RNA-forlængelsen finder sted i den<br />

ende som har en fri 3'-OH-gruppe. Kun den<br />

ene af genets to DNA-strenge anvendes som<br />

template (skabelon) for RNA’et; template-strengen<br />

er den streng der er antiparallel til den nydannede<br />

RNA-kopi. Det er bestemte nukleotidsekvenser<br />

i opstrøms-regionen, som definerer<br />

startpunktet for transkriptionen. Nogle gener<br />

i et kromosom kodes fra den ene DNAstreng<br />

mens andre gener kodes fra den anden<br />

streng og da i modsat retning (Figur 1.16).<br />

Proteinkodende gener koder for et intermediært<br />

RNA-molekyle kaldet messenger-RNA<br />

(mRNA). Det dannede mRNA transporteres<br />

ud til cytoplasmaet, hvor det via sin nukleotidsekvens<br />

styrer syntesen af det protein som sekvensen<br />

koder for, ved en proces kaldet translation<br />

(se nærmere herom side 43ff).<br />

Når et proteinkodende gen udtrykkes, dannes<br />

der først en RNA-kopi af genets ene DNAstreng<br />

(fra og med transkriptionsstartpunktet),<br />

inklusive alle exons og introns. Dette primære<br />

transkript betegnes præ-mRNA. Ved en proces<br />

der kaldes splejsning, fjernes intronsekvenserne,<br />

og exons samles derved til én proteinkodende<br />

sekvens under dannelse af det mRNA,<br />

som til slut transporteres ud i cytoplasmaet,<br />

hvor det dirigerer proteinsyntesen (Figur 1.29).<br />

Ud over splejsningen sker der en modifikation<br />

5’<br />

3’<br />

Figur 1.16 I et kromosoms DNA-molekyle er den<br />

ene streng template-strengen for nogle af generne,<br />

mens den anden er det for andre gener. Generne er<br />

skitseret svarende til deres template-streng. Pilene<br />

angiver transkriptionsretningen.<br />

Genomets struktur<br />

(processering) af det primære transkripts 3'-ende<br />

i form af en trimning (fjernelse af en kortere<br />

el. længere nukleotidsekvens) og en polyadenylering<br />

(påsætning af ca. 200 adenosinnukleotider,<br />

AMP), begge dele signaleret af polyadenyleringssignalet,<br />

5'-AATAAA-3' (se Figur 1.15).<br />

Der kan være flere polyadenyleringssignaler,<br />

som anvendes cellespecifikt (Figur 1.18). Endelig,<br />

men reelt som den første modifikation, påsættes<br />

der tidligt under transkriptionen et guanosin-nukleotid<br />

(den såkaldte cap) i transkriptets<br />

5'-ende.<br />

Tidligere troede man at splejsningsprocessen<br />

var en lige-ud-ad-landevejen proces, hvor hver<br />

exon blev samlet med sine nabo-exons for at<br />

danne et bestemt mRNA-molekyle. Det har<br />

imidlertid vist sig, at mange præ-mRNA-molekyler<br />

undergår såkaldt alternativ splejsning,<br />

hvorved der dannes mRNA-molekyler med<br />

forskellige kombinationer af exons. Der kan således<br />

fra et givet gen laves flere forskellige slags<br />

mRNA, der styrer syntesen af forskellige proteiner<br />

(Figur 1.17 og 1.18).<br />

Alternativ splejsning er en af de processer<br />

som gør det muligt for celler at danne forskellige<br />

mRNA’er ud fra samme gen. Denne type<br />

proces har man tidligere anset for relativt sjældent<br />

forekommende, men med nye studier,<br />

Præ-mRNA<br />

1 2 3<br />

1 2<br />

Figur 1.17 Alternativ splejsning, hvor det ene<br />

mRNA består af exon 1 og 2, mens det andet består af<br />

exon 1 og 3, fra samme gen. Til højre i figuren er skitseret<br />

de resulterende proteiner med forskellige funktionelle<br />

domæner.<br />

13<br />

27


18209 01.fm7 Page 28 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

baseret på bl.a. råskitsen af det humane <strong>genom</strong>,<br />

regner man nu med at den slags RNA-processering,<br />

er almindeligt forekommende. Dette<br />

betyder, at et givet gen kan danne grundlag for<br />

dannelsen af flere forskellige isoformer af proteiner.<br />

Det forhold at der kan dannes forskellige<br />

proteiner fra samme gen betyder ikke nødvendigvis<br />

at de forskellige proteiner laves af<br />

samme celle eller celletype. Det synes snarere<br />

som om der i én celletype anvendes én exonkombination<br />

i mRNA’et, mens der i en anden<br />

celletype anvendes en anden kombination. Eksempelvis<br />

koder et α-tropomyosin-gen for forskellige<br />

isoformer af proteinet, der regulerer<br />

kontraktionen i muskelceller, men som formentlig<br />

har andre funktioner i andre celletyper<br />

(Figur 1.18).<br />

<strong>Menneskets</strong> gener udviser stor variation i størrelse<br />

og intern organisation<br />

Hos bakterier er generne som regel ret små og<br />

relativt ens i størrelse, hvorimod der hos mere<br />

komplekse organismer er meget stor variation i<br />

genernes størrelse. Hos mennesket kan længden<br />

af generne variere fra at være nogle få hundrede<br />

basepar til flere megabaser (Figur 1.19 og 1.20).<br />

28<br />

3’<br />

5’<br />

5’<br />

5’<br />

5’<br />

5’<br />

5’<br />

α-tropomyosin-gen<br />

Transkription + splejsning<br />

3’<br />

3’<br />

5’<br />

3’<br />

DNA<br />

Muskel-mRNA<br />

3’ Glat muskel-mRNA<br />

3’ Fibroblast-mRNA<br />

3’ Fibroblast-mRNA<br />

Hjerne-mRNA<br />

Figur 1.18 Eksempel på alternativ splejsning, hvor de enkelte splejningsmønstre er specifikke for de enkelte celler.<br />

α-Tropomyosin har betydning for muskel-kontraktionen, mens dets rolle i andre celler er uklar. Pilene angiver steder<br />

for polyadenyleringssignaler.<br />

Som man måske kunne forvente, er der en<br />

positiv korrelation mellem størrelsen af genet<br />

og størrelsen af gen-produktet – jo større gen,<br />

desto større protein. Men der findes undtagelser;<br />

fx kodes proteinet apolipoprotein B, der<br />

består af 4.563 aminosyrer, af et gen på ca. 45<br />

kb, mens muskelproteinet dystrofin, som er<br />

3.685 aminosyrer langt, kodes af et gen på<br />

2.400 kb – altså næsten samme antal aminosyrer<br />

i de to proteiner, men mindst 50 gange forskel<br />

i genernes størrelse.<br />

Der synes at være en negativ korrelation mellem<br />

gen-størrelsen og den andel af gen-længden<br />

som findes udtrykt på mRNA-niveau,<br />

hvilket omskrevet betyder at jo større gen, jo<br />

mindre er den relative exon-andel af hele genet.<br />

Dette skyldes ikke at exons i store gener er<br />

mindre end exons i små gener. I stedet er forklaringen<br />

at store gener har lange intron-sekvenser,<br />

hvilket søjlediagrammerne i Figur 1.20<br />

illustrerer.<br />

Mange gener har en <strong>genom</strong>isk udstrækning<br />

på over 100 kb; det størst kendte er dystrofingenet<br />

(DMD, det gen der er muteret ved Duchennes<br />

muskeldystrofi), der er på 2,4 Mb. Variationen<br />

i størrelsesfordelingen af de kodende


18209 01.fm7 Page 29 Friday, March 3, 2006 12:37 PM<br />

β-globin<br />

HPRT<br />

»CAT«<br />

»GC-rig«<br />

»TATA«<br />

»TATA«<br />

sekvenser er mindre ekstrem, og man har beregnet<br />

at gennemsnitslængden for en exon hos<br />

mennesket er ca. 200 bp, selvom der forekommer<br />

yderligheder. Det kan bl.a. nævnes at genet<br />

for det gigantiske muskelprotein titin (med isoformer<br />

på op til 33.000 aminosyrers længde)<br />

har den til dato længste samlede kodende gensekvens<br />

på 114.414 basepar (ud af ialt 294 kb),<br />

fordelt på det ligeledes største antal exons (363)<br />

og med den ligeledes størst kendte enkeltexon<br />

(17,1 kb).<br />

Som det fremgår af ovenstående, kan antallet<br />

af exons og introns samt deres størrelse variere<br />

ganske betydeligt, og som følge heraf varierer<br />

størrelsen af de enkelte gener også ganske meget.<br />

Et gennemsnitsgen hos mennesket har ca.<br />

9 exons med en middellængde på ca. 200 bp, en<br />

samlet intronlængde på ca. 3 kb, 27 kb i<br />

<strong>genom</strong>isk udstrækning og koder for et polypeptid<br />

på ca. 450 aminosyrer.<br />

Der findes også eksempler, om end få, på gener<br />

hos mennesket som mangler introns, men<br />

1 2 3<br />

0 0,5 1,0 1,5 2,0 kb<br />

1 2 3 4 5 6 78 9<br />

0 25 50 kb<br />

Faktor VIII<br />

1 2-6 7 - 13 14 15 - 22 7 - 13 26<br />

0 50 100 150 200 kb<br />

Genomets struktur<br />

Figur 1.19 Tre eksempler på gener hos mennesket. De enkelte exons er nummererede. »CAT«, »TATA« og »GC-rig«<br />

er regulatoriske elementer i opstrøms regionen (promotor-regionen).<br />

HPRT = hypoxanthin-guanin-phosphoribosyl-transferase.<br />

disse gener er generelt små (fx histon-gener og<br />

tRNA-gener, Figur 1.20).<br />

Genernes fordeling i <strong>genom</strong>et<br />

Som tidligere anført kan man beregne, at der<br />

ville være ét gen pr. ca. 120 kb <strong>genom</strong>sekvens,<br />

hvis generne var jævnt fordelt (omkring 27.000<br />

gener fordelt over 3,1 Gb). Det er de imidlertid<br />

ikke, og man har fundet at gentætheden varierer<br />

et sted mellem 0 og 64 gener pr. 100 kb.<br />

Denne ulige fordeling i <strong>genom</strong>et kendte man til<br />

længe før råskitsen af <strong>genom</strong>et var færdiggjort,<br />

og denne viden var resultatet af forskellige typer<br />

studier, bl.a. Giemsa-farvning af kromosomerne,<br />

som giver et kromosomspecifikt båndmønster<br />

(Boks 1.4).<br />

Man ved fra andre undersøgelser at farvestoffet<br />

Giemsa har en højere affinitet for AT-rige<br />

DNA-regioner, og man vidste yderligere, at<br />

hos mennesket er ca. 60% af DNA’ets basepar<br />

AT-par. Det var derfor oplagt at antage at de<br />

29


18209 01.fm7 Page 30 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

mørke G-bånd i kromosomerne må have et<br />

AT-indhold som ligger over 60%.<br />

Cytogenetiske undersøgelser sammenholdt<br />

med kliniske observationer tydede endvidere på<br />

at der måtte være færre gener i de mørke G-<br />

30<br />

Klasse I HLA 46%<br />

β-globin 38%<br />

Insulin 33%<br />

α-interferon 100%<br />

Histon H4 100%<br />

tRNA 100%<br />

0 2 4 6<br />

Phenylalaninhydroxylase<br />

3%<br />

LDL-receptor 11%<br />

Apolipoprotein B 33%<br />

HPRT 4%<br />

α1 (II) collagen 20%<br />

Serumalbumin 12%<br />

kb 0 20 40 60 80 100 kb<br />

Dystrophin 0,6%<br />

Utrophin 1,4%<br />

NF1 4%<br />

CFTR 2,4%<br />

Faktor VIII 3%<br />

0 500<br />

1000 1500 2000 2500<br />

Figur 1.20 Eksempler på gen-størrelser i kb. Exon-indhold er angivet som % ud for hver søjle. Bemærk den omvendte<br />

relation mellem gen-størrelse og exon-indhold.<br />

NF1 = neurofibromatose type 1-genet, CFTR = cystic fibrosis transmembrane regulator.<br />

Boks 1.4<br />

G-båndmønster Egenskaber<br />

Mørke bånd Indeholder AT-rigt DNA.<br />

Replikeres sent i S-fasen, men<br />

kondenserer tidligt i cellecyklus.<br />

Gen-fattigt (indeholder hovedsageligt<br />

vævsspecifikke gener).<br />

Generne kan være store pga. meget<br />

lange introns.<br />

Lyse bånd Indeholder GC-rigt DNA.<br />

Replikeres tidligt i S-fasen, men<br />

kondenserer sent i cellecyklus.<br />

Gen-rigt (både husholdningsgener<br />

og vævsspecifikke).<br />

Generne er relativt små, primært<br />

pga. små introns.<br />

bånd og som følge heraf at de lyse G-bånd måtte<br />

indeholde flere gener end målt gennemsnitligt<br />

over <strong>genom</strong>et. En forudsigelse som er bekræftet<br />

af det humane <strong>genom</strong>projekt. Det er<br />

også påvist, at subtelomer-regionerne, dvs. regionerne<br />

100-300 kb centromert for telomererne<br />

(se Figur 1.10B), der er lyse ved G-båndfarvning,<br />

har den største gentæthed overhovedet<br />

i <strong>genom</strong>et.<br />

Hvilke typer gener indeholder det humane <strong>genom</strong>?<br />

Man kan gruppere generne hos eukaryote organismer<br />

på forskellig måde. Én måde er at inddele<br />

dem efter deres funktion, hvilket har den<br />

fordel at man fra disse ret brede funktionelle<br />

grupper (Figur 1.21) kan underinddele i et hierarkisk<br />

system med stigende specificitet og opnå<br />

en funktionel beskrivelse hvor der bliver gradvis<br />

færre gener i hver gruppe.<br />

En ulempe som denne inddeling ikke tager<br />

højde for, er at der er mange gener som vi endnu<br />

ikke kender den samlede funktion af, hvor-<br />

kb


18209 01.fm7 Page 31 Friday, March 3, 2006 12:37 PM<br />

Andre<br />

aktiviteter<br />

38%<br />

Ekspression,<br />

replikation etc. 23%<br />

Signaltransduktion<br />

21%<br />

Figur 1.21 Gener inddelt efter funktion<br />

Almene<br />

biokemiske<br />

cellulære<br />

funktioner 18%<br />

for de ved denne type inddeling må udelades fra<br />

en funktionel beskrivelse.<br />

En bedre metode, som man nu benytter, er at<br />

anvende en klassifikation, som baserer sig på de<br />

enkelte strukturelle enheder i proteinerne, og<br />

altså ikke proteinets samlede funktion som sådan.<br />

Et typisk proteinmolekyle er opbygget af<br />

en række forskellige domæner, som hver især<br />

har en biokemisk funktion. Hver type domæne<br />

har en karakteristisk aminosyresekvens, som<br />

måske ikke er helt præcis den samme i alle de<br />

proteiner det forekommer i, men tæt nok på sådan<br />

at funktionen ikke varierer nævneværdigt<br />

når man sammenligner domænerne de enkelte<br />

proteiner imellem.<br />

Med afslutningen af det human <strong>genom</strong>projekt<br />

har man fundet at næsten alle proteiner har<br />

større eller mindre strukturelle ligheder med<br />

hinanden. Kendskab til disse forhold er vigtig<br />

for forståelsen af genernes evolution og udvik-<br />

Genomets struktur<br />

ling. Der er på internationalt plan udarbejdet<br />

en omfattende webdatabase (Structural Classification<br />

of Proteins, SCOP, se Kap. 17 side 254),<br />

hvor alle kendte proteiner er organiseret i henhold<br />

til deres evolutionære og strukturelle<br />

slægtsskab. Protein-domæner med fælles almen<br />

funktion tilhører en familier – det er i denne<br />

sammenhæng værd at bemærke, at proteiner<br />

eller gener kan tilhøre flere familier afhængigt<br />

af hvor mange domæner de indeholder. Som et<br />

par eksempler på domænefamilier kan nævnes<br />

DEAD box-familien og WD-repeat-familien.<br />

DEAD box-familien indeholder aminosyresekvensen:<br />

Asp-Glu-Ala-Asp; med ét-bogstavkoden:<br />

D-E-A-D (Tabel 17.2, side 250).<br />

Blandt DEAD box-proteinerne er RNA-helicaser<br />

de mest almindelige og er involveret i<br />

næsten alle processer vedrørende RNA bl.a.<br />

som co-aktivator af transkriptionen ved at<br />

hjælpe til med adskillelsen af DNA-strengene i<br />

dobbelt-helixen. WD-repeat-familien indeholder<br />

aminosyre-sekvensen: Trp-Asp sv.t. W-D<br />

i ét-bogstav-koden. Proteiner med WD-repeats<br />

er involveret i protein-protein-interaktioner<br />

og regulerer en række forskellige cellulære<br />

funktioner, bl.a. kromatin-remodellering og<br />

transkription.<br />

Man kan også se på hvordan antallet af protein-domæner<br />

i <strong>genom</strong>er fra forskellige organismer<br />

fordeler sig (Tabel 1.3). Som det ses anvender<br />

de mere komplekse organismer de enkelte<br />

typer domæner i flere gener ligesom de også har<br />

Tabel 1.3 Eksempler på forskellige <strong>genom</strong>ers indhold af gener der koder for proteindomæner<br />

Antal gener i <strong>genom</strong>et som koder for domænet<br />

Domæne Funktion Mennesket Bananfluen Gær<br />

Zinkfinger, C2H2-type<br />

Zinkfinger, GATA-type<br />

Homeobox<br />

Death<br />

Connexin<br />

Ephrin<br />

DNA-binding<br />

DNA-binding<br />

Gen-regulering ved fx fosterudvikling<br />

Programmeret celledød<br />

Elektrisk kobling mellem celler<br />

Nervecellevækst<br />

564<br />

011<br />

160<br />

016<br />

014<br />

007<br />

234<br />

005<br />

100<br />

005<br />

000<br />

002<br />

034<br />

009<br />

006<br />

000<br />

000<br />

000<br />

31


18209 01.fm7 Page 32 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

flere typer domæner. Eksempler på det første er<br />

zinkfinger-motiverne (C2H2- og GATA-typerne).<br />

Det er domæner der gør proteinet i stand<br />

til at binde til DNA. Som det fremgår af tabellen<br />

har mennesket mere end 500 gener, hvor<br />

disse domæner forekommer. I bananfluen og<br />

gær forekommer disse domæner i færre antal<br />

gener hhv. 239 og 43.<br />

Disse forskelle er sandsynligvis resultatet af en<br />

evolutionær proces hvor exons fra forskellige<br />

gener er blevet kopieret og splejset sammen, såkaldt<br />

exon shuffling (Figur 1.22). Man har eksperimentelt<br />

påvist at visse af de komplekse proteiner<br />

hos mennesket har domæner som meget<br />

ligner bakteriers simple proteiner således at proteindomæner<br />

med meget grundlæggende biokemiske<br />

funktioner, har en høj grad af sekvenslighed<br />

selv mellem meget simple og meget<br />

komplekse organismer.<br />

Det funktionelle antal gener i et <strong>genom</strong> kan<br />

øges på andre måder, hvoraf man nu kender to<br />

typer usædvanlig gen-organisation: 1) overlappende<br />

gener, og 2) gener-i-gener.<br />

32<br />

NH 2 COOH EGF<br />

NH 2 COOH Chymotrypsin<br />

NH 2 COOH Urokinase<br />

NH 2 COOH Faktor IX<br />

NH 2 COOH Plasminogen<br />

Figur 1.22 Nogle resultater af exon shuffling. Hvert<br />

symbol repræsenterer en familie af proteindomæner,<br />

som hver består af 30-50 aminosyrer. Domænerne repræsenterer<br />

exons som på et tidspunkt i evolutionsforløbet<br />

er forenet for at danne nye, større og mere<br />

komplekse proteiner. Ud for hvert protein er angivet<br />

dets navn.<br />

EGF = epidermal growth factor.<br />

DNA-sekvens<br />

(L-strengen)<br />

Start<br />

Met Leu…<br />

5'–CCAATGCTAA–3'<br />

…Gln<br />

Cys Stop<br />

Gen<br />

ND4<br />

ND4L<br />

Figur 1.23 Overlappende gener i mitokondrie-DNA,<br />

jf. Figur 1.27. Begyndelsen af genet ND4 overlapper<br />

afslutningen af genet ND4L. Aminosyresekvenserne i<br />

hhv. begyndelsen og afslutningen af de to polypeptider<br />

er anført i trebogstavkode. Det ses at læserammerne<br />

for de to gener er forskudt i forhold til hinanden.<br />

Gener der overlapper hinanden har enten<br />

hver sin template-streng eller deres mRNA’er<br />

translateres i overlapsområdet i hver sin læseramme,<br />

dvs aflæsningen af mRNA-sekvenserne<br />

sker med forskellige og faseforskudte startpunkter.<br />

Overlappende gener findes ofte i små kompakte<br />

<strong>genom</strong>er som fx virus<strong>genom</strong>er. De er<br />

sjældne i nukleære <strong>genom</strong>er fra højerestående<br />

eukaryoter. Der er et enkelt eksempel på et beskedent<br />

overlap i det kompakte mitokondrie<strong>genom</strong><br />

(Figur 1.23).<br />

Den anden type, gener-i-gener, er derimod<br />

relativt hyppigt forekommende i nukleære <strong>genom</strong>er.<br />

Et eksempel herpå i det humane <strong>genom</strong><br />

ses i neurofibromatose type 1-genet (NF1) som<br />

i intron 35 indeholder tre små gener, OMG,<br />

EVI2A og EVI2B (Figur 1.24). Hvert af disse<br />

»interne« gener er igen opdelt i egne exons og<br />

introns. Sådanne gener transkriberes ofte omvendt<br />

i forhold til værtsgenets transkriptionsretning<br />

– eller, sagt med andre ord, disse »interne«<br />

gener har værtsgenets ikke-template-streng som<br />

deres egen template-streng. Et andet eksempel er<br />

snoRNA-gener (small nucleolar RNA, som er<br />

ikke-kodende RNA der kemisk modificerer<br />

andre RNA’er) som ligeledes er beliggende i<br />

andre geners intron-sekvenser.


18209 01.fm7 Page 33 Friday, March 3, 2006 12:37 PM<br />

3’<br />

5’<br />

Neurofibromatose type 1-genet<br />

Intron 35<br />

OMG EVI2B EVI2A<br />

5kb<br />

Genfamilier: Multigenfamilier og superfamilier<br />

Når man taler om genfamilier er det vigtigt at<br />

huske at det humane <strong>genom</strong>, som det ser ud i<br />

dag, er resultatet af en lang evolutionær proces<br />

som stadig pågår.<br />

Genfamilier kan inddeles efter deres evolutionære<br />

og strukturelle fællesskab (Boks 1.5).<br />

Den ene familie defineres som en gruppe af gener<br />

eller proteiner, der har sekvenshomologi<br />

med relaterede overlappende funktioner og<br />

hvor der er et klart evolutionært slægtskab. Er<br />

det en gruppe af proteiner eller gener, hvor der<br />

er en fælles evolutionær oprindelse, men hvor<br />

der ikke er overlappende funktioner, defineres<br />

de som tilhørende en superfamilie. Det er værd<br />

at bemærke at et protein eller gen godt kan til-<br />

5’<br />

3’<br />

Figur 1.24 Gener-i-gener. Forekommer relativt hyppigt<br />

i det nukleære <strong>genom</strong>, hvor genet er indeholdt i en<br />

intron af et andet gen. Et eksempel herpå er neurofibromatose<br />

type 1 genet, som indeholder tre små gener<br />

(OMG, EVI2A og EVI2B) i intron 35. Hvert af de små interne<br />

gener har egne exons og introns. Generne er<br />

skitseret på deres template-streng og pilene viser<br />

transkriptionsretningen (jf. Figur 1.16).<br />

OMG = oligodendrocyte myelin glycoprotein<br />

EVI = ectopic viral integration site<br />

Boks 1.5 Klassifikation af genfamilier med<br />

angivelse af kendte antal (oktober 2004).<br />

1. Familier, hvor der er et klart evolutionært slægtskab<br />

(2845 familier).<br />

2. Superfamilier, hvor der er en fælles evolutionær<br />

oprindelse (1539 superfamilier).<br />

3. Protein-domæner (folds), hvor der eksisterer strukturelle<br />

ligheder (945 foldninger).<br />

α-globin-genklyngen<br />

Kromosom 16p<br />

Genomets struktur<br />

ζ ψζ ψα2 ψα1 α2 α1 θ<br />

5’ 3’<br />

β-globin-genklyngen<br />

Kromosom 11p<br />

ε Gγ Aγ ψβ δ β<br />

5’ 3’<br />

0 20 40 60 kb<br />

Figur 1.25 <strong>Menneskets</strong> α- og β-globin-genklynger.<br />

Begge klynger indeholder gener som udtrykkes på forskellige<br />

trin i individets udvikling. Gen-klyngerne indeholder<br />

flere pseudogener (ψζ, ψα1, ψα2, ψβ og θ), se<br />

side 34.<br />

høre flere superfamilier. Hvis der er områder,<br />

domæner, hvor der kun er mindre, strukturelle<br />

ligheder mellem proteiner eller gener, kan de<br />

inddeles herefter.<br />

Visse genfamiliers gen-ekspression er mere<br />

eller mindre fælles mens andre ikke har koordineret<br />

regulation heraf. Disse forskelle synes at<br />

være resultatet af en evolutionær proces som<br />

har haft betydning for deres <strong>genom</strong>iske organisation.<br />

Hvis man ser på hvordan de forskellige genfamilier<br />

er organiseret i <strong>genom</strong>et kan man skelne<br />

mellem tre overordnede typer af arrangementer:<br />

1. Familier, hvor generne ligger i relativt tætte<br />

klynger (clusters) og som har et evolutionært<br />

og funktionelt slægtskab. Som eksempler<br />

herpå kan nævnes multigenfamilien for ribosomalt<br />

RNA (rRNA) og histon-multigenfamilien.<br />

Andre genfamilier har lidt mere forskelligartede<br />

funktioner, hvor de bedst<br />

kendte eksempler er α- og β-globin-generne,<br />

som er beliggende på hhv. kromosom<br />

16p og 11p (Figur 1.25). Man regner med at<br />

de er opstået ved gentagne duplikationer i<br />

løbet af hvirveldyrenes evolution gennem de<br />

33


18209 01.fm7 Page 34 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

seneste 500 millioner år. Disse to klynger af<br />

gener koder for globin-kæder, der udtrykkes<br />

på forskellige udviklingstrin fra embryonet<br />

til det fødte individ. Til denne familie hører<br />

også myoglobin-genet på kromosom 22q.<br />

Flere af α- og β-globin-genklyngernes genlignende<br />

sekvenser producerer ikke noget<br />

RNA- eller protein-produkt, og de er således<br />

uden kendt funktion. Sådanne ikke-fungerende<br />

gen-lignende sekvenser kaldes<br />

pseudogener (se nærmere næste spalte).<br />

2. Superfamilier, hvor generne både ligger i<br />

klynger og spredt i <strong>genom</strong>et. De gener, som<br />

ligger i klynger danner ofte multigen-familier<br />

med overlappende funktioner, mens de<br />

der ligger spredt har mere forskelligartede<br />

funktioner. Den største genfamilie i menneskets<br />

<strong>genom</strong> er måske immunglobulin-gensuperfamilien,<br />

der består af gener på kromosom<br />

6 (HLA-vævstype-antigen-komplekset),<br />

på kromosomerne 7 og 14 (T-celle-receptor-gener)<br />

og på kromosomerne 2, 14 og<br />

22 (gener for immunglobulinernes tunge og<br />

lette kæder).<br />

3. Familier, hvor generne kun findes spredt i<br />

<strong>genom</strong>et. Mange af de spredte genfamilier<br />

mener man er dannet ved revers transkription<br />

af RNA og efterfølgende integrering i<br />

<strong>genom</strong>et. Den integrerede sekvens, også kaldet<br />

retrosekvens, er deriveret fra mRNAtranskriptet<br />

af det oprindelige gen og indeholder<br />

derfor ikke introns. De fleste af disse<br />

retrosekvenser er degenererede og blevet til<br />

pseudogener, men nogle få sekvenser har bevaret<br />

deres funktion – en sådan funktionel<br />

retrosekvens benævnes retrogen eller processeret<br />

gen. Det autosomale gen for enzymet<br />

phosphoglyceratkinase (PGK2) beliggende<br />

på 6p er et eksempel herpå. Det er interessant,<br />

at ekspressionsmønstret for dette<br />

gen er forskelligt fra det oprindelige gens<br />

(PGK1), som ligger på X-kromosomet.<br />

34<br />

Ikke-kodende DNA<br />

Det ikke-kodende DNA udgør omkring 1.052<br />

Mb og kan inddeles i følgende 3 grupper: 1)<br />

pseudogener, 2) gen-fragmenter, og 3) introns<br />

og UTR’er.<br />

Et pseudogen defineres som et <strong>genom</strong>isk<br />

DNA-segment som i sin basesekvens ligner et<br />

regulært funktionelt gen, men som ikke har noget<br />

(funktionelt) genprodukt. Et pseudogen,<br />

der har en høj grad af lighed med et funktionelt<br />

gen betegnes ligesom dette, men med ψ foran<br />

gen-symbolet (jf. pseudogenerne i globingenklyngerne,<br />

Figur 1.25). Denne gruppe af<br />

pseudogener anses for at være evolutionære<br />

restprodukter, som er blevet inaktiveret af mutationer<br />

i deres kodende og/eller regulatoriske<br />

sekvenser. En anden gruppe pseudogener er tilsyneladende<br />

opstået ved en proces, hvor en ekstra<br />

DNA-kopi er dannet fra mRNA ved revers<br />

transkription og efterfølgende integrering heraf<br />

i <strong>genom</strong>et (retrotransposon). Sådanne pseudogener<br />

mangler introns og kaldes ofte for processerede<br />

pseudogener. De er typisk beliggende i<br />

en anden kromosom-region end det gen hvis<br />

mRNA de er en kopi af. Der er beskrevet i alt<br />

ca. 15.000 pseudogener i menneskets <strong>genom</strong>.<br />

Gen-fragmenter er en anden gruppe af genrester<br />

der er en følge af evolutionen. Denne<br />

gruppe består af trunkerede gener og andre<br />

gen-segmenter. De trunkerede gener mangler<br />

en større eller mindre del af den ene ende af det<br />

fuldstændige gen, mens gen-segmenterne er<br />

små isolerede regioner fra det oprindelige gen.<br />

Introns er omtalt ovenfor (side 26 og Figur<br />

1.15). UTR står for untranslated region som er<br />

betegnelse for nogle andre, ikke-translaterede<br />

regioner i proteinkodende gener. Der findes<br />

typisk 2 sådanne regioner i hvert proteinkodende<br />

gen, hhv. opstrøms (5'-UTR) og<br />

nedstrøms (3'-UTR) for den proteinkodende<br />

sekvens. UTR-sekvenserne transkriberes, og i


18209 01.fm7 Page 35 Friday, March 3, 2006 12:37 PM<br />

Tabel 1.4 De forskellige typer af interspersed repeat DNA i menneskets <strong>genom</strong>.<br />

modsætning til introns udsplejser de ikke fra<br />

præ-mRNA’et.<br />

Intergenisk DNA<br />

Intergenisk DNA er det DNA som ligger mellem<br />

generne. Det udgør omkring 5 af hele <strong>genom</strong>et,<br />

og ca. 70% heraf udgøres af repeterede<br />

DNA-sekvenser (repetitivt DNA).<br />

Det er fortsat uafklaret hvorfor <strong>genom</strong>et indeholder<br />

så megen tilsyneladende nyttesløst<br />

DNA (junk DNA). En af hypoteserne går på, at<br />

der ikke er et selektiontryk for at fjerne det,<br />

hvorfor det tolereres. Man mener, at det repetitive<br />

DNA mindsker sandsynligheden for at<br />

mutationer rammer vigtige gener og derfor har<br />

været en selektiv fordel. Der er også undersøgelser<br />

som tyder på at det repetitive DNA kan<br />

være medvirkende til dannelsen af nye gener,<br />

gen-domæner eller regulatoriske områder.<br />

Intergenisk DNA kan inddeles i to overordnede<br />

grupper: 1) interspersed repeats, hvis individuelle<br />

repeterede enheder er fordelt over hele<br />

<strong>genom</strong>et på en tilsyneladende tilfældig måde og<br />

Genomets struktur<br />

Type af repeat Undertype Størrelse på repeat-enhed Antal kopier % af <strong>genom</strong>et<br />

SINEs:<br />

Short Interspersed<br />

Nuclear Elements<br />

LINEs:<br />

Long Interspersed<br />

Nuclear Elements<br />

Alu<br />

MIR-familier<br />

LINE-1 (Kpn)<br />

LINE-2<br />

LINE-3<br />

LTR-elementer:<br />

Long Terminal Repeats ERV klasse I<br />

ERV(K) klasse II<br />

ERV(L) klasse III<br />

MaLR<br />

Andre DNA-transposoner<br />

hAT<br />

Tc-1<br />

PiggyBack<br />

Uklassificeret<br />

Fuld længde 0,3 kb<br />

Middelstørrelse 0,13 kb<br />

Fuld længde 6,1 kb, men<br />

Middelstørrelse 0,8 kb<br />

Middelstørrelse 0,25 kb<br />

-<br />

- Middelstørrelse 1,3 kb<br />

-<br />

Middelstørrelse 0,5 kb<br />

Varierende, men middelstørrelse<br />

måske 0,25 kb<br />

Middelstørrelse måske 0,4 kb<br />

1.558.000<br />

1.090.000<br />

468.000<br />

868.000<br />

516.000<br />

315.000<br />

037.000<br />

443.000<br />

112.000<br />

8.000<br />

83.000<br />

240.000<br />

294.000<br />

195.000<br />

75.000<br />

2.000<br />

60.000<br />

10%<br />

2%<br />

5-13%<br />

2,1%<br />

0,2%<br />

-<br />

0,2%<br />

-<br />

4%<br />

2,5%<br />

0,8%<br />

2) tandem-repeteret DNA hvis repeterede enheder<br />

ligger ved siden af hinanden på række.<br />

Interspersed repeats<br />

Omkring 44% af menneskets <strong>genom</strong> udgøres af<br />

interspersed repeat DNA. Det er nukleotidsekvenser<br />

som er deriveret fra såkaldte transposoner.<br />

Man mener at de har en vigtig funktion i<br />

<strong>genom</strong>ets evolution. Der findes 4 typer af transposoner:<br />

SINEs, LINEs, LTR-elementer og<br />

andre DNA-transposoner (Tabel 1.4).<br />

Transposoner kaldes sådan fordi de udviser<br />

mobilitet idenfor <strong>genom</strong>et, enten ved at skifte<br />

plads af og til (»jumping genes«) eller – hyppigere<br />

– ved at blive kopieret ind på en anden lokalitet.<br />

Dette sker via et intermediært RNA-produkt,<br />

som ved revers transkription danner<br />

DNA, der indsættes som en ny kopi, kaldet en<br />

retrotransposon, et andet sted i <strong>genom</strong>et (se også<br />

afsnittet Insertion ved transposition side 68).<br />

Transposoner er meget udbredte i <strong>genom</strong>et<br />

og hyppige i gen-relaterede sekvenser, herunder<br />

untranslated regions (UTRs). De kan have regulerende<br />

funktioner i <strong>genom</strong>et ved bl.a. at ud-<br />

35


18209 01.fm7 Page 36 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

gøre alternative promotorer i forskellige gener<br />

(se side 47, herunder Figur 1.31 for nærmere<br />

beskrivelse heraf).<br />

Blandt de forskellige transposoner er de primat-specifikke<br />

Alu-sekvenser blandt de hyppigst<br />

forekommende med 1,1 million kopier.<br />

De udgør i alt ca. 10% af <strong>genom</strong>et. Alu-elementerne<br />

er 300bp repeat-enheder, og man har<br />

påvist at de bl.a. har betydning for <strong>genom</strong>isk regulation<br />

af gen-ekspressionen. Nyere undersøgelser<br />

tyder på at de kan have patogenetisk betydning<br />

også.<br />

Et eksempel på et meget »Alu-rigt« gen er<br />

BRCA1-genet, som er involveret i arvelig disposition<br />

til mamma- og ovarie-cancer. Genet<br />

har en <strong>genom</strong>isk udstrækning på ca. 80 kb og<br />

omkring 40% heraf udgøres af Alu-sekvenser.<br />

Man har påvist, at BRCA1-mRNA forekommer<br />

i to former – den ene med en kort 5'-UTR,<br />

som udtrykkes i normalt mamma-væv. Den anden<br />

form har en længere 5'-UTR, som følge af<br />

Alu-element-insertion, og udtrykkes i mammacancer-væv<br />

ved den sporadiske form. Når<br />

5'-UTR-regionen er blevet forlænget som følge<br />

af Alu-element-insertion i BRCA1-mRNA bliver<br />

translationseffektiviteten reduceret med<br />

90%. Ved den arvelige form for mamma-cancer<br />

har man fundet mutationer i BRCA1-genet,<br />

som medfører nedsat funktion af BRCA1-proteinet.<br />

Den patofysiologiske mekanisme i de to<br />

situationer er den samme, nemlig nedsat funktion<br />

af BRCA1-proteinet, men den genetiske årsag<br />

er forskellig.<br />

Af andre sygdomme, hvor man har fundet at<br />

transposoner spiller en rolle, kan bl.a. nævnes<br />

hæmofili A (Faktor VIII) og B (Faktor IX) og<br />

prædisposition til colonpolypper og -cancer<br />

(APC-genet).<br />

Tandemrepeteret DNA<br />

Tandemrepeteret DNA er almindeligt forekommende<br />

i eukaryote <strong>genom</strong>er, inklusive<br />

36<br />

menneskets. Denne type af repeteret DNA kaldes<br />

satellit-DNA, fordi DNA-fragmenter indeholdende<br />

tandemrepeterede sekvenser danner<br />

satellitbånd (bånd ved siden af hovedbåndet)<br />

når det <strong>genom</strong>iske DNA fraktioneres ved densitetsgradientcentrifugering<br />

(Figur 1.26).<br />

Disse familier består af blokke (arrays) af<br />

tandemt repeterede DNA-sekvenser. De enkelte<br />

blokke kan forekomme på få eller på mange<br />

kromosomale lokalisationer og kan have betydning<br />

i forbindelse med eksempelvis den rekombination<br />

der foregår under meiosen samt<br />

for dannelsen af duplikationer (Figur 3.1 og<br />

3.9). Afhængigt af størrelsen af den repeterede<br />

enhed kan det stærkt repeterede ikke-kodende<br />

DNA inddeles i fire grupper: 1) megasatellit-<br />

DNA; 2) satellit-DNA; 3) minisatellit-DNA;<br />

og 4) mikrosatellit-DNA (Tabel 1.5).<br />

Megasatellit–DNA-gruppen består af blokke<br />

som samlet er op imod 1 Mb i længde. Den<br />

enkelte repeat-enhed er 2-5 kb lang og er moderat<br />

repeteret.<br />

1,60<br />

1,65<br />

1,70<br />

1,75<br />

1,80<br />

g/cm 3<br />

Satellitbånd<br />

Hovedbånd<br />

Figur 1.26 Gradientcentrifugering af DNA fra menneskeceller.<br />

Repeterede DNA-fragmenter migrerer til<br />

en satellitposition oven over hovedbåndet pga. forskelle<br />

i GC-indhold. Begrebet »satellit-DNA« kommer<br />

af den måde hvorpå dette repetitive DNA er blevet oprenset<br />

fra den resterende del af DNA’et i en menneskecelle<br />

(hovedbånd). Det foregår ved en såkaldt densitetsgradientcentrifugering<br />

ved et meget højt antal<br />

omdrejninger (ultracentrifugering) med anvendelse af<br />

en CsCl (cæsiumklorid)-gradient.


18209 01.fm7 Page 37 Friday, March 3, 2006 12:37 PM<br />

Tabel 1.5 Tandemrepeteret DNA.<br />

Gruppe Størrelse på<br />

repeat enhed<br />

Megasatellit-DNA (blokke er på op mod Mange kb<br />

hundrede kb)<br />

RS447<br />

Ikke navngivet<br />

Ikke navngivet<br />

Satellit-DNA (blokke er på 100 kb til mange<br />

Mb i længden)<br />

α-satellit-DNA (alphoid DNA)<br />

β-satellit-DNA (Sau3A-familie)<br />

Satellit 1 (AT-rigt)<br />

Satellit 2 og 3<br />

Minisatellit-DNA (blokke er på 0,1-20 kb)<br />

Telomer familie<br />

Hypervariabel familie og<br />

Telomer-associerede repeats<br />

Mikrosatellit-DNA (blokke er ofte mindre<br />

end 150 bp)<br />

4,7 kb<br />

2,5 kb<br />

3,0 kb<br />

5-171 bp<br />

171 bp<br />

68 bp<br />

25-48 bp<br />

5 bp<br />

6-64 bp<br />

6 bp<br />

9-64 bp<br />

1-4 bp<br />

Satellit-DNA-gruppen består af blokke som<br />

samlet kan blive op imod 1-5 Mb i længden.<br />

Den enkelte repeat-enhed er typisk 5-171 bp<br />

lang og repeteret flere tusinde gange. Alphoid<br />

DNA, som findes i centromererne, er et typisk<br />

eksempel herpå.<br />

Minisatellit-DNA består af mindre blokke,<br />

hvor størrelsen af repeat-enheden er på 6-64 bp.<br />

Dette resulterer i samlede repeat-blokke på typisk<br />

mellem 100 bp og 20 kb. De første højvariable<br />

DNA-markører man anvendte i retsgenetiske<br />

undersøgelser (DNA-profilanalyser) var<br />

minisatellitter (se afsnittet Genetiske markører<br />

og markøranalyse, side 69).<br />

Mikrosatellit-DNA udgøres hovedsageligt<br />

af repeterede enheder som sjældent er mere end<br />

4 bp i længden. De betegnes derfor også short<br />

tandem repeats (STR) og udgør ca. 3% af <strong>genom</strong>et.<br />

Det er karakteristisk for mikrosatellitterne<br />

at antallet af repeterede enheder kan ændres,<br />

Kromosomal lokalisation<br />

Genomets struktur<br />

Forskellige lokaliseringer på visse kromosomer<br />

50-70 kopier i 4p15 og flere kopier distalt på 8p<br />

~400 kopier på 4q13 og 19q13<br />

~50 kopier på X-kromosomet<br />

Især ved centromererne<br />

Centromert heterokromatin på alle kromosomer<br />

Centromert heterokromatin på 1,9,13,14,15,21,22 og Y<br />

Centromert heterokromatin på de fleste kromosomer<br />

De fleste, måske alle, kromosomer<br />

Ved eller tæt på telomerer af alle kromosomer<br />

Alle telomerer<br />

Alle kromosomer, ofte tæt på telomerer<br />

Spredt rundt på alle kromosomer<br />

hvilket sandsynligvis skyldes fejl i forbindelse<br />

med DNA-replikationen eller er en følge af<br />

skæv overkrydsning (se Kap. 3). Trinukleotidsygdommene<br />

er eksempler herpå (se side<br />

221ff). En gruppe af disse kaldes polyglutaminsygdomme.<br />

De skyldes en ekspansion i antallet<br />

af trinukleotidet 5'-CAG-3'. Denne enhed er<br />

normalt repeteret et varierende antal gange i<br />

flere gener (fx huntingtin-genet og spinocerebellar<br />

aktasi-generne). Enheden bliver ved disse<br />

gener translateret og koder for aminosyren glutamin.<br />

Når der sker en ekspansion i antallet af<br />

CAG-repeats, forøges antallet af glutamin-enheder<br />

i de ramte proteiner, hvorved disse proteiners<br />

funktion ændres. Man kender til dato 8<br />

forskellige polyglutamin-sygdomme (mere herom<br />

i Kap. 14). Dinukleotid-enheden 5'-CA-3'<br />

er meget almindelig i det humane <strong>genom</strong> og<br />

udgør omkring 0,5% af hele <strong>genom</strong>et. Mononukleotid-enheden<br />

5'-A-3' udgør ca. 0,3%.<br />

37


18209 01.fm7 Page 38 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

Den store variation i længden af mange miniog<br />

mikrosatellitblokke gør dem til vigtige genetiske<br />

markører (se Kap. 3, side 69).<br />

Large-scale copy number variation (LCV)<br />

Man har inden for de seneste år overraskende<br />

fundet en ny type af <strong>genom</strong>variation den såkaldte<br />

large-scale copy number variation (LCV) i<br />

forbindelse med anvendelsen af array komparativ<br />

<strong>genom</strong>hybridisering (CGH, se side 89) er<br />

blevet mere udbredt. Det drejer sig om variationer<br />

der omfatter duplikation eller deletion af<br />

store DNA-segmenter på mellem 100 og 2.000<br />

kb, uden tilsyneladende association med sygdom.<br />

Til dato (2006) er der påvist 255 LCVområder<br />

i <strong>genom</strong>et, og 24 heraf er fundet hos<br />

mere end 10% af de undersøgte personer.<br />

Man forstår endnu ikke betydningen af denne<br />

<strong>genom</strong>variation og kender bl.a. ikke hyppigheden<br />

heraf eller udbredelsen i <strong>genom</strong>et.<br />

Forekomsten af LCV hos fænotypisk normale<br />

individer har udvidet rammerne for den genetiske<br />

variation hos mennesket, og kun fremtiden<br />

kan vise betydningen eller konsekvenserne,<br />

om nogen, af sådanne store polymorfier i <strong>genom</strong>et.<br />

Mitokondrie-DNA (mtDNA)<br />

En somatisk celle indeholder flere hundrede,<br />

evt. – afhængigt af celletypen – flere tusind mitokondrier,<br />

som igen hver især indeholder op<br />

til 10 molekyler mtDNA. Der kan således forekomme<br />

mange tusinde kopier af dette molekyle<br />

i hver celle. For de modne kønscellers vedkommende<br />

er der den dramatiske forskel at et æg indeholder<br />

omkring 100.000 mtDNA-molekyler,<br />

mens en sædcelle i sit langt mindre cytoplasma-volumen<br />

kun indeholder op mod 100<br />

mitokondrier, som yderligere under normale<br />

forhold nedbrydes hvis de indføres i ægcellen<br />

under befrugtningen.<br />

38<br />

Dette er baggrunden for at mitokondrie-<br />

DNA nedarves via ægceller, dvs. i rene kvindelinjer<br />

– såkaldt matroklin arvegang (Kap. 5).<br />

Forekomsten af sygdomsfremkaldende (patogene)<br />

mutationer i mtDNA gør at også denne del<br />

af <strong>genom</strong>et har betydelig medicinsk vigtighed.<br />

Det er derfor nødvendigt at kende til mitokondrie-DNA<br />

og de patogene mtDNA-mutationers<br />

kliniske manifestationer, ligesom det ved<br />

udredning af familieanamnese og fortolkning af<br />

stamtræer er nødvendigt at være opmærksom<br />

på om de foreliggende oplysninger er forenelige<br />

eller uforenelige med matroklin arvegang (se<br />

Kap. 5, Figurerne 5.1e & 5.1f).<br />

mtDNA-molekylet<br />

<strong>Menneskets</strong> mtDNA er et lille, ringsluttet<br />

DNA-molekyle på 16,6 kb.<br />

Den fuldstændige nukleotidsekvens af et<br />

menneske-mtDNA blev offentliggjort for første<br />

gang i 1981 1 . Det pågældende molekyle fandtes<br />

at være på 16.569 bp, og dets sekvens blev straks<br />

(under betegnelsen Cambridge-referencesekvensen<br />

(CRS), eller Anderson-sekvensen) referencesekvens<br />

for alle efterfølgende mtDNAsekvensanalyser<br />

hos mennesket. Til dette formål<br />

har man lige fra begyndelsen benyttet en<br />

fortløbende nummerering af molekylets basepar<br />

med et bestemt basepar i den såkaldte kontrolregion<br />

som nr. 1 (Figur 1.27).<br />

Efterhånden som mange laboratorier verden<br />

over gennemførte sekvensanalyser af mtDNA,<br />

blev det imidlertid klart at der måtte være en<br />

del fejl i den oprindelige referencesekvens. Faktisk<br />

stammede en lille del af sekvensen fra en<br />

anden persons mtDNA, og en anden, mindre<br />

del fra okse-mtDNA. Det har derfor været<br />

nødvendigt at revidere sekvensen, hvilket blev<br />

gjort i 1999, efter at man havde haft lejlighed<br />

1 Anderson S et al. Sequence and organization of the human<br />

mitochondrial <strong>genom</strong>e. Nature 1981; 290: 457-465.


18209 01.fm7 Page 39 Friday, March 3, 2006 12:37 PM<br />

Leu (UUR)<br />

ND1<br />

IIe<br />

Met<br />

ND2<br />

Trp<br />

OL 16S<br />

Gln<br />

Ala<br />

Asn<br />

Cys<br />

Tyr<br />

CO I<br />

Val<br />

12S<br />

til, med nyere og bedre metoder, på ny at sekventere<br />

det oprindelige, bevarede mtDNA fra<br />

Cambridge 1 . Ved revisionen slog man bl.a. fast<br />

at der i 1981-sekvensen var anført et basepar for<br />

meget i position 3106-3107 (i genet for 16S<br />

rRNA). Den reviderede referencesekvens<br />

(rCRS) er således rent faktisk kun på 16.568 bp.<br />

Af hensyn til den allerede meget omfattende lit-<br />

1 Andrews RM et al. Reanalysis and revision of the Cambridge<br />

reference sequence for human mitochondrial DNA.<br />

Nature genetics 1999; 23: 147.<br />

Kontrolregionen<br />

Phe<br />

O H<br />

Thr<br />

Pro<br />

Glu<br />

ND6<br />

L-strengen<br />

Cytb<br />

Ser (UCN)<br />

Asp<br />

Lys<br />

Gly<br />

Arg<br />

ND3<br />

CO III<br />

CO II<br />

ATPase 6<br />

ATPase 8<br />

Mitokondrie-DNA (mtDNA)<br />

H-strengen<br />

ND4<br />

ND4L<br />

teratur om variation i bestemte positioner af<br />

mtDNA-sekvensen, med grundigt indarbejdede<br />

numre der for de allerflestes vedkommende<br />

ville blive ændret ved en konsekvent revision,<br />

har man valgt at bibeholde den oprindelige<br />

nummerering, men med et hul (gap) i sekvensen<br />

sv.t. position 3107.<br />

mtDNA’s kodende funktion<br />

ND5<br />

Leu (CUN)<br />

Ser (AGY)<br />

His<br />

Figur 1.27 Genetisk kort over menneskets mitokondrie-DNA (mtDNA).<br />

mtDNA’ets 37 gener er markeret på den af de to strenge der er template ved syntesen af det funktionelle RNA (mRNA,<br />

rRNA og tRNA). Gensymbolerne er følgende: 12S og 16S koder for hhv. 12S og 16S rRNA, ND1-6 for subunits i NADHdehydrogenase,<br />

CO I-III for subunits i cytokrom c-oxidase, ATPase 6 og 8 for subunits i ATP-syntase, Cytb for cytokrom<br />

b. De små udfyldte cirkler angiver tRNA-gener og er markeret med trebogstavsymbolet for den tilhørende aminosyre<br />

(se tabel i Kap. 17, side 250). Leucin-tRNA (Leu) og serin-tRNA (Ser) har hver to gener sv.t. deres to codon-familier (Tabel<br />

1.6), jf. codon-angivelserne i de anførte parenteser (R = A el. G; Y = C el. U; N = A, G, C el. U). OH og OL angiver<br />

replikationsstart for hhv. den tunge og den lette streng. Kontrolregionen er ikke kodende, men indeholder – foruden OH<br />

– separate transkriptionsstartsekvenser for de to strenge samt to regioner med højvariable sekvenser. Molekylets basepar<br />

nummereres fortløbende fra basepar nr. 1 (i kontrolregionen) og frem, i retning mod uret (pilen). (Adapteret fra<br />

Attardi, G. The elucidation of the human mitochondrial <strong>genom</strong>e. A historical perspective. BioEssays 1986;5:34-9.)<br />

Siden 1986 har man kendt hele mitokondrie-<br />

DNA’ets kodende funktion (Figur 1.27). Den-<br />

39


18209 01.fm7 Page 40 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

ne del af menneskets <strong>genom</strong> har således været<br />

beskrevet i detaljer flere år før den store kortlægning<br />

af menneskets nukleære <strong>genom</strong> tog sin<br />

begyndelse.<br />

mtDNA indeholder i alt 37 gener. Heraf koder<br />

2 for ribosomalt RNA (hhv. 12S og 16S<br />

rRNA), 22 koder for tRNA, og 13 er proteinkodende.<br />

De 13 polypeptider er alle engageret<br />

i den oxidative fosforylering (OXPHOS) og<br />

dermed i mitokondriernes livsvigtige syntese af<br />

ATP (adenosintrifosfat).<br />

Pga. den ulige fordeling af puriner (adenin og<br />

guanin) og pyrimidiner (cytosin og thymin)<br />

mellem mtDNA-molekylets to strenge, betegnes<br />

den ene streng som tung (H-strengen, H =<br />

heavy), den anden som let (L-strengen, L =<br />

light). For 12 af de 13 proteinkodende gener i<br />

mtDNA er H-strengen template-streng ved<br />

transkriptionen, og L-strengen derfor »den<br />

RNA-lignende streng«, dvs. den streng hvis<br />

nukleotidsekvens er lig mRNA-sekvensen, såfremt<br />

thymin (T) erstattes med uracil (U). Dette<br />

er baggrunden for at man, når man beskriver<br />

mtDNA-sekvenser og -mutationer, bruger Lstrengens<br />

sekvens (se fx Tabel 5.5 s. 110), også<br />

i de tilfælde hvor L-strengen er genets templatestreng,<br />

jf ND6.<br />

Mitokondrie<strong>genom</strong>et er specielt ved at ingen<br />

af dets gener indeholder introns, ligesom<br />

der stort set heller ikke findes ikke-kodende<br />

basepar mellem generne, når undtages den såkaldte<br />

kontrolregion: det ca. 1100 bp store<br />

område mellem generne for prolin-tRNA<br />

(tRNA Pro ) og phenylalanin-tRNA (tRNA Phe )<br />

(Figur 1.27). Den informationsmæssige kompakthed<br />

i mtDNA’et understreges af at<br />

transkripterne fra de fleste af de proteinkodende<br />

gener afsluttes med en ufuldstændig stopcodon<br />

der først fuldendes til UAA ved den posttranskriptionelle<br />

polyadenylering af mRNA’et.<br />

40<br />

Sekvensvariation i mtDNA<br />

Ved rutinemæssig mtDNA-analyse vil man hos<br />

de allerfleste personer kun påvise én mtDNAsekvens.<br />

Denne homogene tilstand betegnes<br />

homoplasmi; dette til forskel fra den sjældnere<br />

situation hvor der påvises to forskellige sekvenser,<br />

såkaldt heteroplasmi.<br />

På populationsniveau er der til gengæld tale<br />

om en betydelig sekvensvariation mellem tilfældigt<br />

udvalgte individer der således udviser<br />

homoplasmi for hver deres mtDNA-sekvens.<br />

Den typiske sekvensvariation mellem individer<br />

er uden fænotypiske konsekvenser og betegnes<br />

derfor som normalgenetisk variation.<br />

Dertil kommer den lejlighedsvise variation der<br />

skyldes patogene mutationer; disse vil blive<br />

omtalt i Kap 5, se afsnittet Mitokondriesygdomme,<br />

side 108ff).<br />

Haplotyper og haplogrupper<br />

Da mtDNA nedarves som et fast sammentømret<br />

molekyle, betegnes en persons mtDNA-sekvens<br />

også som vedkommendes mtDNAhaplotype.<br />

De mange forskellige haplotyper<br />

som blev kortlagt ved omfattende populationsgenetiske<br />

studier i 1980’erne og -90’erne har<br />

kunnet indpasses i et sammenhængende, overordnet<br />

stamtræ over udviklingen af mtDNA’ets<br />

sekvensdiversitet hos mennesket. I forbindelse<br />

hermed har man defineret et antal hovedgrupper<br />

af haplotyper som har fået betegnelsen<br />

haplogrupper.<br />

Fra DNA til protein<br />

Gen-ekspression<br />

I det følgende gives en oversigt over de væsentligste<br />

elementer, set fra et genetisk synpunkt, af<br />

processerne transkription og translation.<br />

Transkription og translation er samlet den måde<br />

hvorpå celler udlæser, eller udtrykker, deres genetiske<br />

information (Figur 1.2 og 1.28).


18209 01.fm7 Page 41 Friday, March 3, 2006 12:37 PM<br />

cDNA<br />

N C<br />

N . . . . . C<br />

rRNA<br />

Kromosomalt<br />

DNA<br />

Transkription<br />

Cellekernen<br />

tRNA<br />

mRNA Andet RNA<br />

Protein<br />

Der kan dannes mange identiske RNA-kopier<br />

fra det samme gen, og hvert mRNA-molekyle<br />

kan dirigere dannelsen af mange identiske proteinmolekyler.<br />

Selvom der for de allerfleste proteinkodende<br />

geners vedkommende kun findes to<br />

kopier af hvert gen i hver celle (en maternel og<br />

en paternel allel), vil den successive amplifikation<br />

via mRNA gøre cellen i stand til at syntetisere<br />

den nødvendige mængde af protein.<br />

Gener hvis processerede transkript er slutproduktet,<br />

forekommer ofte i mange kopier. For<br />

eksempel findes der ca. 200 kopier af de gener<br />

der koder for ribosomalt RNA (rRNA). De<br />

5’<br />

Eksport til andre<br />

celler/væv<br />

3’<br />

Kerneproteiner<br />

snRNA<br />

Andre<br />

proteiner<br />

rRNA<br />

Ribosomproteiner<br />

Translation<br />

N C<br />

Andre organeller + cytosol<br />

Fra DNA til protein<br />

Mitokondrie<br />

mtDNA<br />

Transkription<br />

mRNA tRNA<br />

OXPHOS<br />

Figur 1.28 Gen-ekspressionen i en menneskecelle. Der foregår transkription i både cellekernen og mitokondrierne. I<br />

cellekernen dannes et primært transkript som processeres før det transporteres ud af cellekernen. Bemærk at en lille<br />

del af RNA-molekylerne i cellekernen naturligt kan omdannes til cDNA af viralt eller cellulært kodet revers transkriptase<br />

og derefter integreres forskellige steder i det kromosomale DNA. Mitokondrierne syntetiserer dets eget rRNA og<br />

tRNA samt nogle få proteiner som er involveret i den oxidative fosforylering (OXPHOS). De mitokondrielle DNA- og<br />

RNA-polymeraser, proteinerne i mitokondriets ribosomer, enzymerne i trikarboxidationen og urinstofcyklus mv. samt<br />

hovedparten af proteinerne i den oxidative fosforylering kodes af nukleære gener.<br />

· · · · · markerer post-translationelle modifikationer såsom fx glykosylering og fosforylering.<br />

sidder fordelt på den korte arm af de akrocentriske<br />

kromosomer (13, 14, 15, 21 og 22, se<br />

Figur 1.8) og er alle aktive. Dette betyder at disse<br />

gener særdeles effektivt kan danne rRNA til<br />

de mange ribosomer der er nødvendige for<br />

proteinsyntesen. For de gener, hvor der kun<br />

findes to kopier kan den enkelte allel transkriberes<br />

og translateres med forskellig effektivitet,<br />

hvilket gør cellen i stand til at regulere mængden<br />

af de forskellige proteiner i og uden for cellen.<br />

En celles transkription foregår dels i cellekernen,<br />

hvor det nukleære DNA befinder sig, dels<br />

41


18209 01.fm7 Page 42 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

i mitokondrierne (Figur 1.28). For at mRNA<br />

fra de nukleære gener kan translateres, må det<br />

transporteres ud af cellekernen hvilket sker<br />

gennem porer i kernemembranen. Før RNA<br />

forlader cellekernen undergår det nogle processeringstrin.<br />

Afhængigt af om transkriptet skal<br />

blive til mRNA eller en anden slags RNA bliver<br />

det processeret forskelligt før det forlader<br />

cellekernen. Kun det RNA som skal blive til<br />

mRNA udsættes for: 1) RNA-capping i 5'-enden<br />

og 2) polyadenylering i 3'-enden. Disse trin<br />

har betydning for mRNA-stabiliteten og er af<br />

betydning for eksporten ud af cellekernen.<br />

Endvidere fungerer modifikationerne som signaler<br />

for proteinsyntese-maskineriet sådan at<br />

når begge modifikationer er til stede, opfattes<br />

molekylet som intakt, og translationen kan begynde<br />

(se dog afsnittet nonsense-medieret<br />

RNA-nedbrydning, side 67). RNA syntetiseret<br />

i mitokondrierne forbliver i mitokondriet og<br />

indgår i translationen dér.<br />

De fleste nukleære præmRNA-molekyler<br />

må undergå endnu et processeringstrin i form af<br />

RNA-splejsning (se nærmere beskrivelse side<br />

27).<br />

Eksempler på måder for regulation af<br />

genekspression – promotorer, enhancere og<br />

silencere<br />

Mennesket består af ca. 250 forskellige slags celler.<br />

Hos et normalt individ har de somatiske<br />

celler samme DNA-indhold, dvs. de har samme<br />

genetiske information til rådighed. Celler fra<br />

forskellige væv er imidlertid meget forskellige<br />

mht. hvilke gener de udtrykker, dvs. hvilken<br />

del af den genetiske information de udnytter.<br />

Eksempelvis indeholder et individs leukocytter<br />

og hjerneceller den samme genetiske information,<br />

men deres RNA- og protein-indhold er<br />

meget forskelligt. Man skelner mellem såkaldte<br />

husholdningsproteiner, der findes i alle celler<br />

og har betydning for cellens basale funktion, og<br />

42<br />

de såkaldte celle/vævs-specifikke proteiner, der<br />

kun produceres i visse celler og som har særlige<br />

og specialiserede funktioner enten i eller uden<br />

for cellen/vævet.<br />

Før RNA-syntesen kan begynde, skal der<br />

samles et transkriptionsinitieringskompleks opstrøms<br />

for genet, idet RNA-polymeraser hos<br />

mennesket ikke kan initiere transkription selvstændigt.<br />

I umiddelbar nærhed af genets kodende<br />

sekvens er der nogle korte sekvenselementer<br />

der agerer som genkendelsessignaler for transkriptionsfaktorer<br />

der binder til DNA og dermed<br />

guider og aktiverer RNA-polymerasen.<br />

Disse korte sekvenser ligger oftest opstrøms for<br />

den kodende sekvens og benævnes kollektivt<br />

promotor-regionen.<br />

Der findes bl.a. en særlig promotor, kaldet<br />

»TATA-boksen«, foran gener der koder for<br />

celle/vævsspecifikke proteiner (se Figurerne<br />

1.15 og 1.19). Den består af sekvensen<br />

5'-TATAAAA-3' ca. 25-30 basepar opstrøms<br />

for transkriptionsinitieringsstedet. Gener der<br />

koder for husholdningsproteiner har sædvanligvis<br />

en eller flere »GC-bokse« (sekvensen<br />

5'-GGGCGG-3') i varierende afstand fra<br />

transkriptionsinitieringsstedet (Figur 1.19). Et<br />

andet almindeligt promotor-element er »CATboksen«<br />

(fx 5'-CCAAT-3') som sidder 75-80<br />

bp opstrøms for transkriptionsinitieringsstedet<br />

(Figur 1.15 og 1.19) ligesom der ofte findes enhancer-<br />

og silencer-sekvenser i nogen afstand fra<br />

de enkelte gener. Det er sekvenser som binder<br />

forskellige faktorer, der regulerer ekspressionen<br />

af generne ved hhv. at øge og nedsætte transkriptionsinitieringen.<br />

Transkription og translation<br />

Ved transkriptionen bliver nukleotidsekvensen<br />

i genets ene DNA-streng kopieret til et komplementært<br />

RNA-molekyle (det primære<br />

transkript) vha. en DNA-afhængig RNA-polymerase.<br />

DNA’ets dobbelthelix åbnes, og den


18209 01.fm7 Page 43 Friday, March 3, 2006 12:37 PM<br />

DNA-streng der er orienteret i 3'→5'-retningen<br />

fungerer som template for transkriptionen.<br />

Syntesen af RNA foregår i 5'→3'-retningen.<br />

Translationen (proteinsyntesen) foregår i en<br />

læseramme hvis begyndelse defineres af startcodon,<br />

AUG, der koder for aminosyren methionin<br />

(Figur 1.15 og 1.29b). I det nysyntetiserede<br />

polypeptid vil denne methionin altså være den<br />

N-terminale aminosyre og polypeptidkædeforlængelsen<br />

er sket i retning mod den C-terminale<br />

ende. For de fleste proteiners vedkommende<br />

fraspaltes den N-terminale methionin dog<br />

umiddelbart efter syntesen.<br />

Ved translationen oversættes mRNA’ets basesekvens<br />

i grupper af 3 baser (codons), som definerer<br />

polypeptidets aminosyresekvens. Aminosyrerne<br />

føres til ribosomerne vha. transfer-<br />

RNA (tRNA) (Figur 1.29b-d). Hver aminosyre<br />

har sit eget tRNA, som i molekylet har en såkaldt<br />

anticodon, der er komplementær til den<br />

codon i mRNA som tRNA’et bindes til, mens<br />

det afleverer aminosyren. Eksempelvis kan<br />

nævnes at tRNA for glycin har 3'-CCG-5' som<br />

anticodon og baseparrer med codon 5'-GGC-3'<br />

på mRNA, se Figur 1.29b og 1.29c. Codon 1,<br />

2, 3 og 4 i det skitserede mRNA translateres til<br />

aminosyresekvensen methionin (Met), glycin<br />

(Gly), serin (Ser) og isoleucin (Ile). Glycin og<br />

alanin følger i positionerne 5 og 6.<br />

Selve translationsprocessen kan inddeles i tre<br />

trin (Figur 1.29c): 1) Initiering, hvor der dannes<br />

et initieringskompleks bestående af mRNA, et<br />

ribosom og tRNA sv.t. codon 1; dette kræver<br />

forskellige initieringsfaktorer. 2) Elongering er<br />

det næste trin, og består af codon-genkendelse<br />

(binding af tRNA), etablering af peptid-binding<br />

og flytning af ribosomet, vha. en translokase,<br />

3 baser frem i 3'-retningen på mRNA;<br />

dette trin kræver tilstedeværelsen af elongeringsfaktorer<br />

sådan at de successive aminosyrer<br />

påsættes det voksende polypeptid. 3) Termine-<br />

Fra DNA til protein<br />

ringen er det sidste trin, og translationen stopper<br />

når en af de tre stopcodons UAA, UGA eller<br />

UAG nås. Det dannede polypeptid forlader<br />

ribosomet, som dissocierer til dets subunits og<br />

mRNA.<br />

mRNA har en begrænset levetid i cytoplasmaet,<br />

forskelligt for de enkelte mRNA’er. Eksempelvis<br />

har β-globin-mRNA en halveringstid<br />

(t1) på omkring 10 timer, mens andre har en<br />

t1 < 30 min.<br />

Den genetiske kode<br />

Den genetiske kode udgør et sæt biologiske<br />

regler der bestemmer hvordan nukleotidsekvensen<br />

i DNA oversættes til aminosyresekvens<br />

via mRNA. Den anvendte genetiske<br />

kode er næsten universel for nukleære gener,<br />

dvs. at med enkelte undtagelser benytter alle<br />

arter samme kode for kernegenernes vedkommende.<br />

Bakterier ligeså.<br />

Koden er opbygget af kodeord (codons), der<br />

udgøres af en sekvens på 3 baser som bestemmer<br />

hvilken aminosyre der skal kobles på ved<br />

translationen. Hver codon angiver én aminosyre.<br />

Derimod kan en aminosyre godt kan have<br />

flere forskellige codons (jf. Tabel 1.6). Den genetiske<br />

kode kaldes derfor degenereret, hvilket<br />

kan eksemplificeres ved at aminosyren fenylalanin,<br />

har to codons: UUU og UUC, mens der<br />

er seks forskellige codons for aminosyren serin:<br />

UCU, UCC, UCA, UCG, AGU og AGC.<br />

Den genetiske kode blev dechifreret og beskrevet<br />

i 1966 og er angivet i sin helhed i Tabel 1.6,<br />

se også kodetabellen side 249. Der er anført 20<br />

forskellige aminosyrer, men rent faktisk indeholder<br />

nogle få proteiner en 21. aminosyre, selenocystein<br />

(Sec), hvis tRNA genkender codonen<br />

UGA (jf Tabel 1.6).<br />

Mitokondriernes genetiske kode er lidt anderledes.<br />

Translationen af deres 13 mRNAmolekyler<br />

sker på mitokondriernes egne ribosomer,<br />

under anvendelse af det mitokondrielle<br />

43


18209 01.fm7 Page 44 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

44<br />

a. Transkription<br />

5'<br />

3'<br />

DNA-dobbelthelix<br />

b. Translation<br />

RNA<br />

Methionin Glycin Serin Isoleucin Glycin Alanin<br />

Polypeptid<br />

A U G G G C U C C A U C G G C G C A G C A A G C<br />

5' 1 2 3 4 5 6 7 8 3'<br />

Codons<br />

mRNA<br />

c. Translationsforløb<br />

3'<br />

C C G C G T<br />

5' A U G G G C U C C A U G G G C U C C<br />

A G U U A A U C C 3'<br />

U A C<br />

Ribosom<br />

Met<br />

1. Initiering<br />

d. Strukturen af transfer-RNA (tRNA)<br />

1. Kløverbladstruktur<br />

5'<br />

G<br />

C<br />

G<br />

G<br />

A<br />

U<br />

A<br />

C<br />

C<br />

A<br />

C<br />

G<br />

C<br />

U<br />

U<br />

A<br />

A<br />

G A C A C C U<br />

U<br />

G A<br />

U<br />

G<br />

C U C A<br />

C U G U G C<br />

G G A G C U<br />

G G<br />

A<br />

A<br />

G<br />

C<br />

C<br />

A<br />

G<br />

A<br />

C<br />

U<br />

G A A<br />

Loop 3<br />

Loop 1<br />

Variabel loop<br />

G<br />

G<br />

U<br />

C<br />

Loop 2 A<br />

3'<br />

Anticodon<br />

Figur 1.29 Se Billedtekst på siden overfor.<br />

Met<br />

C C G<br />

Gly<br />

Ribosom<br />

A G G<br />

Ser<br />

2. Elongering<br />

Phe<br />

2. Tredimensionel struktur<br />

Loop 3<br />

20<br />

Variabel loop<br />

Anticodon-loop<br />

(Loop 2)<br />

54<br />

44<br />

32<br />

U C A<br />

Leu Met Ser<br />

64<br />

Ribosom<br />

3. Terminering<br />

4<br />

7<br />

26<br />

38<br />

12<br />

69<br />

5'<br />

Loop 1<br />

Anticodon<br />

72<br />

3'<br />

5'<br />

76<br />

3'<br />

Acceptorende


18209 01.fm7 Page 45 Friday, March 3, 2006 12:37 PM<br />

sæt af tRNA-molekyler som definerer mitokondriernes<br />

specielle variant af den genetiske<br />

kode (Tabel 1.7); her koder UGA for tryptofan<br />

(Trp), og AGA og AGG fungerer som supplerende<br />

stopcodons i stedet for at kode for arginin<br />

(Arg).<br />

Translation og posttranslationelle<br />

modifikationer<br />

Et segment af en nukleotidsekvens kan læses i tre<br />

forskellige læserammer (Figur 1.30, læserammerne<br />

A, B og C), men kun én af dem er rigtig (A i<br />

Figur 1.30 se dog side 32, Figur 1.23). Den defineres<br />

oftest af den første AUG-sekvens i mR-<br />

NA’et, som så er codon 1, og nysyntetiserede<br />

polypeptider har, som tidligere nævnt (side 43),<br />

Fra DNA til protein<br />

Tabel 1.6 Den genetiske standardkode. Aminosyrerne er angivet ved deres tre- og étbogstavkode (se tabel<br />

i Appendix, side 35). Man har konventionelt bestemt at en codon skrives med 5'-nukleotidet til venstre.<br />

GCA<br />

GCC<br />

GCG<br />

GCU<br />

AGA<br />

AGG<br />

CGA<br />

CGC<br />

CGG<br />

CGU AAC<br />

AAU GAC<br />

GAU UGC<br />

UGU CAA<br />

CAG GAA<br />

GAG<br />

GGA<br />

GGC<br />

GGG<br />

GGU CAC<br />

CAU<br />

AUA<br />

AUC<br />

AUU<br />

UUA<br />

UUG<br />

CUA<br />

CUC<br />

CUG<br />

CUU AAA<br />

AAG AUG UUC<br />

UUU<br />

A R N D C Q E G H I L K M F P S T W Y V<br />

*) I enkelte nukleære gener fungerer UGA som codon for selenocystein.<br />

methionin som N-terminal aminosyre. Efter<br />

translationen undergår polypeptidet forskellige<br />

former for kemiske ændringer, såkaldte posttranslationelle<br />

modifikationer, som er nødvendige<br />

for at opnå det modne slutprodukt, fx et aktive<br />

enzym. Ud over fraspaltning af en eller flere<br />

aminosyrer, herunder den N-terminale methionin,<br />

kan de posttranslationelle modifikationer typisk<br />

bestå i oxidation af cysteiner for at danne<br />

disulfidbroer, samt i glykosylering, fosforylering<br />

etc. Et polypeptids aminosyresekvens betegnes<br />

dets primære struktur og er af afgørende betydning<br />

for sekundærstrukturen, der er den tredimensionelle<br />

form på dele af et polypeptid eksempelvis<br />

α-helix og β-sheet. Den tertiære struktur<br />

er den foldede form af hele polypeptidet,<br />

Figur 1.29 Transkription og translation. A. Det første trin i gen-ekspressionen er transkription af den ene DNA-streng<br />

med dannelse af komplementært RNA. Processen styres af mange proteiner kaldet transkriptionsfaktorer. RNA-syntesen<br />

foregår ved hjælp af RNA-polymerase og kræver at DNA-dobbelthelix åbnes. Syntesen sker i 5' → 3'-retningen,<br />

dvs. komplementært til 3' → 5'-retningen på den DNA-streng der fungerer som template.<br />

Efter transkriptionen sker der en RNA-processering og -splejsning med dannelse af mRNA. B. Translationen er den<br />

proces hvor en række af codons i mRNA oversættes til en korresponderende aminosyresekvens på ribosomerne i cytoplasmaet.<br />

Translationen sker i en læseramme, som defineres af start-codon AUG. De enkelte codons er nummereret.<br />

C. Man definerer tre trin under translationen: initiering, elongering og terminering. Hvert af disse trin har forskellige<br />

proteiner som regulerer processen. De enkelte aminosyrer bringes til ribosomet af specifikke tRNA-molekyler via anticodon<br />

som baseparrer med den rette aminosyrecodon i mRNA. Når to aminosyrer sidder tæt ved hinanden dannes der<br />

en peptidbinding mellem dem, det næstsidst ankomne tRNA frigøres, og ribosomet bevæger sig en codon til højre, hvor<br />

processen gentages til der optræder en stopcodon. D. Til venstre er vist tRNA på såkaldt kløverbladsform. Acceptorarmen<br />

(3'-enden) binder den specifikke aminosyre, i dette eksempel fenylalanin, hvilket kan aflæses af anticodon. Den<br />

tredimensionelle struktur af tRNA er vist til højre. De forskellige loops har funktioner i relation til at elongeringsprocessen<br />

forløber uden fejl. markerer modificeret nukleotid.<br />

CCA<br />

CCC<br />

CCG<br />

CCU<br />

AGC<br />

AGU<br />

UCA<br />

UCC<br />

UCG<br />

UCU<br />

ACA<br />

ACC<br />

ACG<br />

ACU UGG UAC<br />

UAU<br />

Ala Arg Asn Asp Cys Gln Glu Gly Hls Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val stop<br />

GUA<br />

GUC<br />

GUG<br />

GUU<br />

UAA<br />

UAG<br />

UGA *<br />

45


18209 01.fm7 Page 46 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

A<br />

B<br />

C<br />

mens den kvaternære form er den sluttelige konformation<br />

af et multimert protein. Fx hæmoglobin,<br />

som består af 2 α-globin-monomerer, 2 βglobin<br />

monomerer og 4 hæmmolekyler hver<br />

med ét jernatom.<br />

Genomisk regulation af<br />

gen-ekspressionen<br />

Med afslutningen af det humane <strong>genom</strong>projekt<br />

har vi en næsten komplet liste over de gener<br />

som er nødvendige for at danne et individ og<br />

vedligeholde dets celler og organsystemer. Forståelsen<br />

af hvordan den biologiske information<br />

anvendes, kræver dog langt mere end et simpelt<br />

katalog over gener selvom det er en væsentlig<br />

information.<br />

Man har påvist, at andelen af mRNA udgør<br />

omkring 2-3% af det samlede RNA i en menneskecelle.<br />

Et lille antal mRNA’er findes i flere<br />

tusinde kopier, andre findes i flere hundrede<br />

kopier, mens hovedparten findes i mindre end<br />

10 kopier pr. celle. Man regner med, at der i alt<br />

findes omkring 500.000 mRNA-molekyler i<br />

en enkelt menneskecelle. Af de omkring<br />

27.000 gener man har fundet i menneskets <strong>genom</strong>,<br />

er det kun omkring en tredjedel, der udtrykkes<br />

i de enkelte væv og celletyper. Da der<br />

er hundredevis af forskellige celletyper dannende<br />

forskellige organer, der desuden har forskellige<br />

fysiologiske, udviklingsmæssige og patofy-<br />

46<br />

CAGUCUAUGGCAAAUAAGGUAGACCAU<br />

Met Ala Asn Lys Val Asp His<br />

Tyr Gly Lys<br />

Leu Trp Glu<br />

STOP<br />

Ile Arg STOP<br />

Figur 1.30 Læserammen for translationen. Se teksten<br />

for detaljer.<br />

Tabel 1.7<br />

mtDNA.<br />

Den genetiske kode for menneskets<br />

Forskelle fra kernekoden<br />

codon kernekode mtDNA-kode<br />

AUU Ile Ile (startcodon i ND2)<br />

AUA Ile Met<br />

UGA Stop Trp<br />

AGA Arg Stop<br />

AGG Arg Stop<br />

siologiske tilstande, eksisterer der således tusinder<br />

af forskellige transkriptomer.<br />

Beskrivelse og forståelse af de biologiske systemer<br />

som bestemmer hvilke af disse mange<br />

gener der skal være aktive i hvilke celler og på<br />

hvilket tidspunkt, samt hvilke regioner af de<br />

enkelte gener som skal udtrykkes i de enkelte<br />

celler, er mindst lige så vigtig som selve det humane<br />

<strong>genom</strong>s sekvensinformation. Man har allerede<br />

påvist vigtige faktorer i disse systemer,<br />

såkaldte epigenetiske markører, der har betydning<br />

for den differentierede anvendelse af den<br />

biologiske information som de enkelte celler<br />

har. De epigenetiske markører varierer fra celletype<br />

til celletype og har yderligere den vigtige<br />

egenskab at de kan videregives ved celledelingen.<br />

Faktorer i dette system ændrer ikke DNAbaserækkefølgen,<br />

men modificerer i stedet nogle<br />

af baserne, modificerer mængden og typen af<br />

transkript posttranskriptionelt eller modificerer<br />

proteiner omkring DNA-molekylet (Tabel<br />

1.8).<br />

Alternativ transkription og processering<br />

Ud over de kontrolmekanisker som har betydning<br />

for styringen af transkripters initiering og<br />

elongering, eksisterer der mekanismer som regulerer<br />

hvilke specifikke alternative transkripter<br />

der udtrykkes fra et gen. Ved genekspression<br />

kan en celle anvende flere forskellige pro-


18209 01.fm7 Page 47 Friday, March 3, 2006 12:37 PM<br />

Tabel 1.8 Eksempler på epigenetiske modifikationer<br />

til regulation af gen-ekspressionen.<br />

Alternativ transkription og processering<br />

alternativ splejsning meget hyppig<br />

alternativ anvendelse af promotorer almindelig<br />

alternativ polyadenylering almindelig<br />

RNA-editering<br />

Genomiske modifikationer<br />

sjælden<br />

metylering/demetylering af DNA meget hyppig<br />

acetylering/deacetylering af histon<br />

RNA-interferens<br />

meget hyppig<br />

nedbrydning af mRNA almindelig<br />

motorer og differentiel RNA-processering og<br />

der kan således ud fra et relativt lille antal gener<br />

dannes et stort antal forskellige isoformer af<br />

genprodukter. Disse opdagelser har ændret den<br />

klassiske definition af et gen, og den simple relation<br />

»ét gen – ét polypeptid« er ikke mere<br />

gældende.<br />

Mange gener har to eller flere alternative promotorer<br />

hvilket kan resultere i dannelsen af forskellige<br />

isoformer af genprodukter med forskellige<br />

egenskaber. Et af de bedst undersøgte gener,<br />

hvor differentiel promotor anvendes, er<br />

Genomisk regulation af gen-ekspressionen<br />

det store dystrofin-gen (DMD), som består af<br />

79 exons fordelt på 2,4 Mb. Mindst 8 forskellige<br />

promotorer er beskrevet (Figur 1.31), og de<br />

anvendes til celletypespecifik ekspression af<br />

dystrofin-genet. Atter andre isoformer af dystrofin-genet<br />

skyldes alternativ splejsning.<br />

Omkring halvdelen af menneskets gener har<br />

primære transkripter der undergår alternativ<br />

splejsning, hvor forskellige exon-kombinationer<br />

bliver inkluderet i det færdige transkript<br />

ved RNA-processering (Figur 1.17 og 1.18).<br />

Det har vist sig at visse transkripter har bestemte<br />

exon-kombinationer i forskellige væv. De forskellige<br />

isoformer i de forskellige væv giver<br />

mange muligheder for ændrede funktionelle<br />

egenskaber, men detaljeret viden herom mangler<br />

endnu. Alternativ splejsning har vist sig at<br />

være en af de vigtigste mekanismer bag dannelsen<br />

af forskellige isoformer.<br />

Alternativ polyadenylering er en anden almindelig<br />

måde til dannelse af isoformer. Et eksempel<br />

herpå er alternativ polyadenylering af<br />

calcitonin-transkriptet, hvilket resulterer i<br />

vævsspecifik ekspression af to isoformer (Figur<br />

1.32). Calcitonin er et cirkulerende Ca 2+ -homøostatisk<br />

hormon som produceres i gl. thyroidea.<br />

Det calcitonin-gen-relaterede peptid<br />

L C M P R CNS S G<br />

L1 C1 M1 P1<br />

0 500 1000 1500 2000<br />

2 5 10 15 20 30 40 45 50 55 60 70 79<br />

Dp427 Dp260 Dp140 Dp116 Dp71<br />

Figur 1.31 Mindst 8 forskellige promotorer benyttes til cellespecifik ekspression af dystrofin-genet. Positionen af de<br />

8 alternative promotorer er vist øverst: L i lymfocytter, C i hjernebarken (cortex cerebri), M i muskel, P i Purkinjefibre,<br />

R i retina, CNS i central nervesystemet, S i schwannske celler, G for generel promotor. Exons er nummererede 1-79.<br />

Notér at promotorvalget afgør hvilken exon der bliver den første i det pågældende transkript (L1, C1, M1, P1, R1 osv.).<br />

Dp427, Dp260, Dp140, Dp116, Dp71 refererer til størrelsen af færdige peptid i kDa, eksempelvis 427 kDa for Dp427.<br />

kb<br />

47


18209 01.fm7 Page 48 Friday, March 3, 2006 12:37 PM<br />

1 <strong>Menneskets</strong> <strong>genom</strong><br />

(CGRP) syntetiseres i hypothalamus og har<br />

neuromodulatoriske egenskaber. Ud fra samme<br />

gen kan der således dannes peptider med forskellige<br />

egenskaber relateret til forskellige funktioner<br />

i forskellige væv.<br />

RNA-editering er en sjældnere form for<br />

posttranskriptionel processering hos mennesket<br />

og involverer enzym-medieret insertion, deletion<br />

eller modifikation af enkelte nukleotider<br />

på RNA-niveau (fx deaminering af cytosin til<br />

uracil) som fører til ændret mRNA-sekvens.<br />

Man kender til dato kun få gener, hvor denne<br />

måde til dannelse af isoformer anvendes (fx<br />

apolipoprotein B).<br />

Genomiske modifikationer til regulation<br />

af gen-ekspressionen<br />

I Tabel 1.9 er der givet en oversigt over de epigenetiske<br />

modifikationer, som har betydning<br />

for aktive og mindre aktive gener.<br />

48<br />

Calcitoningenet<br />

mRNA<br />

Polypeptidforstadium<br />

Polypeptid<br />

Cap<br />

Gl. thyroidea<br />

Neuronalt<br />

væv<br />

Gl. thyroidea<br />

1 2 3 4<br />

Calcitonin<br />

pA1 pA2 1 2 3 4 5a 5b<br />

Poly-<br />

A<br />

Differentiel splejsning<br />

og polyadenylering<br />

Translation<br />

Posttranslationel<br />

kløvning<br />

Cap<br />

Neuronalt væv<br />

1 2 3 5a<br />

CGRP<br />

5b<br />

Poly-<br />

A<br />

Figur 1.32 Differentiel RNA-processering resulterer i vævsspecifikke calcitoningen-produkter. pA1 og pA2 repræsenterer<br />

alternative polyadenyleringssignaler som anvendes i hhv. gl. thyroidea og neuronalt væv. Notér at calcitonin<br />

kodes af exon 4-sekvenser i gl. thyroidea, mens calcitonin-gen-relateret-peptid (CGRP) i neuronalt væv syntetiseres fra<br />

5'-delen af exon 5 (5a) som et resultat af alternativ splejsning.<br />

Den eneste kendte modifikation af DNA hos<br />

mennesket er metylering af cytosin i position 5<br />

i CpG-dinukleotider. I normale celler foregår<br />

DNA-metylering især i dé <strong>genom</strong>iske områder<br />

som har repeterede sekvenser såsom satellit-<br />

DNA, SINEs og LINEs. Hypermetylering af et<br />

gen eller gen-område nedsætter ekspressionen<br />

af disse og omvendt ved hypometylering.<br />

En anden vigtig epigenetisk modifikation er<br />

den posttranskriptionelle modifikation af histonerne<br />

som DNA er viklet omkring. Denne<br />

modifikation består i påsætning af acetyl-grupper<br />

på lysin-enheder tæt på den N-terminale<br />

ende af histonerne. De acetylerede N-termini<br />

danner haler som stikker ud fra histon-oktameren.<br />

Acetylerede histoner har mindre affinitet<br />

over for DNA og medfører en mere åben<br />

struktur, der er bedre egnet til transkription.<br />

Med andre ord, acetylering af histoner fremmer


18209 01.fm7 Page 49 Friday, March 3, 2006 12:37 PM<br />

Tabel 1.9 Epigenetiske modifikationer ved aktive og inaktive gener.<br />

gen-ekspressionen mens de-acetylering hæmmer<br />

denne ekspression.<br />

For nylig er det blevet vist at processerne for<br />

DNA-metylering og histon-acetylering er koblede,<br />

men den nærmere biologiske betydning<br />

heraf er endnu ikke klarlagt.<br />

DNA-metylering og<br />

imprintningsygdomme<br />

Tidligt i embryogenesen hos kvinder sker der i<br />

somatiske celler normalt en permanent og tilfældig<br />

inaktivering af det ene X-kromosom<br />

som følge af en hypermetylering. Dette betyder<br />

at ca. halvdelen af de somatiske celler hos kvinder<br />

har det paternelt nedarvede X-kromosom<br />

aktivt mens de øvrige celler har det maternelle<br />

X-kromosom aktivt (se nærmere om X-inaktivering<br />

i Kap. 5, side 106ff).<br />

Epigenetiske modifikationer har også sygdomsmæssig<br />

betydning, hvilket bl.a. understreges<br />

af det stigende antal sygdomme, hvor det er<br />

påvist at disse modifikationer er involveret i patogenesen.<br />

En kobling mellem DNA-metylering og<br />

cancer blev kendt for flere år siden, hvor det<br />

blev vist at cancercellers <strong>genom</strong> er relativt hypometyleret<br />

i forhold til normale cellers. Det er<br />

interessant at dette tab af metylering hovedsageligt<br />

er sket i de repetitive områder af <strong>genom</strong>et.<br />

Et andet fænomen er imprintning. Visse regioner<br />

i de maternelle og paternelle <strong>genom</strong>er er<br />

ikke funktionelle ækvivalenter. Gener i sådanne<br />

regioner har forskellig ekspression afhængig af<br />

den parentale oprindelse. En sådan forskel i<br />

gen-ekspressionen som følge af den parentale<br />

Genomisk regulation af gen-ekspressionen<br />

Epigenetisk modifikation Aktive gener Inaktive gener<br />

DNA-metylering Relativ hypometylering<br />

specielt af promotor-regionen<br />

Relativ hypermetylering<br />

inklusive promotor-regionen<br />

Histon-acetylering Acetylerede histoner De-acetylerede histoner<br />

oprindelse kaldes for imprintning. Grunden til<br />

dette fænomen er at der er forskel i graden af<br />

metylering mellem den maternelle og paternelle<br />

allel. Eksempelvis, hvis et maternelt gen er<br />

metyleret (inaktivt) mens det paternelle ikke er,<br />

vil kun det paternelle blive udtrykt. Hvis der<br />

sker forstyrrelser i dette normale imprintningsystem,<br />

medfører det udvikling af forskellige<br />

sygdomme afhængigt af de berørte regioner.<br />

Det har vist sig at visse cancerformer såsom<br />

Wilms’ tumor og kolorektal cancer har forstyrrelser<br />

i de imprintede gener. Der findes også andre<br />

grupper af sygdomme, hvor forstyrret imprintning<br />

har patogenetisk betydning, eksempelvis<br />

Beckwith-Wiedemanns syndrom samt<br />

Prader-Willis og Angelmans syndromer (se<br />

nærmere herom i Kap. 15, side 238ff).<br />

Med baggrund i ovenstående syndromer er<br />

der nu betydelig farmakologisk interesse i at udvikle<br />

medikamina som skal kunne revertere<br />

epigenetiske abnormiteter.<br />

RNA-interferens<br />

Man har for nylig fundet at ekspressionen af ca.<br />

3 af alle menneskets gener reguleres af en ny<br />

klasse af molekyler kaldet miRNA. Det er en<br />

forkortelse for mikro-RNA, der udgøres af små<br />

RNA-molekyler med en længde på 21-30 nukleotider.<br />

De er ikke peptidkodende, men udtrykkes<br />

vævs- og udviklingsmæssigt specifikt og<br />

regulerer ekspressionen af andre gener ved at<br />

binde sig til specifikke mRNA-molekyler og<br />

iværksætte nedbrydning heraf.<br />

Til dato har man identificeret omkring 400<br />

forskellige miRNA’er som har betydning for<br />

49


18209 01.fm7 Page 50 Friday, March 3, 2006 12:37 PM<br />

udvikling og vedligeholdelse af stamceller, hjerne-<br />

og muskelceller. Det har endvidere vist sig<br />

at tab af bestemte miRNA’er kan føre til dysreguleret<br />

insulinsekretion og til celler der ikke<br />

kan dele sig som følge af manglende funktionelle<br />

centromerer.<br />

Betydning og Perspektiver<br />

Det humane <strong>genom</strong> har gennem de sidste 10 år<br />

haft høj grad af fokus inden for den biologiske<br />

og medicinske forskning, og dette vil utvivlsomt<br />

fortsætte endnu en rum tid. Men hvorfor<br />

er al den aktivitet koncentreret om dette og andre<br />

<strong>genom</strong>er (fx mus, gris og ris)? Der er flere<br />

grunde hertil.<br />

For det første vil det humane <strong>genom</strong> danne<br />

grundlag for et genkatalog, hvor man kender<br />

sekvensen af hvert gen selvom man måske ikke<br />

kender dets funktion. Herudover vil man have<br />

adgang til oplysninger om de enkelte geners regulatoriske<br />

områder og om hvordan generne er<br />

lokaliseret i forhold til andre gener. Mange af<br />

disse gener vil, når de ikke fungerer korrekt, give<br />

anledning til genetisk sygdom. Via et genka-<br />

talog for mennesket vil man have hurtig adgang<br />

til sekvensdetaljerne om disse gener, hvilket er<br />

udgangspunktet for at kunne undersøge og forstå<br />

sygdomsmekanismerne, hvilket igen vil<br />

kunne føre til strategier for behandling og profylakse.<br />

Det humane genkatalog er endnu i sin vorden<br />

og mens det færdiggøres, vil der nu blive<br />

rettet mere fokus på transkriptomet og proteomet<br />

(Figur 1.2), som udgør nøglefaktorer for at<br />

forstå hvordan den genetiske information indeholdt<br />

i <strong>genom</strong>et omsættes i den enkelte celle,<br />

herunder hvad der sker i forbindelse med forskellige<br />

sygdomme. Det bliver også interessant<br />

at se hvilken funktion alt det intergeniske DNA<br />

har. Det udgør trods alt ca. 5 af <strong>genom</strong>et.<br />

Sekventeringen af det humane og andre <strong>genom</strong>er<br />

presser teknologien til det yderste og<br />

fungerer derfor også som drivkraft i den fortsatte<br />

teknologiske udvikling af nye og mere effektive<br />

metoder inden for den basalbiologiske og<br />

medicinske forskning, og til betydelig forbedret<br />

diagnostik.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!