1 Menneskets genom
1 Menneskets genom
1 Menneskets genom
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
18209 01.fm7 Page 13 Friday, March 3, 2006 12:37 PM<br />
1<br />
Indledning<br />
<strong>Menneskets</strong> <strong>genom</strong><br />
Eigil Kjeldsen og Søren Nørby<br />
Alle cellulære organismer lige fra de simpleste<br />
bakterier til de mest komplekse eukaryote organismer,<br />
herunder mennesket, har DNA som<br />
bærer af den genetiske information.<br />
De enkelte organismers liv afhænger af cellernes<br />
evne til at kunne opbevare, åbne og oversætte<br />
de genetiske instruktioner som kræves for<br />
at kunne danne og vedligeholde den levende<br />
organisme. For artens eksistens er det endvidere<br />
nødvendigt at cellerne kan føre den genetiske<br />
information videre til næste generation (se videre<br />
i kapitel 2).<br />
Den genetiske information ligger lagret på en<br />
digital måde i DNA’et, som er opbygget af kulhydratet<br />
deoxyribose, fosfat og fire baser. De fire<br />
baser kaldes A, G, C og T, forkortelser for henholdsvis<br />
adenin, guanin, cytosin og thymin, og<br />
det er rækkefølgen af disse som definerer den<br />
genetiske information. Den genetiske information<br />
er lineær og kan beskrives som et sprog<br />
hvor alfabetet har fire bogstaver. Organismer er<br />
forskellige fra hinanden som følge af at rækkefølgen<br />
og antallet af bogstaver er forskellig.<br />
Et individs <strong>genom</strong> kan defineres som den<br />
fuldstændige genetiske information (DNAindhold)<br />
i den pågældendes celler. Den geneti-<br />
ske information er indeholdt i baserækkefølgen,<br />
som kan aflæses ved DNA-sekventering. <strong>Menneskets</strong><br />
arvemasse beskrives ofte som bestående<br />
af to <strong>genom</strong>er: et komplekst nukleært <strong>genom</strong><br />
(kerne-DNA), som udgør 99,9995% af den<br />
samlede genetiske information og et mere simpelt<br />
opbygget mitokondrie-<strong>genom</strong> (mitokondrie-DNA,<br />
mtDNA), som udgør de resterende<br />
0,0005% (Figur 1.1).<br />
Hver af de omkring 1013<br />
(10.000 milliarder)<br />
somatiske celler, som et udvokset menneske<br />
består af, har sin egen kopi af det nukleære <strong>genom</strong>.<br />
Det nukleære <strong>genom</strong> er i de somatiske celler<br />
diploidt og organiseret i 23 par lineære<br />
DNA-molekyler, ét for hvert af cellens 46 kromosomer,<br />
44 autosomer og 2 kønskromosomer,<br />
XX for kvinder og XY for mænd (Figur<br />
1.5 og 1.8).<br />
Mitokondrie<strong>genom</strong>et er anderledes organiseret<br />
og består af et lille cirkulært DNA-molekyle,<br />
som findes i mange kopier i det enkelte mitokondrie<br />
ligesom der er flere mitokondrier i<br />
den enkelte celle (se nærmere side 38ff). En referencesekvens<br />
for menneskets mtDNA blev<br />
første gang offentliggjort i 1981, og endeligt<br />
bekræftet med korrektioner i 1999.<br />
13
18209 01.fm7 Page 14 Friday, March 3, 2006 12:37 PM<br />
1 <strong>Menneskets</strong> <strong>genom</strong><br />
I 1990 blev det offentlige konsortium International<br />
Human Genome Sequencing Consortium<br />
(IHGSC), bestående af 20 centre i 6 lande, dannet<br />
med det formål at etablere en meget nøjagtig<br />
DNA-sekvens af det humane <strong>genom</strong> (reelt<br />
det nukleære <strong>genom</strong>). Der blev nogle få år senere<br />
også etableret et privat konsortium, Celera<br />
Genomics,<br />
med samme formål. Den største del af<br />
<strong>genom</strong>sekvensen, den såkaldte råskitse (eng.<br />
draft sequence),<br />
blev publiceret samtidig under<br />
stor mediebevågenhed af de to konsortier i februar<br />
2001. Da de to konsortier har anvendt<br />
hvert sit udgangsmateriale til sekventeringen, er<br />
råskitserne ikke identiske. I begge råskitser var<br />
der endvidere store mangler, idet bl.a. ca. 10%<br />
af eukromatinets DNA ikke var sekventeret<br />
(Boks 1.2). I oktober 2004 blev en færdig<br />
DNA-sekvens af det humane <strong>genom</strong> publiceret,<br />
hvor >99% af eukromatinet er sekventeret<br />
færdig.<br />
De to eksisterende referencesekvenser for det<br />
humane <strong>genom</strong> indeholder hver sin sekvens af<br />
14<br />
Menneskecelle<br />
Cellekernen<br />
(det nukleære<br />
<strong>genom</strong>)<br />
Mitokondrie<br />
(mitokondrie<strong>genom</strong>et)<br />
Figur 1.1 Et menneskes arvemasse består af to distinkte<br />
dele: 1) det nukleære <strong>genom</strong> som i sin diploide<br />
form indeholder ca. 6 milliarder basepar (6 Gb), der er<br />
fordelt på 23 par lineære DNA-molekyler, ét for hvert<br />
kromosom, hvor det korteste er ca. 47 mio. basepar<br />
langt og det længste er omkring 246 mio. basepar<br />
langt; 2) mitokondrie-<strong>genom</strong>et, som er et cirkulært<br />
DNA-molekyle på 16,6 kb, og med flere kopier i hvert<br />
mitokondrie.<br />
DNA-molekylerne i de 22 autosomer og de to<br />
kønskromosomer X og Y. En sådan referencesekvens<br />
af de 24 forskellige DNA-molekyler<br />
betegnes »det haploide humane <strong>genom</strong>« og består<br />
af ca. 3,1 milliarder nukleotidpar.<br />
Den humane referencesekvens indeholder<br />
meget overraskende kun omkring 27.000 protein-kodende<br />
gener (Tabel 1.1), hvor man tidligere<br />
troede, at der var mellem 65.000 og<br />
100.000. De tidligere skøn var så høje, fordi de<br />
bl.a. var baseret på en antagelse om at hvert gen<br />
definerede ét enkelt protein. Vi ved i dag at en<br />
proces som alternativ splejsning af mRNA (se<br />
side 27) udgør en langt mere væsentlig del af<br />
<strong>genom</strong>-ekspressionen end tidligere antaget, og<br />
at et gen derfor kan kode for dannelse af flere<br />
forskellige proteiner med forskellige funktioner.<br />
Mitokondrie-<strong>genom</strong>et indeholder 37 gener,<br />
hvoraf 13 koder for proteiner der er involveret<br />
i ATP-produktionen, den oxidative fosforylering.<br />
Resten koder for de RNA-molekyler der<br />
er involveret i den mitokondrielle protein-syntese<br />
(se Figur 1.27).<br />
Figur 1.2 skitserer flowet af den genetiske information<br />
i forbindelse med gen-ekspression:<br />
fra DNA til RNA til protein. Genomet er den<br />
samlede DNA-sekvens, transkriptomet udgøres<br />
af RNA-transkripterne, og proteomet er den<br />
samlede gruppe af proteiner som bliver udtrykt.<br />
Mennesket består af mere end 250 forskellige<br />
celletyper, og alle somatiske, kerneholdige celler<br />
fra samme individ indeholder samme <strong>genom</strong>,<br />
mens transkriptomet og proteomet er forskelligt<br />
fra celle til celle som følge af variation i<br />
gen-ekspressionen.<br />
I de følgende afsnit vil den genetiske informations<br />
struktur, funktion og dynamik på de<br />
enkelte niveauer blive gennemgået i mere detaljeret<br />
form.
18209 01.fm7 Page 15 Friday, March 3, 2006 12:37 PM<br />
Nukleinsyrernes opbygning<br />
DNA<br />
DNA som kemisk enhed blev opdaget af Johann<br />
Friedrich Miescher (1844-95). Det var dog først<br />
i 1930’erne at man blev i stand til at undersøge<br />
den kemiske struktur nærmere.<br />
DNA’s centrale biologiske funktion blev først<br />
erkendt i begyndelsen af 1940’erne, hvor den<br />
amerikanske mikrobiolog Oswald Avery (1877-<br />
1955) og medarbejdere kunne vise at DNA er<br />
bærer af den genetiske information. Før den tid<br />
havde man ikke skænket DNA megen opmærksomhed<br />
i genetisk henseende, idet man mente at<br />
et så relativt monotont opbygget molekyle, som<br />
man troede der var tale om, ikke kunne give anledning<br />
til den mangfoldighed af arter vi kender.<br />
Efter Averys opdagelse interesserede man sig mere<br />
for DNA-molekylet, og biokemikeren Erwin<br />
Chargaff (1905-2002) fandt i slutningen af<br />
1940’erne at i ethvert DNA-molekyle er antallet<br />
af A’er lig med antallet af T’er og på samme måde<br />
er antallet af G’er lig antallet af C’er. Chargaff<br />
fandt også at sammensætningen af DNA varierer<br />
fra art til art mht. de relative mængder af A+T og<br />
G+C. Samtidig lykkedes det biofysikeren Rosalind<br />
Franklin (1920-58) ved hjælp af røntgen-krystallografi<br />
at vise at DNA sandsynligvis er spiralsnoet<br />
som en helix, men om der var to eller tre<br />
kæder var uklart.<br />
Nukleinsyrernes opbygning<br />
Genom Transkriptom Proteom<br />
DNA<br />
Replikation<br />
Transkription<br />
RNA<br />
Translation<br />
Protein<br />
Figur 1.2 Skitse af flowet af den genetiske information i en menneskecelle. Genomet er den samlede DNA-sekvens,<br />
transkriptomet udgøres af RNA-transkripterne, og proteomet er den samlede gruppe af proteiner som <strong>genom</strong>et koder for.<br />
James Watson (f. 1928) og Francis Crick<br />
(1916-2004) kunne i 1953 offentliggøre den<br />
korrekte model for et DNA-molekyle, som bestående<br />
af to strenge snoet omkring hinanden i<br />
en dobbelthelix1<br />
(også kaldet Watson-Crickmodellen,<br />
Figur 1.3A). Hver DNA-streng består<br />
af en kæde af alternerende deoxyribose og<br />
fosfat med en base bundet til hver deoxyriboseenhed.<br />
I modellen danner de to DNA-strenge en stige<br />
formet som en højredrejet spiral (Figur<br />
1.3A). Det er senere vist, at en DNA-dobbelthelix<br />
også kan antage andre former, som bl.a.<br />
har betydning for binding af regulatoriske proteiner.<br />
De to kæder holdes sammen af hydrogen-bindinger<br />
mellem baserne, hvor A i den<br />
ene kæde parres med T i den anden, og G tilsvarende<br />
med C. Heraf følger, at kender man<br />
base-rækkefølgen (sekvensen) i den ene streng,<br />
så kender man automatisk også rækkefølgen i<br />
den anden streng – de to strenges basesekvenser<br />
er komplementære. Det bemærkes at der er 3<br />
hydrogen-bindinger mellem G og C og kun 2<br />
mellem A og T. Dette betyder at jo højere indholdet<br />
af GC-par er i et DNA-segment, desto<br />
1 1953a Watson JD & Crick FHC. Molecular structure of nucleic<br />
acids: a structure for deoxyribose nucleic acid. Nature<br />
171: 737-738 og 1953b Watson JD & Crick FHC. Genetical<br />
implications of the structure of deoxyribonucleic<br />
acid. Nature 171: 964-967<br />
15
18209 01.fm7 Page 16 Friday, March 3, 2006 12:37 PM<br />
1 <strong>Menneskets</strong> <strong>genom</strong><br />
mere energi skal der til for at bryde hydrogenbindingerne<br />
og adskille de to DNA-strenge i<br />
det pågældende område. Dette har betydning<br />
16<br />
A<br />
B<br />
CH 3<br />
N<br />
5' 3'<br />
C G<br />
A T<br />
G C<br />
T A<br />
C G<br />
A T<br />
T A<br />
C G<br />
C G<br />
A T<br />
A T<br />
C G<br />
A T<br />
C G<br />
G C<br />
3' 5'<br />
O N<br />
N N<br />
O<br />
H<br />
Hydrogen<br />
bindinger<br />
N<br />
Thymin Adenin<br />
N<br />
5'<br />
3'<br />
O<br />
O P OH<br />
O<br />
CH2 5' O<br />
C H H C<br />
4'<br />
H C C H<br />
3'<br />
O H<br />
O P OH<br />
O<br />
2'<br />
C G<br />
CH2 5' O<br />
C H C<br />
4'<br />
H C H<br />
3'<br />
O H<br />
O P OH<br />
O<br />
2'<br />
O<br />
C C<br />
O<br />
CH2 O<br />
HO P O<br />
G C<br />
H<br />
C<br />
CH T A<br />
2<br />
5' O<br />
C H H C<br />
4'<br />
H C C<br />
3'<br />
H<br />
2'<br />
O H<br />
3'<br />
H<br />
H<br />
2'<br />
H<br />
1'<br />
4'<br />
C H H C<br />
5'<br />
O<br />
C C<br />
O<br />
CH2 O<br />
HO P O<br />
O<br />
3'<br />
H<br />
2'<br />
H<br />
1'<br />
C H H<br />
5' C<br />
H<br />
4'<br />
C C<br />
O<br />
CH2 O<br />
HO P O<br />
O<br />
3'<br />
1'<br />
1'<br />
H<br />
H<br />
2'<br />
H<br />
1'<br />
4'<br />
C H H C<br />
5'<br />
1'<br />
N<br />
H<br />
N O<br />
N N<br />
O<br />
N<br />
ved DNA-replikation og transkription samt<br />
ved DNA-analyse.<br />
N<br />
N<br />
H<br />
Cytosin Guanin<br />
Figur 1.3 DNA-molekylets struktur. A. Til venstre er vist DNA-dobbelthelix, som består af to DNA-polynukleotidstrenge,<br />
som er snoet om hinanden og danner en højredrejet spiral der holdes sammen af hydrogen-bindinger mellem<br />
de parrede baser. Til højre er vist, at polynukleotidstrengene består af deoxyribose-fosfat-kæder, hvor nukleotiderne i<br />
hver streng er koblet sammen med 3'-5' fosfodiester-bindinger og baserne (A, G, C og T) er kovalent bundet til deoxyribosen.<br />
Pilene angiver orienteringen af de to DNA-strenge, der er antiparallelle i forhold til hinanden. B. DNA indeholder<br />
4 forskellige baser, som parvis er komplementære. Basernes kemiske struktur gør at der kun effektivt kan dannes<br />
hydrogen-bindinger mellem A og T samt mellem G og C i DNA-dobbelthelix. Der dannes to hydrogen-bindinger mellem<br />
A og T mens der dannes tre hydrogen-bindinger mellem G og C. Denne baseparring mellem de to polynukleotidstrenge<br />
kan kun ske når disse er antiparallelt orienteret.<br />
N<br />
3'<br />
5'
18209 01.fm7 Page 17 Friday, March 3, 2006 12:37 PM<br />
A<br />
B<br />
HOCH2 O OH<br />
H<br />
H H<br />
H<br />
OH OH<br />
Ribose<br />
O<br />
HC<br />
C<br />
NH<br />
HC<br />
N<br />
H<br />
C<br />
Uracil<br />
O<br />
HOCH 2 O OH<br />
H<br />
H H<br />
OH H<br />
H<br />
Deoxyribose<br />
H 3 C<br />
Når to DNA-strenge ved baseparring associeres<br />
til en DNA-dobbelthelix sker det i modsat<br />
orientering, hvilket vil sige at hvis den ene<br />
streng fx er orienteret i 5'→3'-retning<br />
så vil den<br />
anden streng orienteres i 3'→5'-retning;<br />
de er<br />
antiparallelle, som vist i Figur 1.3A. Nomenklaturen<br />
for retningen skyldes, at nukleotiderne<br />
under syntesen af DNA-strengen bindes sammen<br />
af esterbindingen mellem den fri OHgruppe<br />
i det sidst indbyggede nukleotid og fosfatgruppen<br />
i det ny. Den fri OH-gruppe sidder<br />
på det C-atom i deoxyribosen der betegnes<br />
med 3' og definerer dermed DNA-strengens 3'ende.<br />
Tilsvarende defineres 5'-enden af den fri<br />
fosfatgruppe på deoxyribosens 5'-C.<br />
En DNA-streng består således af en lang række<br />
enheder (nukleotider), som hver igen består<br />
af følgende tre elementer: 1) deoxyribose, som<br />
er et kulhydrat med 5 C-atomer (en pentose),<br />
hvortil der dels er bundet 2) en nitrogenholdig<br />
base (A, G, C eller T), dels 3) en fosfatgruppe.<br />
Cytosin og thymin tilhører pyrimidingruppen af<br />
baser, der er opbygget af en sekskantet pyrimi-<br />
C<br />
HC<br />
O<br />
C<br />
NH<br />
C<br />
ON<br />
H<br />
Thymin<br />
C<br />
5' 3'<br />
Nukleinsyrernes opbygning<br />
Figur 1.4 Strukturelle forskelle mellem RNA og DNA.<br />
A. RNA indeholder kulhydratet ribose, som svarer til DNA’ets deoxyribose, men ribosen har en ekstra OH-gruppe.<br />
B. RNA indeholder basen uracil, som ligner thymin, men mangler CH3-gruppen. C. I RNA er nukleotiderne som i DNA<br />
koblet sammen med 3'-5' fosfodiester-bindinger. I modsætning til DNA er RNA enkeltstrenget, men indeholder ofte<br />
korte strækninger af nukleotider som baseparrer med komplementære sekvenser andre steder i samme molekyle ( ).<br />
Dette medfører at et RNA-molekyle kan foldes i en tredimensionel struktur bestemt af nukleotidsekvensen.<br />
G<br />
U<br />
A<br />
U<br />
C<br />
C<br />
A<br />
U<br />
A<br />
G<br />
dinring, mens guanin og adenin tilhører puringruppen,<br />
som har en femkantet ring koblet til<br />
den sekskantede (se Figur 1.3B).<br />
RNA<br />
RNA-molekyler er polynukleotider, ligesom<br />
DNA-molekylet, men adskiller sig på tre væsentlige<br />
punkter fra DNA (Figur 1.4): 1) kulhydrat-molekylet<br />
i RNA-nukleotiderne er ribose,<br />
Boks 1.1<br />
Længdeenheder i DNA- og RNA-molekyler<br />
Da DNA er dobbeltstrenget, angives længden af molekylerne<br />
i antal basepar (bp). Et kilobasepar (kb) er<br />
103 bp og et megabasepar (Mb) er 106 bp. Et gigabasepar<br />
(Gb) er 109 bp.<br />
1 kb = 1000 bp<br />
1Mb = 1000 kb = 1.000.000 bp<br />
1 Gb = 1000 Mb = 1.000.000 kb = 1.000.000.000 bp<br />
Længden af RNA-molekyler kan ikke udtrykkes i bp, da<br />
de er enkeltstrengede, hvorfor længden angives i antal<br />
nukleotider.<br />
17
18209 01.fm7 Page 18 Friday, March 3, 2006 12:37 PM<br />
1 <strong>Menneskets</strong> <strong>genom</strong><br />
2) RNA indeholder ikke thymin, men i stedet<br />
pyrimidinen uracil, som ligeledes er komplementær<br />
til adenin, og 3) RNA-molekyler er<br />
enkeltstrengede, men indeholder oftest korte<br />
strækninger af nukleotider som baseparrer med<br />
komplementære sekvenser andre steder i molekylet<br />
(Figur 1.4C).<br />
Pakning af DNA til kromosomer<br />
Kromosomerne gennem cellecyklus<br />
Kromosomer afbildes næsten altid i en tilstand<br />
hvor kromatinet, dvs. DNA og associerede<br />
proteiner, er mest kompakt. Denne tilstand optræder<br />
kun i en meget kort periode af cellens<br />
livscyklus, nemlig i metafasen i celledelingen<br />
(Figur 1.5 og 1.6; se også Kapitel 2).<br />
På alle andre tidspunkter ligger kromosomerne<br />
som lange, tynde og fine tråde i cellekernen,<br />
og kan kun vanskeligt visualiseres i mikroskopet.<br />
Et kromosom fungerer som en strukturel<br />
enhed i cellen, og hvert enkelt kromosom ligger<br />
i et afgrænset afsnit ( compartment)<br />
i cellekernen<br />
(Figur 1.6).<br />
18<br />
Figur 1.5 Spredte kromosomer fra en celle i metafasen<br />
efter Giemsa-farvning, hvor man kan se lyse og mørke<br />
bånd langs de enkelte kromosomer. Parvis er kromosomernes<br />
båndmønster ens undtagen for X- og Y-kromosomerne.<br />
Tallene angiver eksempler på kromosompar,<br />
her nr. 1 og 13 samt kønskromosomerne X og Y.<br />
Hvert kromatid (G1-fase-kromosom/G2-fa<br />
se-kromosomhalvdel – se Figur 2.1) indeholder<br />
ét langt, lineært, dobbeltstrenget DNA-molekyle<br />
som er mange millioner basepar langt.<br />
Figur 1.6 Til venstre er vist en FISH-farvning af metafase-kromosomer fra dyrkede lymfocytter med whole chromosome<br />
painting-prober for kromosom 2 (rød) og kromosom 16 (grøn) (Se Kap. 4 for beskrivelse af FISH-farvning). Kontrastfarven<br />
er 4’,6-diamidino-2-fenylindol (DAPI), som farver de øvrige kromosomer (blå). Til højre er vist en cellekerne,<br />
hvor man kan se de enkelte kromosomer (2 og 16) liggende i hvert sit compartment. De øvrige kromosomer kan ikke<br />
ses individuelt, men er kontrastfarvet blå.
18209 01.fm7 Page 19 Friday, March 3, 2006 12:37 PM<br />
Længden af det enkelte DNA-molekyle afhænger<br />
af størrelsen af kromosomet som vist i Tabel<br />
1.1.<br />
Kromosomstrukturen og graden af kromosomernes<br />
kondensering varierer med cellecyklus<br />
(se Mitosen, side 52), og man skelner på<br />
den baggrund mellem mitotiske kromosomer<br />
og interfasekromosomer.<br />
Pakning af DNA til kromosomer<br />
Tabel 1.1 Det haploide humane <strong>genom</strong>. DNA-indholdet samt antallet funktionelle gener i hvert<br />
kromosom.<br />
Fra National Center for Biotechnology Information (NCBI) Human Genome Project, november 2005<br />
Kromosom Mb % af <strong>genom</strong>et Samlede antal gener Antal Gener/Mb * % af gener i alt<br />
1 246 8,0 2610 10,6 9,7<br />
2 243 7,9 1748 7,2 6,5<br />
3 200 6,5 1381 6,9 5,2<br />
4 191 6,2 1024 5,4 3,8<br />
5 189 6,1 1190 6,3 4,4<br />
6 171 5,5 1394 8,2 5,2<br />
7 159 5,1 1378 8,7 5,1<br />
8 146 4,7 927 6,3 3,5<br />
9 138 4,5 1076 7,8 4,0<br />
10 135 4,4 983 7,3 3,7<br />
11 135 4,4 1692 12,5 6,3<br />
12 132 4,3 1268 9,6 4,7<br />
13 114 3,7 496 4,3 1,9<br />
14 106 3,4 1173 11,0 4,4<br />
15 100 3,3 906 9,0 3,4<br />
16 89 2,9 1032 11,6 3,8<br />
17 79 2,6 1394 17,7 5,2<br />
18 76 2,5 400 5,3 1,5<br />
19 64 2,1 1592 25,0 5,9<br />
20 62 2,0 710 11,4 2,6<br />
21 47 1,5 337 7,2 1,3<br />
22 50 1,6 701 14,1 2,6<br />
X 155 5,0 1141 7,4 4,3<br />
Y 58 1,9 255 4,4 1,0<br />
3085 100,0 26808 8,7 100,0<br />
* Bemærk variationen i gen-tætheden på de enkelte kromosomer<br />
Interfasekromosomer og kromatindomæner<br />
Den samlede længde af alle 46 DNA-molekyler<br />
i en cellekerne i G1-fasen er ca. 2 meter. De er<br />
pakket i en cellekerne som for en typisk menneskecelle<br />
vil være omkring 5-8 µm i diameter.<br />
Omregnet svarer det til at hvis man forestiller<br />
sig cellekernen på størrelse med en tennisbold<br />
19
18209 01.fm7 Page 20 Friday, March 3, 2006 12:37 PM<br />
1 <strong>Menneskets</strong> <strong>genom</strong><br />
så skulle den indeholde en ca. 20 km lang og<br />
meget tynd tråd (ca. 20 µm i tykkelse).<br />
For at cellekernen skal kunne rumme ca. 2 meter<br />
DNA, må det nøgne DNA pakkes med forskellige<br />
proteiner til det kompleks der kaldes kromatin.<br />
Disse proteiner består af en familie af basiske<br />
proteiner kaldet histoner og en heterogen<br />
gruppe af sure såkaldte non-histon-proteiner,<br />
som er knap så velkarakteriserede som histonerne.<br />
De forskellige hierarkiske niveauer i pakningen<br />
af kromosomer er skematiseret i Figur 1.7.<br />
Der er fem hovedtyper af histoner (H1, H2A,<br />
H2B, H3 og H4) som spiller en særdeles vigtig<br />
rolle for pakningen af DNA’et i cellekernen.<br />
Aminosyresekvenserne (aminosyrer er byggesten<br />
i proteiner) af H2A, H2B, H3 og H4 er<br />
20<br />
600 nm<br />
Kromatinloop<br />
(~75 kb)<br />
p<br />
q<br />
13<br />
12<br />
11.2<br />
11.1<br />
11.1<br />
11.2<br />
12<br />
21.1<br />
21.2<br />
21.3<br />
22<br />
23<br />
24<br />
25<br />
Kromatider<br />
600 nm 600 nm<br />
Scaffold<br />
30 nm<br />
9,5 Mb<br />
6,0 Mb<br />
7,0 Mb<br />
4,5 Mb<br />
5,5 Mb<br />
3,0 Mb<br />
8,5 Mb<br />
8,0 Mb<br />
4,5 Mb<br />
7,5 Mb<br />
8,0 Mb<br />
10 nm<br />
1,5 Mb<br />
Nukleosom<br />
30 nm 10 nm<br />
Kromatinfiber<br />
2 nm<br />
Linker DNAdobbelthelix<br />
Figur 1.7 Fra DNA-dobbelthelix til metafase-kromosom. Her er vist et ideogram for human kromosom 17 i G-båndmønster<br />
(400-bånds opløsning). Til venstre på ideogrammet er vist båndnummereringen og til højre på ideogrammet<br />
er vist de omtrentlige længder af DNA-dobbelthelix indeholdt i de enkelte lyse og mørke bånd. Til højre for ideogrammet<br />
er vist en stiliseret tegning som viser princippet i at de to kromatider hver består af en lang DNA-dobbelthelix.<br />
Disse er pakket på den måde som er illustreret nederst i figuren. Den estimerede pakningsratio for humane kromosomer<br />
er 1:10 på nukleosom-niveau, 1:36 for 30 nm kromatin-fiberen og 1: >10.000 for metafase-kromosomet.<br />
meget velbevaret gennem evolutionen, som<br />
vist i Tabel 1.2 for H4, hvor der er en meget<br />
høj grad af sekvens-identitet mellem meget forskellige<br />
eukaryote arter. Dette betyder at<br />
DNA-pakningen er en grundlæggende mekanisme,<br />
som er ens for selv meget forskelligartede<br />
eukaryote organismer. To kopier af hver af<br />
disse fire histoner danner tilsammen en histonoktamer,<br />
som et segment af DNA-dobbelthelixen<br />
på ca. 140 bp vindes omkring ligesom en<br />
tråd om en spole. Det svarer til at dobbelthelixen<br />
er vundet lige under 2 gange rundt om oktameren<br />
og fortsætter i et kort linker-segment<br />
på<br />
mellem 20 og 60 basepar til næste histon-oktamer.<br />
Det enkelte kompleks bestående af histonoktamer<br />
og DNA kaldes et nukleosom,<br />
og er
18209 01.fm7 Page 21 Friday, March 3, 2006 12:37 PM<br />
den grundlæggende strukturelle enhed i kromatinet.<br />
Histon H1, hvis aminosyresekvens varierer<br />
en del mere mellem arterne end de øvrige<br />
histoners, synes at binde til DNA fra kanten af<br />
hvert nukleosom.<br />
Igennem cellecyklus undergår kromosomerne<br />
en ordnet cyklus af kondensering og dekondensering.<br />
I interfasekernen er kromosomerne og<br />
kromatinet relativt dekondenseret sammenlignet<br />
med kondenseringsgraden af kromatinet i metafase-kromosomerne.<br />
Dog er det sådan at selv i<br />
interfasekernen er DNA mere kondenseret end<br />
det ville være i sin native, proteinfrie form (også<br />
kaldet nøgent DNA). Det meste, hvis ikke alt,<br />
DNA i cellekernen er associeret med histoner,<br />
hvilket kondenserer det til ca. 10% af dets native<br />
længde (Figur 1.7). Eksempelvis vil DNA’et i<br />
kromosom 17 i sin native, nøgne form have en<br />
længde på ca. 5 cm og efter kompleksdannelsen<br />
med histonerne vil den være ca. 0,5 cm.<br />
Nukleosomfiberen (10 nm-fiberen, Figur<br />
1.7), som har et perler-på-en-snor-udseende, er<br />
igen pakket som en helix i en sekundær kromatinstruktur<br />
kaldet en solenoide. I et elektronmikroskop<br />
kan denne kromatinfiber ses som en 30<br />
nm tyk fiber og er således ca. 3 gange tykkere<br />
end nukleosomfiberen.<br />
Pakning af DNA til kromosomer<br />
Tabel 1.2 Aminosyre-sekvenserne i ét-bogstavkode (se Kap. 17, side ##) for histon H4 fra forskellige<br />
arter. Understregning viser forskel fra den humane sekvens og »……« angiver manglende aminosyrer.<br />
Data er fra NCBI.<br />
Menneske<br />
Okse<br />
Kylling<br />
Rotte<br />
Majs<br />
Bananflue<br />
S. pombe (gær)<br />
aminosyre nr 1 103<br />
msgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrgvlk vflenvirda vtytehakrk tvtamdvvya lkrqgrtlyg fgg<br />
msgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrgvlk vflenvirda vtytehakrk tvtamdvvya lkrqgrtlyg fgg<br />
msgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrgvlk vflenvirda vtytehakrk tvtamdvvya lkrqgrtlyg fgg<br />
msgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrgvlk vflenvirda vtytehakrk tvtamdvvya lkrqgrtlyg fgg<br />
msgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrgvlk iflenvirda vtyteharrk tvtamdvvya lkrqgrtlyg fgg<br />
mtgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrgvlk vflenvirda vtytehakrk tvtamdvvya lkrqgrtlyg fgg<br />
msgrgkggkg lgkggakrhr kilrdniqgi tkpairrlar rggvkrisal vyeetravlk lflenvirda vtytehakrk tvtsldvvys lkrqgrtiyg fgg<br />
Pyrenomonas salina msgrgkggkg lgkggakrhr kvlrdniqgi tkpairrlar rggvkrisgl iyeetrsvlk vflenvirda vtyteharrk tvtamdvvya lkrqgrtlyg fgg<br />
Aspergillus nidus<br />
msgrg...........akrhr kilrdniqgi tkpairrlar rggvkrisam iyeetrgvlk tflegvirda vtytehakrk tvtsldvvya lkrqgrtlyg fgg<br />
Hver omdrejning i solenoiden svarer til seks<br />
nukleosomer og synes at udgøre den grundlæggende<br />
enhed i kromatin-organisationen. Pakket<br />
således vil DNA’et i kromosom 17 være ca.<br />
0,1 cm langt.<br />
Hver solenoide er igen pakket i form af såkaldte<br />
loops (slynger) eller domæner, som med<br />
intervaller på omkring 10-100 kb er fastgjort til<br />
Boks 1.2<br />
HETEROKROMATIN<br />
1 Konstitutivt heterokromatin repræsenterer DNA<br />
som ikke indeholder gener og altid bevares kompakt<br />
i sin organisation. Denne del omfatter bl.a.<br />
centromer- og telomer-DNA.<br />
2 Fakultativt heterokromatin mener man indeholder<br />
gener som er inaktive i nogle celler, eller er inaktive<br />
i bestemte dele af cellecyklus, mens de i andre celler<br />
eller andre dele af cellecyklus er aktive. Når generne<br />
er inaktive, pakkes de som heterokromatin.<br />
Det menes at kromatinstrukturen er så kompakt at<br />
de proteiner som er involveret i gen-ekspression ikke<br />
kan komme til.<br />
EUKROMATIN<br />
De resterende kromosomregioner som indeholder<br />
de aktive gener, er mindre kompakte og tillader at<br />
ekspressions-proteinerne kan komme til. Eukromatin<br />
findes spredt i kromosomerne.<br />
21
18209 01.fm7 Page 22 Friday, March 3, 2006 12:37 PM<br />
1 <strong>Menneskets</strong> <strong>genom</strong><br />
et non-histon-protein-netværk også kaldet matrix<br />
eller scaffold (proteinskelet) (Figur 1.9A).<br />
De enkelte loops er bundet til protein-skelettet<br />
via AT-rige DNA-regioner kaldet MARs ( matrix-associated<br />
regions)<br />
eller SARs ( scaffold attachment<br />
regions).<br />
Det er ikke endeligt afklaret om<br />
disse loops er de grundlæggende funktionelle<br />
enheder ved eksempelvis replikation eller<br />
transkription eller begge dele.<br />
Når cellerne ikke er i deling, kan man med<br />
lysmikroskopi se at cellekernen har lyse og<br />
mørkt farvede områder. De mørkt farvede<br />
områder synes at koncentrere sig i periferien af<br />
cellekernen og kaldes heterokromatin. Det er<br />
relativt kompakt i sin organisation, selvom det<br />
er mindre kompakt end i metafase-kromosom-strukturen.<br />
Man skelner mellem konstitutivt<br />
og fakultativt heterokromatin (Boks<br />
1.2),<br />
Mitotiske kromosomer<br />
De ovenfor omtalte loops kan udgøre begyndelsen<br />
til de fortykkelser som kan ses i mikroskopet<br />
i den tidlige profase, hvor mitosen begynder.<br />
I selve profasen kan kromosomerne let ses<br />
i lysmikroskopet. Efter farvning af kromosomerne<br />
kan der identificeres 1000 bånd eller flere<br />
(høj-opløsnings-båndfarvning), og et bånd<br />
vil således kunne rumme flere millioner basepar<br />
og måske 30-100 gener. I profasen er kromosom<br />
17 kondenseret til en længde på ca. 15 µm<br />
svarende til 1/3000 af længden af DNA-molekylets<br />
native form.<br />
Når kondenseringen er maksimal, som i<br />
metafasen, har kromosomerne en længde på ca.<br />
1/50.000 af DNA’ets native længde. I en metafase<br />
efter båndfarvning kan et bånd således teoretisk<br />
indeholde ca. 5-20 millioner basepar.<br />
Med menneskets ca. 27.000 gener og et samlet<br />
antal bånd på metafasekromosomerne på 400<br />
bliver den gennemsnitlige gentæthed ca. 70 gener<br />
per bånd.<br />
22<br />
Efter mitosen dekondenserer kromosomerne<br />
og indtager igen deres kromatinstruktur i interfasekernen,<br />
hvor de er klar til at begynde en ny<br />
cyklus.<br />
Strukturer i kromosomet<br />
Metafasekromosomet, der dannes på et tidspunkt<br />
i cellecyklus, efter at DNA-replikationen<br />
har fundet sted (se videre i kapitel 2), består<br />
af to udgaver af et lineært DNA-molekyle<br />
repræsenteret ved de to kromatider, som holdes<br />
sammen i centromeret (Figur 1.8 og<br />
1.9B). Centromeret har forskellig placering på<br />
de enkelte kromosomer (se karyotypen, Figur<br />
1.8).<br />
En vigtig del af centromer-funktionen knytter<br />
sig dels til at holde kromatiderne sammen,<br />
dels til selve adskillelsen heraf i mitosen og<br />
meiosen (Figur 1.11). En plade-lignende struktur,<br />
kinetokoren, der ligger på overfladen af de<br />
to kromatider i centromer-regionen, fungerer<br />
som vedhæftningspunkt for de mikrotubuli,<br />
der stråler ud fra centriolerne, og trækker de<br />
segregerende kromatider til hver deres dattercelle.<br />
Det er særlige DNA-sekvenser, kaldet<br />
alphoid DNA (se Tabel 1.5), som udgør<br />
DNA’et i centromer-regionerne, og der er stor<br />
sekvenslighed mellem disse fra forskellige arter.<br />
De fungerer som bindingssted for centromerspecifikke<br />
proteiner, hvoraf der er mindst fem<br />
forskellige, og som hæfter tentrådene.<br />
En anden vigtig region på kromosomet er den<br />
terminale region, telomeren, dvs. den yderste<br />
ende af kromosomets to arme (Figur 1.10). Telomer-regionen<br />
består af DNA, der udgøres af<br />
den repeterede enhed: 5'-TTAGGG-3' (hhv.<br />
5'-CCCTAA-3'). Den er repeteret op til et par<br />
tusind gange og udgør op til ca. 12 kb i hver ende<br />
af kromatiderne. Yderst er der et 3'-overhæng,<br />
som består af enkeltstrenget DNA (se Figur<br />
1.12).
18209 01.fm7 Page 23 Friday, March 3, 2006 12:37 PM<br />
Telomer-længden er vigtig for kromosomets<br />
stabilitet, men bliver lidt mindre efter hver replikation,<br />
og når længden kommer ned under<br />
en bestemt grænse, er det en afgørende og<br />
medvirkende årsag til celle-aldring og snarlig -<br />
død. Cancerceller har dog bevaret aktiviteten af<br />
nogle gener, der koder for proteiner (bl.a. telomeraser),<br />
som kan sikre bevarelsen af telomerlængden<br />
under replikationen, hvilket har betydning<br />
for deres immortalitet.<br />
Genomets struktur<br />
Figur 1.8 Et eksempel på en kromosom-undersøgelse med G-båndfarvning af celler fra en knoglemarvsprøve. Resultatet<br />
er den mandlige karyotype 46,XY. Til højre for hvert kromosompar er vist et G-båndsideogram i 400-bånds opløsning<br />
hvor de små tal angiver eksempler på båndnummerering (se Kap. 17, side 252). De røde områder viser centromererne.<br />
De har forskellig placering på de enkelte kromosomer og markerer skellet mellem den korte (p) og lange (q) arm<br />
heraf. De akrocentriske kromosomer 13, 14, 15, 21 og 22 indeholder på den korte arm rRNA-generne, der koder for ribosom-RNA<br />
(rRNA). rRNA-generne er repeteret flere hundrede gange. De gråt markerede områder på den lange arm<br />
nær centromeret på kromosomerne 1, 3, 4, 9, 16 og 19, de korte arme af de akrocentriske kromosomer samt Yq12 angiver<br />
lokalisationen af konstitutivt heterokromatin, se Boks 1.2.<br />
Genomets struktur<br />
Generelt<br />
Den genetiske information i en menneskecelle<br />
består, som tidligere omtalt, af to <strong>genom</strong>er: et<br />
kompliceret nukleært <strong>genom</strong> og et mere simpelt<br />
mitokondrie-<strong>genom</strong> (Figur 1.13). Det nukleære<br />
<strong>genom</strong> udgør langt hovedparten af den genetiske<br />
information mens mitokondrie-<strong>genom</strong>et<br />
samlet kun er ansvarligt for en mindre del heraf<br />
og i øvrigt kun en del som vedrører nogle af de<br />
23
18209 01.fm7 Page 24 Friday, March 3, 2006 12:37 PM<br />
1 <strong>Menneskets</strong> <strong>genom</strong><br />
Figur 1.9 A. Et elektronmikroskopisk udsnit af en cellekerne,<br />
hvor man efter særlig protein-ekstraktion kan<br />
se de enkelte kromatin-fibre strækkende sig ud fra<br />
scaffold. B. Et scanningelektron-mikroskopibillede af et<br />
metafasekromosom, som viser de to kromatider bundet<br />
sammen i centromeret. De mange små knude-formede<br />
projektioner viser de enkelte grupper af kromatin-loops<br />
(se også Figur 1.7).<br />
specifikke mitokondrielle, omend livsnødvendige,<br />
funktioner.<br />
Med udgangspunkt i skitsen ovenfor af det<br />
humane <strong>genom</strong> vil de enkelte dele heraf blive<br />
gennemgået mere detaljeret.<br />
24<br />
Mikrotubuli<br />
Kinetokor<br />
Figur 1.11 Kinetokoren er det sted, hvor mikrotubuli<br />
vedhæfter og trækker de segregerende kromatider til<br />
hver deres dattercelle.<br />
A<br />
B<br />
Kromatid<br />
Telomer<br />
Centromer<br />
Subtelomer<br />
region<br />
100-300 kb ˜ 12 kb<br />
Telomer- Telomer<br />
associerede<br />
repeats<br />
Figur 1.10 A. Et metafasekromosom består af to kromatider<br />
(kaldet søsterkromatider), som holdes sammen<br />
i centromeret. Regionerne i enderne af kromatiderne<br />
benævnes telomerer. B. Et udsnit af den ene ende af et<br />
kromatid, hvor telomeren udgør de terminale ca. 12 kb,<br />
Telomer-associerede repeats udgør 100-300 kb (se Tabel<br />
1.5) og mest centromert ligger subtelomer-regionen,<br />
som er rig på gener.<br />
Det nukleære <strong>genom</strong>s opbygning<br />
Kernen i en menneskecelle indeholder mere<br />
end 99% af cellens samlede DNA-indhold, der<br />
i det haploide <strong>genom</strong> udgør 3,1 Gb. Det indeholder,<br />
som tidligere angivet, omkring 27.000<br />
gener. Den samlede DNA-mængde i en celle,<br />
udgør i interfasen ca. 7 pg (1 pg = 10 -12 gram).<br />
Som det fremgår af Figur 1.13 består <strong>genom</strong>et<br />
i cellekernen af dels gener og gen-relaterede<br />
sekvenser, dels intergenisk DNA. Gener og<br />
5’<br />
3’<br />
..... AGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAG<br />
•••••••••••••••••••••••••••<br />
..... TCCCAATCCCAATCCCAATCCCAATCC<br />
3’ 5’<br />
Figur 1.12 Telomer-regionen. De terminale op til 12<br />
kb af et kromosom udgøres af den repeterede enhed<br />
5'-TTAGGG-3' (indrammet). Enheden er repeteret op til<br />
et par tusinde gange. Ved hver celledeling bliver regionen<br />
kortere.
18209 01.fm7 Page 25 Friday, March 3, 2006 12:37 PM<br />
Gener og genrelaterede<br />
sekvenser<br />
1.100 Mb<br />
Kodende<br />
DNA 48 Mb<br />
Pseudogener<br />
Ikke-kodende<br />
DNA 1.052 Mb<br />
Genfragmenter<br />
Introns,<br />
UTR<br />
Det nukleære <strong>genom</strong><br />
3.100 Mb<br />
~27.000 gener<br />
LINEs<br />
640 Mb<br />
gen-relaterede sekvenser udgør ca. 35% af <strong>genom</strong>et,<br />
hvor den kodende del kun udgør i alt<br />
ca. 1,5% af det samlede <strong>genom</strong>.<br />
Langt hovedparten af <strong>genom</strong>et, ca. 65%, udgøres<br />
af intergenisk DNA, dvs. DNA-sekvenser<br />
som ligger mellem generne. Det intergeniske<br />
DNA består hovedsageligt af forskellige former<br />
for repeterede DNA-sekvenser, som vil blive<br />
beskrevet nærmere nedenfor (se side 35ff).<br />
Gener og gen-relaterede sekvenser<br />
Kodende DNA – genernes struktur<br />
En organismes DNA koder for al RNA og dermed<br />
de proteiner som er nødvendige for, at organismen<br />
kan danne og vedligeholde sine celler,<br />
væv og organer. Samlet udgør den proteinkodende<br />
information hovedparten af det omkring<br />
48 Mb kodende DNA, dvs. ca. 1,5% af hele<br />
<strong>genom</strong>et.<br />
Et gen kan defineres som et segment af kromosomalt<br />
DNA der er indeholder den nødvendige<br />
information for dannelsen af et funktionelt<br />
produkt. Man skelner nu mellem to grupper af<br />
gener: 1) gener som transkriberes til mRNA,<br />
<strong>Menneskets</strong> <strong>genom</strong><br />
Intergenisk DNA<br />
2.000 Mb<br />
Interspersed<br />
repeats 1.400 Mb<br />
SINEs<br />
420 Mb<br />
LTRelementer<br />
250 Mb<br />
Transposoner<br />
90 Mb<br />
2 rRNAgener<br />
Mitokondrie-<strong>genom</strong>et<br />
16,6 kb<br />
37 gener<br />
22 tRNAgener<br />
Andre intergeniske<br />
regioner 600 Mb<br />
Mikrosatellitter<br />
90 Mb<br />
Figur 1.13 Skematisk oversigt som viser de forskellige elementer i menneskets <strong>genom</strong>.<br />
Andre<br />
510 Mb<br />
Genomets struktur<br />
13 polypeptidkodende<br />
gener<br />
der i ribosomer translateres til protein, og 2) gener,<br />
hvis transkripter er ikke-kodende og som<br />
anvendes direkte til særlige funktioner (fx tR-<br />
NA, rRNA, snRNA osv). – se Boks 1.3.<br />
Boks 1.3 Ikke-kodende RNA (udvalgte eksempler)<br />
Type Funktion<br />
rRNA proteinsyntese<br />
tRNA proteinsyntese<br />
snRNA mRNA-processering<br />
snoRNA RNA-processering<br />
Xist-RNA X-kromosom-inaktivering<br />
telomerase-RNA telomersyntese<br />
miRNA RNA-interferens<br />
Det bemærkes at ifølge denne definition indeholder<br />
et gen ikke kun de kodende sekvenser<br />
man kan genfinde i transkriptet, men også de<br />
ofte tætved liggende regulatoriske sekvenser,<br />
der er nødvendige for en kontrolleret ekspression<br />
af genet (promotor, enhancere mv., se Figur<br />
1.18 og 1.19 og afsnittet »Fra DNA til protein«,<br />
side 40ff).<br />
25
18209 01.fm7 Page 26 Friday, March 3, 2006 12:37 PM<br />
1 <strong>Menneskets</strong> <strong>genom</strong><br />
Hos eukaryote organismer er de proteinkodende<br />
gener som regel diskontinuerte, forstået<br />
på den måde at genets proteinkodende in-<br />
26<br />
Kodende RNA<br />
(mRNA)<br />
Gener<br />
Ikke-kodende RNA<br />
(fx tRNA, rRNA)<br />
Figur 1.14 Genernes transkriptionsprodukter kan<br />
som følge af deres funktion opdeles i to hovedgrupper:<br />
1) kodende RNA, koder for dannelse af proteiner,<br />
2) ikke-kodende RNA, som kan have enzymatisk eller<br />
strukturel funktion (Boks 1.3).<br />
3'<br />
5'<br />
-75<br />
CCAAT<br />
box<br />
Promotorsekvenser<br />
-30<br />
TATA<br />
box<br />
Transkriptionsstart<br />
Exon 1<br />
1 30 31<br />
Exon 2<br />
104<br />
intron 1 intron 2<br />
+1<br />
Cap ATG<br />
site startcodon<br />
}<br />
C A<br />
AAGGT<br />
G AGT<br />
}<br />
(Y) n NYAGG<br />
Konsensus-sekvenser for<br />
5'- (donor) og 3'- (acceptor)<br />
splejsningssignaler<br />
formation, er delt op i en serie af delsekvenser<br />
kaldet exons, som er adskilt af ikke-kodende<br />
såkaldte intron-sekvenser som illustreret i Figur<br />
1.15.<br />
»Opstrøms« (upstream) og »nedstrøms« (downstream)<br />
er begreber, som hhv. definerer 5'- og 3'regionerne<br />
og bruges ved stedsangivelse i forhold<br />
til en given position i et gens DNA, i RNA<br />
eller i cDNA. Opstrøms- hhv. nedstrøms-regionerne<br />
for transkriptionsstart og -stop indeholder<br />
ofte områder som er af betydning for regulationen<br />
af et givet gens ekspression, dvs. hvor<br />
meget og hvornår et gen skal udtrykkes.<br />
Transkriptionen (dvs. dannelsen af en RNAkopi)<br />
af et gen foregår altid således at transkriptet<br />
(RNA-kopien) syntetiseres i retningen<br />
}<br />
Transkription<br />
og capping<br />
105<br />
}<br />
Exon 3<br />
146<br />
TAA<br />
stopcodon<br />
Transkriptionsstop<br />
5'<br />
3'<br />
AATAAA<br />
signal for trimning<br />
og polyadenylering<br />
Cap Exon 1 Exon 2 Exon 3<br />
5'<br />
intron 1 intron 2 3'<br />
UTR<br />
Det primære transkript<br />
(præ-mRNA)<br />
UTR<br />
Figur 1.15 Nukleære proteinkodende geners anatomi. Her er som et eksempel vist β-globin-genet med regulatoriske<br />
promotor-sekvenser (CCAAT-box og TATA-box), som sidder opstrøms for start af de aminosyre-kodende sekvenser<br />
(ATG). Disse promotor-sekvenser har betydning for reguleringen af ekspressionen. Opstrøms sidder et Cap site og nedstrøms<br />
sidder et polyadenyleringssignal. Når transkriptionen er til ende, bliver 3 transkriptionsproduktet trimmet og<br />
polyadenyleret i 3'-enden, hvilket beskytter transkriptet mod nedbrydning og desuden faciliterer transport ud af cellekernen.<br />
Endvidere bemærkes det at proteinkodende gener hos eukaryote organismer med få undtagelser er diskontinuerte,<br />
dvs. de kodende sekvenser er afbrudt af introns også kaldet intervening sequences (IVS). Der er konsensussekvenser<br />
i intron-exon-overgangene som har betydning for at introns splejses rigtigt ud ved den post-transkriptionelle<br />
processering af præ-mRNA’et (se afsnittet Splejsningsmutationer, side 61). UTR = untranslated region.
18209 01.fm7 Page 27 Friday, March 3, 2006 12:37 PM<br />
3’<br />
5’<br />
Gen II Gen III<br />
Gen I<br />
Intergenisk<br />
DNA<br />
5'→3', da RNA-forlængelsen finder sted i den<br />
ende som har en fri 3'-OH-gruppe. Kun den<br />
ene af genets to DNA-strenge anvendes som<br />
template (skabelon) for RNA’et; template-strengen<br />
er den streng der er antiparallel til den nydannede<br />
RNA-kopi. Det er bestemte nukleotidsekvenser<br />
i opstrøms-regionen, som definerer<br />
startpunktet for transkriptionen. Nogle gener<br />
i et kromosom kodes fra den ene DNAstreng<br />
mens andre gener kodes fra den anden<br />
streng og da i modsat retning (Figur 1.16).<br />
Proteinkodende gener koder for et intermediært<br />
RNA-molekyle kaldet messenger-RNA<br />
(mRNA). Det dannede mRNA transporteres<br />
ud til cytoplasmaet, hvor det via sin nukleotidsekvens<br />
styrer syntesen af det protein som sekvensen<br />
koder for, ved en proces kaldet translation<br />
(se nærmere herom side 43ff).<br />
Når et proteinkodende gen udtrykkes, dannes<br />
der først en RNA-kopi af genets ene DNAstreng<br />
(fra og med transkriptionsstartpunktet),<br />
inklusive alle exons og introns. Dette primære<br />
transkript betegnes præ-mRNA. Ved en proces<br />
der kaldes splejsning, fjernes intronsekvenserne,<br />
og exons samles derved til én proteinkodende<br />
sekvens under dannelse af det mRNA,<br />
som til slut transporteres ud i cytoplasmaet,<br />
hvor det dirigerer proteinsyntesen (Figur 1.29).<br />
Ud over splejsningen sker der en modifikation<br />
5’<br />
3’<br />
Figur 1.16 I et kromosoms DNA-molekyle er den<br />
ene streng template-strengen for nogle af generne,<br />
mens den anden er det for andre gener. Generne er<br />
skitseret svarende til deres template-streng. Pilene<br />
angiver transkriptionsretningen.<br />
Genomets struktur<br />
(processering) af det primære transkripts 3'-ende<br />
i form af en trimning (fjernelse af en kortere<br />
el. længere nukleotidsekvens) og en polyadenylering<br />
(påsætning af ca. 200 adenosinnukleotider,<br />
AMP), begge dele signaleret af polyadenyleringssignalet,<br />
5'-AATAAA-3' (se Figur 1.15).<br />
Der kan være flere polyadenyleringssignaler,<br />
som anvendes cellespecifikt (Figur 1.18). Endelig,<br />
men reelt som den første modifikation, påsættes<br />
der tidligt under transkriptionen et guanosin-nukleotid<br />
(den såkaldte cap) i transkriptets<br />
5'-ende.<br />
Tidligere troede man at splejsningsprocessen<br />
var en lige-ud-ad-landevejen proces, hvor hver<br />
exon blev samlet med sine nabo-exons for at<br />
danne et bestemt mRNA-molekyle. Det har<br />
imidlertid vist sig, at mange præ-mRNA-molekyler<br />
undergår såkaldt alternativ splejsning,<br />
hvorved der dannes mRNA-molekyler med<br />
forskellige kombinationer af exons. Der kan således<br />
fra et givet gen laves flere forskellige slags<br />
mRNA, der styrer syntesen af forskellige proteiner<br />
(Figur 1.17 og 1.18).<br />
Alternativ splejsning er en af de processer<br />
som gør det muligt for celler at danne forskellige<br />
mRNA’er ud fra samme gen. Denne type<br />
proces har man tidligere anset for relativt sjældent<br />
forekommende, men med nye studier,<br />
Præ-mRNA<br />
1 2 3<br />
1 2<br />
Figur 1.17 Alternativ splejsning, hvor det ene<br />
mRNA består af exon 1 og 2, mens det andet består af<br />
exon 1 og 3, fra samme gen. Til højre i figuren er skitseret<br />
de resulterende proteiner med forskellige funktionelle<br />
domæner.<br />
13<br />
27
18209 01.fm7 Page 28 Friday, March 3, 2006 12:37 PM<br />
1 <strong>Menneskets</strong> <strong>genom</strong><br />
baseret på bl.a. råskitsen af det humane <strong>genom</strong>,<br />
regner man nu med at den slags RNA-processering,<br />
er almindeligt forekommende. Dette<br />
betyder, at et givet gen kan danne grundlag for<br />
dannelsen af flere forskellige isoformer af proteiner.<br />
Det forhold at der kan dannes forskellige<br />
proteiner fra samme gen betyder ikke nødvendigvis<br />
at de forskellige proteiner laves af<br />
samme celle eller celletype. Det synes snarere<br />
som om der i én celletype anvendes én exonkombination<br />
i mRNA’et, mens der i en anden<br />
celletype anvendes en anden kombination. Eksempelvis<br />
koder et α-tropomyosin-gen for forskellige<br />
isoformer af proteinet, der regulerer<br />
kontraktionen i muskelceller, men som formentlig<br />
har andre funktioner i andre celletyper<br />
(Figur 1.18).<br />
<strong>Menneskets</strong> gener udviser stor variation i størrelse<br />
og intern organisation<br />
Hos bakterier er generne som regel ret små og<br />
relativt ens i størrelse, hvorimod der hos mere<br />
komplekse organismer er meget stor variation i<br />
genernes størrelse. Hos mennesket kan længden<br />
af generne variere fra at være nogle få hundrede<br />
basepar til flere megabaser (Figur 1.19 og 1.20).<br />
28<br />
3’<br />
5’<br />
5’<br />
5’<br />
5’<br />
5’<br />
5’<br />
α-tropomyosin-gen<br />
Transkription + splejsning<br />
3’<br />
3’<br />
5’<br />
3’<br />
DNA<br />
Muskel-mRNA<br />
3’ Glat muskel-mRNA<br />
3’ Fibroblast-mRNA<br />
3’ Fibroblast-mRNA<br />
Hjerne-mRNA<br />
Figur 1.18 Eksempel på alternativ splejsning, hvor de enkelte splejningsmønstre er specifikke for de enkelte celler.<br />
α-Tropomyosin har betydning for muskel-kontraktionen, mens dets rolle i andre celler er uklar. Pilene angiver steder<br />
for polyadenyleringssignaler.<br />
Som man måske kunne forvente, er der en<br />
positiv korrelation mellem størrelsen af genet<br />
og størrelsen af gen-produktet – jo større gen,<br />
desto større protein. Men der findes undtagelser;<br />
fx kodes proteinet apolipoprotein B, der<br />
består af 4.563 aminosyrer, af et gen på ca. 45<br />
kb, mens muskelproteinet dystrofin, som er<br />
3.685 aminosyrer langt, kodes af et gen på<br />
2.400 kb – altså næsten samme antal aminosyrer<br />
i de to proteiner, men mindst 50 gange forskel<br />
i genernes størrelse.<br />
Der synes at være en negativ korrelation mellem<br />
gen-størrelsen og den andel af gen-længden<br />
som findes udtrykt på mRNA-niveau,<br />
hvilket omskrevet betyder at jo større gen, jo<br />
mindre er den relative exon-andel af hele genet.<br />
Dette skyldes ikke at exons i store gener er<br />
mindre end exons i små gener. I stedet er forklaringen<br />
at store gener har lange intron-sekvenser,<br />
hvilket søjlediagrammerne i Figur 1.20<br />
illustrerer.<br />
Mange gener har en <strong>genom</strong>isk udstrækning<br />
på over 100 kb; det størst kendte er dystrofingenet<br />
(DMD, det gen der er muteret ved Duchennes<br />
muskeldystrofi), der er på 2,4 Mb. Variationen<br />
i størrelsesfordelingen af de kodende
18209 01.fm7 Page 29 Friday, March 3, 2006 12:37 PM<br />
β-globin<br />
HPRT<br />
»CAT«<br />
»GC-rig«<br />
»TATA«<br />
»TATA«<br />
sekvenser er mindre ekstrem, og man har beregnet<br />
at gennemsnitslængden for en exon hos<br />
mennesket er ca. 200 bp, selvom der forekommer<br />
yderligheder. Det kan bl.a. nævnes at genet<br />
for det gigantiske muskelprotein titin (med isoformer<br />
på op til 33.000 aminosyrers længde)<br />
har den til dato længste samlede kodende gensekvens<br />
på 114.414 basepar (ud af ialt 294 kb),<br />
fordelt på det ligeledes største antal exons (363)<br />
og med den ligeledes størst kendte enkeltexon<br />
(17,1 kb).<br />
Som det fremgår af ovenstående, kan antallet<br />
af exons og introns samt deres størrelse variere<br />
ganske betydeligt, og som følge heraf varierer<br />
størrelsen af de enkelte gener også ganske meget.<br />
Et gennemsnitsgen hos mennesket har ca.<br />
9 exons med en middellængde på ca. 200 bp, en<br />
samlet intronlængde på ca. 3 kb, 27 kb i<br />
<strong>genom</strong>isk udstrækning og koder for et polypeptid<br />
på ca. 450 aminosyrer.<br />
Der findes også eksempler, om end få, på gener<br />
hos mennesket som mangler introns, men<br />
1 2 3<br />
0 0,5 1,0 1,5 2,0 kb<br />
1 2 3 4 5 6 78 9<br />
0 25 50 kb<br />
Faktor VIII<br />
1 2-6 7 - 13 14 15 - 22 7 - 13 26<br />
0 50 100 150 200 kb<br />
Genomets struktur<br />
Figur 1.19 Tre eksempler på gener hos mennesket. De enkelte exons er nummererede. »CAT«, »TATA« og »GC-rig«<br />
er regulatoriske elementer i opstrøms regionen (promotor-regionen).<br />
HPRT = hypoxanthin-guanin-phosphoribosyl-transferase.<br />
disse gener er generelt små (fx histon-gener og<br />
tRNA-gener, Figur 1.20).<br />
Genernes fordeling i <strong>genom</strong>et<br />
Som tidligere anført kan man beregne, at der<br />
ville være ét gen pr. ca. 120 kb <strong>genom</strong>sekvens,<br />
hvis generne var jævnt fordelt (omkring 27.000<br />
gener fordelt over 3,1 Gb). Det er de imidlertid<br />
ikke, og man har fundet at gentætheden varierer<br />
et sted mellem 0 og 64 gener pr. 100 kb.<br />
Denne ulige fordeling i <strong>genom</strong>et kendte man til<br />
længe før råskitsen af <strong>genom</strong>et var færdiggjort,<br />
og denne viden var resultatet af forskellige typer<br />
studier, bl.a. Giemsa-farvning af kromosomerne,<br />
som giver et kromosomspecifikt båndmønster<br />
(Boks 1.4).<br />
Man ved fra andre undersøgelser at farvestoffet<br />
Giemsa har en højere affinitet for AT-rige<br />
DNA-regioner, og man vidste yderligere, at<br />
hos mennesket er ca. 60% af DNA’ets basepar<br />
AT-par. Det var derfor oplagt at antage at de<br />
29
18209 01.fm7 Page 30 Friday, March 3, 2006 12:37 PM<br />
1 <strong>Menneskets</strong> <strong>genom</strong><br />
mørke G-bånd i kromosomerne må have et<br />
AT-indhold som ligger over 60%.<br />
Cytogenetiske undersøgelser sammenholdt<br />
med kliniske observationer tydede endvidere på<br />
at der måtte være færre gener i de mørke G-<br />
30<br />
Klasse I HLA 46%<br />
β-globin 38%<br />
Insulin 33%<br />
α-interferon 100%<br />
Histon H4 100%<br />
tRNA 100%<br />
0 2 4 6<br />
Phenylalaninhydroxylase<br />
3%<br />
LDL-receptor 11%<br />
Apolipoprotein B 33%<br />
HPRT 4%<br />
α1 (II) collagen 20%<br />
Serumalbumin 12%<br />
kb 0 20 40 60 80 100 kb<br />
Dystrophin 0,6%<br />
Utrophin 1,4%<br />
NF1 4%<br />
CFTR 2,4%<br />
Faktor VIII 3%<br />
0 500<br />
1000 1500 2000 2500<br />
Figur 1.20 Eksempler på gen-størrelser i kb. Exon-indhold er angivet som % ud for hver søjle. Bemærk den omvendte<br />
relation mellem gen-størrelse og exon-indhold.<br />
NF1 = neurofibromatose type 1-genet, CFTR = cystic fibrosis transmembrane regulator.<br />
Boks 1.4<br />
G-båndmønster Egenskaber<br />
Mørke bånd Indeholder AT-rigt DNA.<br />
Replikeres sent i S-fasen, men<br />
kondenserer tidligt i cellecyklus.<br />
Gen-fattigt (indeholder hovedsageligt<br />
vævsspecifikke gener).<br />
Generne kan være store pga. meget<br />
lange introns.<br />
Lyse bånd Indeholder GC-rigt DNA.<br />
Replikeres tidligt i S-fasen, men<br />
kondenserer sent i cellecyklus.<br />
Gen-rigt (både husholdningsgener<br />
og vævsspecifikke).<br />
Generne er relativt små, primært<br />
pga. små introns.<br />
bånd og som følge heraf at de lyse G-bånd måtte<br />
indeholde flere gener end målt gennemsnitligt<br />
over <strong>genom</strong>et. En forudsigelse som er bekræftet<br />
af det humane <strong>genom</strong>projekt. Det er<br />
også påvist, at subtelomer-regionerne, dvs. regionerne<br />
100-300 kb centromert for telomererne<br />
(se Figur 1.10B), der er lyse ved G-båndfarvning,<br />
har den største gentæthed overhovedet<br />
i <strong>genom</strong>et.<br />
Hvilke typer gener indeholder det humane <strong>genom</strong>?<br />
Man kan gruppere generne hos eukaryote organismer<br />
på forskellig måde. Én måde er at inddele<br />
dem efter deres funktion, hvilket har den<br />
fordel at man fra disse ret brede funktionelle<br />
grupper (Figur 1.21) kan underinddele i et hierarkisk<br />
system med stigende specificitet og opnå<br />
en funktionel beskrivelse hvor der bliver gradvis<br />
færre gener i hver gruppe.<br />
En ulempe som denne inddeling ikke tager<br />
højde for, er at der er mange gener som vi endnu<br />
ikke kender den samlede funktion af, hvor-<br />
kb
18209 01.fm7 Page 31 Friday, March 3, 2006 12:37 PM<br />
Andre<br />
aktiviteter<br />
38%<br />
Ekspression,<br />
replikation etc. 23%<br />
Signaltransduktion<br />
21%<br />
Figur 1.21 Gener inddelt efter funktion<br />
Almene<br />
biokemiske<br />
cellulære<br />
funktioner 18%<br />
for de ved denne type inddeling må udelades fra<br />
en funktionel beskrivelse.<br />
En bedre metode, som man nu benytter, er at<br />
anvende en klassifikation, som baserer sig på de<br />
enkelte strukturelle enheder i proteinerne, og<br />
altså ikke proteinets samlede funktion som sådan.<br />
Et typisk proteinmolekyle er opbygget af<br />
en række forskellige domæner, som hver især<br />
har en biokemisk funktion. Hver type domæne<br />
har en karakteristisk aminosyresekvens, som<br />
måske ikke er helt præcis den samme i alle de<br />
proteiner det forekommer i, men tæt nok på sådan<br />
at funktionen ikke varierer nævneværdigt<br />
når man sammenligner domænerne de enkelte<br />
proteiner imellem.<br />
Med afslutningen af det human <strong>genom</strong>projekt<br />
har man fundet at næsten alle proteiner har<br />
større eller mindre strukturelle ligheder med<br />
hinanden. Kendskab til disse forhold er vigtig<br />
for forståelsen af genernes evolution og udvik-<br />
Genomets struktur<br />
ling. Der er på internationalt plan udarbejdet<br />
en omfattende webdatabase (Structural Classification<br />
of Proteins, SCOP, se Kap. 17 side 254),<br />
hvor alle kendte proteiner er organiseret i henhold<br />
til deres evolutionære og strukturelle<br />
slægtsskab. Protein-domæner med fælles almen<br />
funktion tilhører en familier – det er i denne<br />
sammenhæng værd at bemærke, at proteiner<br />
eller gener kan tilhøre flere familier afhængigt<br />
af hvor mange domæner de indeholder. Som et<br />
par eksempler på domænefamilier kan nævnes<br />
DEAD box-familien og WD-repeat-familien.<br />
DEAD box-familien indeholder aminosyresekvensen:<br />
Asp-Glu-Ala-Asp; med ét-bogstavkoden:<br />
D-E-A-D (Tabel 17.2, side 250).<br />
Blandt DEAD box-proteinerne er RNA-helicaser<br />
de mest almindelige og er involveret i<br />
næsten alle processer vedrørende RNA bl.a.<br />
som co-aktivator af transkriptionen ved at<br />
hjælpe til med adskillelsen af DNA-strengene i<br />
dobbelt-helixen. WD-repeat-familien indeholder<br />
aminosyre-sekvensen: Trp-Asp sv.t. W-D<br />
i ét-bogstav-koden. Proteiner med WD-repeats<br />
er involveret i protein-protein-interaktioner<br />
og regulerer en række forskellige cellulære<br />
funktioner, bl.a. kromatin-remodellering og<br />
transkription.<br />
Man kan også se på hvordan antallet af protein-domæner<br />
i <strong>genom</strong>er fra forskellige organismer<br />
fordeler sig (Tabel 1.3). Som det ses anvender<br />
de mere komplekse organismer de enkelte<br />
typer domæner i flere gener ligesom de også har<br />
Tabel 1.3 Eksempler på forskellige <strong>genom</strong>ers indhold af gener der koder for proteindomæner<br />
Antal gener i <strong>genom</strong>et som koder for domænet<br />
Domæne Funktion Mennesket Bananfluen Gær<br />
Zinkfinger, C2H2-type<br />
Zinkfinger, GATA-type<br />
Homeobox<br />
Death<br />
Connexin<br />
Ephrin<br />
DNA-binding<br />
DNA-binding<br />
Gen-regulering ved fx fosterudvikling<br />
Programmeret celledød<br />
Elektrisk kobling mellem celler<br />
Nervecellevækst<br />
564<br />
011<br />
160<br />
016<br />
014<br />
007<br />
234<br />
005<br />
100<br />
005<br />
000<br />
002<br />
034<br />
009<br />
006<br />
000<br />
000<br />
000<br />
31
18209 01.fm7 Page 32 Friday, March 3, 2006 12:37 PM<br />
1 <strong>Menneskets</strong> <strong>genom</strong><br />
flere typer domæner. Eksempler på det første er<br />
zinkfinger-motiverne (C2H2- og GATA-typerne).<br />
Det er domæner der gør proteinet i stand<br />
til at binde til DNA. Som det fremgår af tabellen<br />
har mennesket mere end 500 gener, hvor<br />
disse domæner forekommer. I bananfluen og<br />
gær forekommer disse domæner i færre antal<br />
gener hhv. 239 og 43.<br />
Disse forskelle er sandsynligvis resultatet af en<br />
evolutionær proces hvor exons fra forskellige<br />
gener er blevet kopieret og splejset sammen, såkaldt<br />
exon shuffling (Figur 1.22). Man har eksperimentelt<br />
påvist at visse af de komplekse proteiner<br />
hos mennesket har domæner som meget<br />
ligner bakteriers simple proteiner således at proteindomæner<br />
med meget grundlæggende biokemiske<br />
funktioner, har en høj grad af sekvenslighed<br />
selv mellem meget simple og meget<br />
komplekse organismer.<br />
Det funktionelle antal gener i et <strong>genom</strong> kan<br />
øges på andre måder, hvoraf man nu kender to<br />
typer usædvanlig gen-organisation: 1) overlappende<br />
gener, og 2) gener-i-gener.<br />
32<br />
NH 2 COOH EGF<br />
NH 2 COOH Chymotrypsin<br />
NH 2 COOH Urokinase<br />
NH 2 COOH Faktor IX<br />
NH 2 COOH Plasminogen<br />
Figur 1.22 Nogle resultater af exon shuffling. Hvert<br />
symbol repræsenterer en familie af proteindomæner,<br />
som hver består af 30-50 aminosyrer. Domænerne repræsenterer<br />
exons som på et tidspunkt i evolutionsforløbet<br />
er forenet for at danne nye, større og mere<br />
komplekse proteiner. Ud for hvert protein er angivet<br />
dets navn.<br />
EGF = epidermal growth factor.<br />
DNA-sekvens<br />
(L-strengen)<br />
Start<br />
Met Leu…<br />
5'–CCAATGCTAA–3'<br />
…Gln<br />
Cys Stop<br />
Gen<br />
ND4<br />
ND4L<br />
Figur 1.23 Overlappende gener i mitokondrie-DNA,<br />
jf. Figur 1.27. Begyndelsen af genet ND4 overlapper<br />
afslutningen af genet ND4L. Aminosyresekvenserne i<br />
hhv. begyndelsen og afslutningen af de to polypeptider<br />
er anført i trebogstavkode. Det ses at læserammerne<br />
for de to gener er forskudt i forhold til hinanden.<br />
Gener der overlapper hinanden har enten<br />
hver sin template-streng eller deres mRNA’er<br />
translateres i overlapsområdet i hver sin læseramme,<br />
dvs aflæsningen af mRNA-sekvenserne<br />
sker med forskellige og faseforskudte startpunkter.<br />
Overlappende gener findes ofte i små kompakte<br />
<strong>genom</strong>er som fx virus<strong>genom</strong>er. De er<br />
sjældne i nukleære <strong>genom</strong>er fra højerestående<br />
eukaryoter. Der er et enkelt eksempel på et beskedent<br />
overlap i det kompakte mitokondrie<strong>genom</strong><br />
(Figur 1.23).<br />
Den anden type, gener-i-gener, er derimod<br />
relativt hyppigt forekommende i nukleære <strong>genom</strong>er.<br />
Et eksempel herpå i det humane <strong>genom</strong><br />
ses i neurofibromatose type 1-genet (NF1) som<br />
i intron 35 indeholder tre små gener, OMG,<br />
EVI2A og EVI2B (Figur 1.24). Hvert af disse<br />
»interne« gener er igen opdelt i egne exons og<br />
introns. Sådanne gener transkriberes ofte omvendt<br />
i forhold til værtsgenets transkriptionsretning<br />
– eller, sagt med andre ord, disse »interne«<br />
gener har værtsgenets ikke-template-streng som<br />
deres egen template-streng. Et andet eksempel er<br />
snoRNA-gener (small nucleolar RNA, som er<br />
ikke-kodende RNA der kemisk modificerer<br />
andre RNA’er) som ligeledes er beliggende i<br />
andre geners intron-sekvenser.
18209 01.fm7 Page 33 Friday, March 3, 2006 12:37 PM<br />
3’<br />
5’<br />
Neurofibromatose type 1-genet<br />
Intron 35<br />
OMG EVI2B EVI2A<br />
5kb<br />
Genfamilier: Multigenfamilier og superfamilier<br />
Når man taler om genfamilier er det vigtigt at<br />
huske at det humane <strong>genom</strong>, som det ser ud i<br />
dag, er resultatet af en lang evolutionær proces<br />
som stadig pågår.<br />
Genfamilier kan inddeles efter deres evolutionære<br />
og strukturelle fællesskab (Boks 1.5).<br />
Den ene familie defineres som en gruppe af gener<br />
eller proteiner, der har sekvenshomologi<br />
med relaterede overlappende funktioner og<br />
hvor der er et klart evolutionært slægtskab. Er<br />
det en gruppe af proteiner eller gener, hvor der<br />
er en fælles evolutionær oprindelse, men hvor<br />
der ikke er overlappende funktioner, defineres<br />
de som tilhørende en superfamilie. Det er værd<br />
at bemærke at et protein eller gen godt kan til-<br />
5’<br />
3’<br />
Figur 1.24 Gener-i-gener. Forekommer relativt hyppigt<br />
i det nukleære <strong>genom</strong>, hvor genet er indeholdt i en<br />
intron af et andet gen. Et eksempel herpå er neurofibromatose<br />
type 1 genet, som indeholder tre små gener<br />
(OMG, EVI2A og EVI2B) i intron 35. Hvert af de små interne<br />
gener har egne exons og introns. Generne er<br />
skitseret på deres template-streng og pilene viser<br />
transkriptionsretningen (jf. Figur 1.16).<br />
OMG = oligodendrocyte myelin glycoprotein<br />
EVI = ectopic viral integration site<br />
Boks 1.5 Klassifikation af genfamilier med<br />
angivelse af kendte antal (oktober 2004).<br />
1. Familier, hvor der er et klart evolutionært slægtskab<br />
(2845 familier).<br />
2. Superfamilier, hvor der er en fælles evolutionær<br />
oprindelse (1539 superfamilier).<br />
3. Protein-domæner (folds), hvor der eksisterer strukturelle<br />
ligheder (945 foldninger).<br />
α-globin-genklyngen<br />
Kromosom 16p<br />
Genomets struktur<br />
ζ ψζ ψα2 ψα1 α2 α1 θ<br />
5’ 3’<br />
β-globin-genklyngen<br />
Kromosom 11p<br />
ε Gγ Aγ ψβ δ β<br />
5’ 3’<br />
0 20 40 60 kb<br />
Figur 1.25 <strong>Menneskets</strong> α- og β-globin-genklynger.<br />
Begge klynger indeholder gener som udtrykkes på forskellige<br />
trin i individets udvikling. Gen-klyngerne indeholder<br />
flere pseudogener (ψζ, ψα1, ψα2, ψβ og θ), se<br />
side 34.<br />
høre flere superfamilier. Hvis der er områder,<br />
domæner, hvor der kun er mindre, strukturelle<br />
ligheder mellem proteiner eller gener, kan de<br />
inddeles herefter.<br />
Visse genfamiliers gen-ekspression er mere<br />
eller mindre fælles mens andre ikke har koordineret<br />
regulation heraf. Disse forskelle synes at<br />
være resultatet af en evolutionær proces som<br />
har haft betydning for deres <strong>genom</strong>iske organisation.<br />
Hvis man ser på hvordan de forskellige genfamilier<br />
er organiseret i <strong>genom</strong>et kan man skelne<br />
mellem tre overordnede typer af arrangementer:<br />
1. Familier, hvor generne ligger i relativt tætte<br />
klynger (clusters) og som har et evolutionært<br />
og funktionelt slægtskab. Som eksempler<br />
herpå kan nævnes multigenfamilien for ribosomalt<br />
RNA (rRNA) og histon-multigenfamilien.<br />
Andre genfamilier har lidt mere forskelligartede<br />
funktioner, hvor de bedst<br />
kendte eksempler er α- og β-globin-generne,<br />
som er beliggende på hhv. kromosom<br />
16p og 11p (Figur 1.25). Man regner med at<br />
de er opstået ved gentagne duplikationer i<br />
løbet af hvirveldyrenes evolution gennem de<br />
33
18209 01.fm7 Page 34 Friday, March 3, 2006 12:37 PM<br />
1 <strong>Menneskets</strong> <strong>genom</strong><br />
seneste 500 millioner år. Disse to klynger af<br />
gener koder for globin-kæder, der udtrykkes<br />
på forskellige udviklingstrin fra embryonet<br />
til det fødte individ. Til denne familie hører<br />
også myoglobin-genet på kromosom 22q.<br />
Flere af α- og β-globin-genklyngernes genlignende<br />
sekvenser producerer ikke noget<br />
RNA- eller protein-produkt, og de er således<br />
uden kendt funktion. Sådanne ikke-fungerende<br />
gen-lignende sekvenser kaldes<br />
pseudogener (se nærmere næste spalte).<br />
2. Superfamilier, hvor generne både ligger i<br />
klynger og spredt i <strong>genom</strong>et. De gener, som<br />
ligger i klynger danner ofte multigen-familier<br />
med overlappende funktioner, mens de<br />
der ligger spredt har mere forskelligartede<br />
funktioner. Den største genfamilie i menneskets<br />
<strong>genom</strong> er måske immunglobulin-gensuperfamilien,<br />
der består af gener på kromosom<br />
6 (HLA-vævstype-antigen-komplekset),<br />
på kromosomerne 7 og 14 (T-celle-receptor-gener)<br />
og på kromosomerne 2, 14 og<br />
22 (gener for immunglobulinernes tunge og<br />
lette kæder).<br />
3. Familier, hvor generne kun findes spredt i<br />
<strong>genom</strong>et. Mange af de spredte genfamilier<br />
mener man er dannet ved revers transkription<br />
af RNA og efterfølgende integrering i<br />
<strong>genom</strong>et. Den integrerede sekvens, også kaldet<br />
retrosekvens, er deriveret fra mRNAtranskriptet<br />
af det oprindelige gen og indeholder<br />
derfor ikke introns. De fleste af disse<br />
retrosekvenser er degenererede og blevet til<br />
pseudogener, men nogle få sekvenser har bevaret<br />
deres funktion – en sådan funktionel<br />
retrosekvens benævnes retrogen eller processeret<br />
gen. Det autosomale gen for enzymet<br />
phosphoglyceratkinase (PGK2) beliggende<br />
på 6p er et eksempel herpå. Det er interessant,<br />
at ekspressionsmønstret for dette<br />
gen er forskelligt fra det oprindelige gens<br />
(PGK1), som ligger på X-kromosomet.<br />
34<br />
Ikke-kodende DNA<br />
Det ikke-kodende DNA udgør omkring 1.052<br />
Mb og kan inddeles i følgende 3 grupper: 1)<br />
pseudogener, 2) gen-fragmenter, og 3) introns<br />
og UTR’er.<br />
Et pseudogen defineres som et <strong>genom</strong>isk<br />
DNA-segment som i sin basesekvens ligner et<br />
regulært funktionelt gen, men som ikke har noget<br />
(funktionelt) genprodukt. Et pseudogen,<br />
der har en høj grad af lighed med et funktionelt<br />
gen betegnes ligesom dette, men med ψ foran<br />
gen-symbolet (jf. pseudogenerne i globingenklyngerne,<br />
Figur 1.25). Denne gruppe af<br />
pseudogener anses for at være evolutionære<br />
restprodukter, som er blevet inaktiveret af mutationer<br />
i deres kodende og/eller regulatoriske<br />
sekvenser. En anden gruppe pseudogener er tilsyneladende<br />
opstået ved en proces, hvor en ekstra<br />
DNA-kopi er dannet fra mRNA ved revers<br />
transkription og efterfølgende integrering heraf<br />
i <strong>genom</strong>et (retrotransposon). Sådanne pseudogener<br />
mangler introns og kaldes ofte for processerede<br />
pseudogener. De er typisk beliggende i<br />
en anden kromosom-region end det gen hvis<br />
mRNA de er en kopi af. Der er beskrevet i alt<br />
ca. 15.000 pseudogener i menneskets <strong>genom</strong>.<br />
Gen-fragmenter er en anden gruppe af genrester<br />
der er en følge af evolutionen. Denne<br />
gruppe består af trunkerede gener og andre<br />
gen-segmenter. De trunkerede gener mangler<br />
en større eller mindre del af den ene ende af det<br />
fuldstændige gen, mens gen-segmenterne er<br />
små isolerede regioner fra det oprindelige gen.<br />
Introns er omtalt ovenfor (side 26 og Figur<br />
1.15). UTR står for untranslated region som er<br />
betegnelse for nogle andre, ikke-translaterede<br />
regioner i proteinkodende gener. Der findes<br />
typisk 2 sådanne regioner i hvert proteinkodende<br />
gen, hhv. opstrøms (5'-UTR) og<br />
nedstrøms (3'-UTR) for den proteinkodende<br />
sekvens. UTR-sekvenserne transkriberes, og i
18209 01.fm7 Page 35 Friday, March 3, 2006 12:37 PM<br />
Tabel 1.4 De forskellige typer af interspersed repeat DNA i menneskets <strong>genom</strong>.<br />
modsætning til introns udsplejser de ikke fra<br />
præ-mRNA’et.<br />
Intergenisk DNA<br />
Intergenisk DNA er det DNA som ligger mellem<br />
generne. Det udgør omkring 5 af hele <strong>genom</strong>et,<br />
og ca. 70% heraf udgøres af repeterede<br />
DNA-sekvenser (repetitivt DNA).<br />
Det er fortsat uafklaret hvorfor <strong>genom</strong>et indeholder<br />
så megen tilsyneladende nyttesløst<br />
DNA (junk DNA). En af hypoteserne går på, at<br />
der ikke er et selektiontryk for at fjerne det,<br />
hvorfor det tolereres. Man mener, at det repetitive<br />
DNA mindsker sandsynligheden for at<br />
mutationer rammer vigtige gener og derfor har<br />
været en selektiv fordel. Der er også undersøgelser<br />
som tyder på at det repetitive DNA kan<br />
være medvirkende til dannelsen af nye gener,<br />
gen-domæner eller regulatoriske områder.<br />
Intergenisk DNA kan inddeles i to overordnede<br />
grupper: 1) interspersed repeats, hvis individuelle<br />
repeterede enheder er fordelt over hele<br />
<strong>genom</strong>et på en tilsyneladende tilfældig måde og<br />
Genomets struktur<br />
Type af repeat Undertype Størrelse på repeat-enhed Antal kopier % af <strong>genom</strong>et<br />
SINEs:<br />
Short Interspersed<br />
Nuclear Elements<br />
LINEs:<br />
Long Interspersed<br />
Nuclear Elements<br />
Alu<br />
MIR-familier<br />
LINE-1 (Kpn)<br />
LINE-2<br />
LINE-3<br />
LTR-elementer:<br />
Long Terminal Repeats ERV klasse I<br />
ERV(K) klasse II<br />
ERV(L) klasse III<br />
MaLR<br />
Andre DNA-transposoner<br />
hAT<br />
Tc-1<br />
PiggyBack<br />
Uklassificeret<br />
Fuld længde 0,3 kb<br />
Middelstørrelse 0,13 kb<br />
Fuld længde 6,1 kb, men<br />
Middelstørrelse 0,8 kb<br />
Middelstørrelse 0,25 kb<br />
-<br />
- Middelstørrelse 1,3 kb<br />
-<br />
Middelstørrelse 0,5 kb<br />
Varierende, men middelstørrelse<br />
måske 0,25 kb<br />
Middelstørrelse måske 0,4 kb<br />
1.558.000<br />
1.090.000<br />
468.000<br />
868.000<br />
516.000<br />
315.000<br />
037.000<br />
443.000<br />
112.000<br />
8.000<br />
83.000<br />
240.000<br />
294.000<br />
195.000<br />
75.000<br />
2.000<br />
60.000<br />
10%<br />
2%<br />
5-13%<br />
2,1%<br />
0,2%<br />
-<br />
0,2%<br />
-<br />
4%<br />
2,5%<br />
0,8%<br />
2) tandem-repeteret DNA hvis repeterede enheder<br />
ligger ved siden af hinanden på række.<br />
Interspersed repeats<br />
Omkring 44% af menneskets <strong>genom</strong> udgøres af<br />
interspersed repeat DNA. Det er nukleotidsekvenser<br />
som er deriveret fra såkaldte transposoner.<br />
Man mener at de har en vigtig funktion i<br />
<strong>genom</strong>ets evolution. Der findes 4 typer af transposoner:<br />
SINEs, LINEs, LTR-elementer og<br />
andre DNA-transposoner (Tabel 1.4).<br />
Transposoner kaldes sådan fordi de udviser<br />
mobilitet idenfor <strong>genom</strong>et, enten ved at skifte<br />
plads af og til (»jumping genes«) eller – hyppigere<br />
– ved at blive kopieret ind på en anden lokalitet.<br />
Dette sker via et intermediært RNA-produkt,<br />
som ved revers transkription danner<br />
DNA, der indsættes som en ny kopi, kaldet en<br />
retrotransposon, et andet sted i <strong>genom</strong>et (se også<br />
afsnittet Insertion ved transposition side 68).<br />
Transposoner er meget udbredte i <strong>genom</strong>et<br />
og hyppige i gen-relaterede sekvenser, herunder<br />
untranslated regions (UTRs). De kan have regulerende<br />
funktioner i <strong>genom</strong>et ved bl.a. at ud-<br />
35
18209 01.fm7 Page 36 Friday, March 3, 2006 12:37 PM<br />
1 <strong>Menneskets</strong> <strong>genom</strong><br />
gøre alternative promotorer i forskellige gener<br />
(se side 47, herunder Figur 1.31 for nærmere<br />
beskrivelse heraf).<br />
Blandt de forskellige transposoner er de primat-specifikke<br />
Alu-sekvenser blandt de hyppigst<br />
forekommende med 1,1 million kopier.<br />
De udgør i alt ca. 10% af <strong>genom</strong>et. Alu-elementerne<br />
er 300bp repeat-enheder, og man har<br />
påvist at de bl.a. har betydning for <strong>genom</strong>isk regulation<br />
af gen-ekspressionen. Nyere undersøgelser<br />
tyder på at de kan have patogenetisk betydning<br />
også.<br />
Et eksempel på et meget »Alu-rigt« gen er<br />
BRCA1-genet, som er involveret i arvelig disposition<br />
til mamma- og ovarie-cancer. Genet<br />
har en <strong>genom</strong>isk udstrækning på ca. 80 kb og<br />
omkring 40% heraf udgøres af Alu-sekvenser.<br />
Man har påvist, at BRCA1-mRNA forekommer<br />
i to former – den ene med en kort 5'-UTR,<br />
som udtrykkes i normalt mamma-væv. Den anden<br />
form har en længere 5'-UTR, som følge af<br />
Alu-element-insertion, og udtrykkes i mammacancer-væv<br />
ved den sporadiske form. Når<br />
5'-UTR-regionen er blevet forlænget som følge<br />
af Alu-element-insertion i BRCA1-mRNA bliver<br />
translationseffektiviteten reduceret med<br />
90%. Ved den arvelige form for mamma-cancer<br />
har man fundet mutationer i BRCA1-genet,<br />
som medfører nedsat funktion af BRCA1-proteinet.<br />
Den patofysiologiske mekanisme i de to<br />
situationer er den samme, nemlig nedsat funktion<br />
af BRCA1-proteinet, men den genetiske årsag<br />
er forskellig.<br />
Af andre sygdomme, hvor man har fundet at<br />
transposoner spiller en rolle, kan bl.a. nævnes<br />
hæmofili A (Faktor VIII) og B (Faktor IX) og<br />
prædisposition til colonpolypper og -cancer<br />
(APC-genet).<br />
Tandemrepeteret DNA<br />
Tandemrepeteret DNA er almindeligt forekommende<br />
i eukaryote <strong>genom</strong>er, inklusive<br />
36<br />
menneskets. Denne type af repeteret DNA kaldes<br />
satellit-DNA, fordi DNA-fragmenter indeholdende<br />
tandemrepeterede sekvenser danner<br />
satellitbånd (bånd ved siden af hovedbåndet)<br />
når det <strong>genom</strong>iske DNA fraktioneres ved densitetsgradientcentrifugering<br />
(Figur 1.26).<br />
Disse familier består af blokke (arrays) af<br />
tandemt repeterede DNA-sekvenser. De enkelte<br />
blokke kan forekomme på få eller på mange<br />
kromosomale lokalisationer og kan have betydning<br />
i forbindelse med eksempelvis den rekombination<br />
der foregår under meiosen samt<br />
for dannelsen af duplikationer (Figur 3.1 og<br />
3.9). Afhængigt af størrelsen af den repeterede<br />
enhed kan det stærkt repeterede ikke-kodende<br />
DNA inddeles i fire grupper: 1) megasatellit-<br />
DNA; 2) satellit-DNA; 3) minisatellit-DNA;<br />
og 4) mikrosatellit-DNA (Tabel 1.5).<br />
Megasatellit–DNA-gruppen består af blokke<br />
som samlet er op imod 1 Mb i længde. Den<br />
enkelte repeat-enhed er 2-5 kb lang og er moderat<br />
repeteret.<br />
1,60<br />
1,65<br />
1,70<br />
1,75<br />
1,80<br />
g/cm 3<br />
Satellitbånd<br />
Hovedbånd<br />
Figur 1.26 Gradientcentrifugering af DNA fra menneskeceller.<br />
Repeterede DNA-fragmenter migrerer til<br />
en satellitposition oven over hovedbåndet pga. forskelle<br />
i GC-indhold. Begrebet »satellit-DNA« kommer<br />
af den måde hvorpå dette repetitive DNA er blevet oprenset<br />
fra den resterende del af DNA’et i en menneskecelle<br />
(hovedbånd). Det foregår ved en såkaldt densitetsgradientcentrifugering<br />
ved et meget højt antal<br />
omdrejninger (ultracentrifugering) med anvendelse af<br />
en CsCl (cæsiumklorid)-gradient.
18209 01.fm7 Page 37 Friday, March 3, 2006 12:37 PM<br />
Tabel 1.5 Tandemrepeteret DNA.<br />
Gruppe Størrelse på<br />
repeat enhed<br />
Megasatellit-DNA (blokke er på op mod Mange kb<br />
hundrede kb)<br />
RS447<br />
Ikke navngivet<br />
Ikke navngivet<br />
Satellit-DNA (blokke er på 100 kb til mange<br />
Mb i længden)<br />
α-satellit-DNA (alphoid DNA)<br />
β-satellit-DNA (Sau3A-familie)<br />
Satellit 1 (AT-rigt)<br />
Satellit 2 og 3<br />
Minisatellit-DNA (blokke er på 0,1-20 kb)<br />
Telomer familie<br />
Hypervariabel familie og<br />
Telomer-associerede repeats<br />
Mikrosatellit-DNA (blokke er ofte mindre<br />
end 150 bp)<br />
4,7 kb<br />
2,5 kb<br />
3,0 kb<br />
5-171 bp<br />
171 bp<br />
68 bp<br />
25-48 bp<br />
5 bp<br />
6-64 bp<br />
6 bp<br />
9-64 bp<br />
1-4 bp<br />
Satellit-DNA-gruppen består af blokke som<br />
samlet kan blive op imod 1-5 Mb i længden.<br />
Den enkelte repeat-enhed er typisk 5-171 bp<br />
lang og repeteret flere tusinde gange. Alphoid<br />
DNA, som findes i centromererne, er et typisk<br />
eksempel herpå.<br />
Minisatellit-DNA består af mindre blokke,<br />
hvor størrelsen af repeat-enheden er på 6-64 bp.<br />
Dette resulterer i samlede repeat-blokke på typisk<br />
mellem 100 bp og 20 kb. De første højvariable<br />
DNA-markører man anvendte i retsgenetiske<br />
undersøgelser (DNA-profilanalyser) var<br />
minisatellitter (se afsnittet Genetiske markører<br />
og markøranalyse, side 69).<br />
Mikrosatellit-DNA udgøres hovedsageligt<br />
af repeterede enheder som sjældent er mere end<br />
4 bp i længden. De betegnes derfor også short<br />
tandem repeats (STR) og udgør ca. 3% af <strong>genom</strong>et.<br />
Det er karakteristisk for mikrosatellitterne<br />
at antallet af repeterede enheder kan ændres,<br />
Kromosomal lokalisation<br />
Genomets struktur<br />
Forskellige lokaliseringer på visse kromosomer<br />
50-70 kopier i 4p15 og flere kopier distalt på 8p<br />
~400 kopier på 4q13 og 19q13<br />
~50 kopier på X-kromosomet<br />
Især ved centromererne<br />
Centromert heterokromatin på alle kromosomer<br />
Centromert heterokromatin på 1,9,13,14,15,21,22 og Y<br />
Centromert heterokromatin på de fleste kromosomer<br />
De fleste, måske alle, kromosomer<br />
Ved eller tæt på telomerer af alle kromosomer<br />
Alle telomerer<br />
Alle kromosomer, ofte tæt på telomerer<br />
Spredt rundt på alle kromosomer<br />
hvilket sandsynligvis skyldes fejl i forbindelse<br />
med DNA-replikationen eller er en følge af<br />
skæv overkrydsning (se Kap. 3). Trinukleotidsygdommene<br />
er eksempler herpå (se side<br />
221ff). En gruppe af disse kaldes polyglutaminsygdomme.<br />
De skyldes en ekspansion i antallet<br />
af trinukleotidet 5'-CAG-3'. Denne enhed er<br />
normalt repeteret et varierende antal gange i<br />
flere gener (fx huntingtin-genet og spinocerebellar<br />
aktasi-generne). Enheden bliver ved disse<br />
gener translateret og koder for aminosyren glutamin.<br />
Når der sker en ekspansion i antallet af<br />
CAG-repeats, forøges antallet af glutamin-enheder<br />
i de ramte proteiner, hvorved disse proteiners<br />
funktion ændres. Man kender til dato 8<br />
forskellige polyglutamin-sygdomme (mere herom<br />
i Kap. 14). Dinukleotid-enheden 5'-CA-3'<br />
er meget almindelig i det humane <strong>genom</strong> og<br />
udgør omkring 0,5% af hele <strong>genom</strong>et. Mononukleotid-enheden<br />
5'-A-3' udgør ca. 0,3%.<br />
37
18209 01.fm7 Page 38 Friday, March 3, 2006 12:37 PM<br />
1 <strong>Menneskets</strong> <strong>genom</strong><br />
Den store variation i længden af mange miniog<br />
mikrosatellitblokke gør dem til vigtige genetiske<br />
markører (se Kap. 3, side 69).<br />
Large-scale copy number variation (LCV)<br />
Man har inden for de seneste år overraskende<br />
fundet en ny type af <strong>genom</strong>variation den såkaldte<br />
large-scale copy number variation (LCV) i<br />
forbindelse med anvendelsen af array komparativ<br />
<strong>genom</strong>hybridisering (CGH, se side 89) er<br />
blevet mere udbredt. Det drejer sig om variationer<br />
der omfatter duplikation eller deletion af<br />
store DNA-segmenter på mellem 100 og 2.000<br />
kb, uden tilsyneladende association med sygdom.<br />
Til dato (2006) er der påvist 255 LCVområder<br />
i <strong>genom</strong>et, og 24 heraf er fundet hos<br />
mere end 10% af de undersøgte personer.<br />
Man forstår endnu ikke betydningen af denne<br />
<strong>genom</strong>variation og kender bl.a. ikke hyppigheden<br />
heraf eller udbredelsen i <strong>genom</strong>et.<br />
Forekomsten af LCV hos fænotypisk normale<br />
individer har udvidet rammerne for den genetiske<br />
variation hos mennesket, og kun fremtiden<br />
kan vise betydningen eller konsekvenserne,<br />
om nogen, af sådanne store polymorfier i <strong>genom</strong>et.<br />
Mitokondrie-DNA (mtDNA)<br />
En somatisk celle indeholder flere hundrede,<br />
evt. – afhængigt af celletypen – flere tusind mitokondrier,<br />
som igen hver især indeholder op<br />
til 10 molekyler mtDNA. Der kan således forekomme<br />
mange tusinde kopier af dette molekyle<br />
i hver celle. For de modne kønscellers vedkommende<br />
er der den dramatiske forskel at et æg indeholder<br />
omkring 100.000 mtDNA-molekyler,<br />
mens en sædcelle i sit langt mindre cytoplasma-volumen<br />
kun indeholder op mod 100<br />
mitokondrier, som yderligere under normale<br />
forhold nedbrydes hvis de indføres i ægcellen<br />
under befrugtningen.<br />
38<br />
Dette er baggrunden for at mitokondrie-<br />
DNA nedarves via ægceller, dvs. i rene kvindelinjer<br />
– såkaldt matroklin arvegang (Kap. 5).<br />
Forekomsten af sygdomsfremkaldende (patogene)<br />
mutationer i mtDNA gør at også denne del<br />
af <strong>genom</strong>et har betydelig medicinsk vigtighed.<br />
Det er derfor nødvendigt at kende til mitokondrie-DNA<br />
og de patogene mtDNA-mutationers<br />
kliniske manifestationer, ligesom det ved<br />
udredning af familieanamnese og fortolkning af<br />
stamtræer er nødvendigt at være opmærksom<br />
på om de foreliggende oplysninger er forenelige<br />
eller uforenelige med matroklin arvegang (se<br />
Kap. 5, Figurerne 5.1e & 5.1f).<br />
mtDNA-molekylet<br />
<strong>Menneskets</strong> mtDNA er et lille, ringsluttet<br />
DNA-molekyle på 16,6 kb.<br />
Den fuldstændige nukleotidsekvens af et<br />
menneske-mtDNA blev offentliggjort for første<br />
gang i 1981 1 . Det pågældende molekyle fandtes<br />
at være på 16.569 bp, og dets sekvens blev straks<br />
(under betegnelsen Cambridge-referencesekvensen<br />
(CRS), eller Anderson-sekvensen) referencesekvens<br />
for alle efterfølgende mtDNAsekvensanalyser<br />
hos mennesket. Til dette formål<br />
har man lige fra begyndelsen benyttet en<br />
fortløbende nummerering af molekylets basepar<br />
med et bestemt basepar i den såkaldte kontrolregion<br />
som nr. 1 (Figur 1.27).<br />
Efterhånden som mange laboratorier verden<br />
over gennemførte sekvensanalyser af mtDNA,<br />
blev det imidlertid klart at der måtte være en<br />
del fejl i den oprindelige referencesekvens. Faktisk<br />
stammede en lille del af sekvensen fra en<br />
anden persons mtDNA, og en anden, mindre<br />
del fra okse-mtDNA. Det har derfor været<br />
nødvendigt at revidere sekvensen, hvilket blev<br />
gjort i 1999, efter at man havde haft lejlighed<br />
1 Anderson S et al. Sequence and organization of the human<br />
mitochondrial <strong>genom</strong>e. Nature 1981; 290: 457-465.
18209 01.fm7 Page 39 Friday, March 3, 2006 12:37 PM<br />
Leu (UUR)<br />
ND1<br />
IIe<br />
Met<br />
ND2<br />
Trp<br />
OL 16S<br />
Gln<br />
Ala<br />
Asn<br />
Cys<br />
Tyr<br />
CO I<br />
Val<br />
12S<br />
til, med nyere og bedre metoder, på ny at sekventere<br />
det oprindelige, bevarede mtDNA fra<br />
Cambridge 1 . Ved revisionen slog man bl.a. fast<br />
at der i 1981-sekvensen var anført et basepar for<br />
meget i position 3106-3107 (i genet for 16S<br />
rRNA). Den reviderede referencesekvens<br />
(rCRS) er således rent faktisk kun på 16.568 bp.<br />
Af hensyn til den allerede meget omfattende lit-<br />
1 Andrews RM et al. Reanalysis and revision of the Cambridge<br />
reference sequence for human mitochondrial DNA.<br />
Nature genetics 1999; 23: 147.<br />
Kontrolregionen<br />
Phe<br />
O H<br />
Thr<br />
Pro<br />
Glu<br />
ND6<br />
L-strengen<br />
Cytb<br />
Ser (UCN)<br />
Asp<br />
Lys<br />
Gly<br />
Arg<br />
ND3<br />
CO III<br />
CO II<br />
ATPase 6<br />
ATPase 8<br />
Mitokondrie-DNA (mtDNA)<br />
H-strengen<br />
ND4<br />
ND4L<br />
teratur om variation i bestemte positioner af<br />
mtDNA-sekvensen, med grundigt indarbejdede<br />
numre der for de allerflestes vedkommende<br />
ville blive ændret ved en konsekvent revision,<br />
har man valgt at bibeholde den oprindelige<br />
nummerering, men med et hul (gap) i sekvensen<br />
sv.t. position 3107.<br />
mtDNA’s kodende funktion<br />
ND5<br />
Leu (CUN)<br />
Ser (AGY)<br />
His<br />
Figur 1.27 Genetisk kort over menneskets mitokondrie-DNA (mtDNA).<br />
mtDNA’ets 37 gener er markeret på den af de to strenge der er template ved syntesen af det funktionelle RNA (mRNA,<br />
rRNA og tRNA). Gensymbolerne er følgende: 12S og 16S koder for hhv. 12S og 16S rRNA, ND1-6 for subunits i NADHdehydrogenase,<br />
CO I-III for subunits i cytokrom c-oxidase, ATPase 6 og 8 for subunits i ATP-syntase, Cytb for cytokrom<br />
b. De små udfyldte cirkler angiver tRNA-gener og er markeret med trebogstavsymbolet for den tilhørende aminosyre<br />
(se tabel i Kap. 17, side 250). Leucin-tRNA (Leu) og serin-tRNA (Ser) har hver to gener sv.t. deres to codon-familier (Tabel<br />
1.6), jf. codon-angivelserne i de anførte parenteser (R = A el. G; Y = C el. U; N = A, G, C el. U). OH og OL angiver<br />
replikationsstart for hhv. den tunge og den lette streng. Kontrolregionen er ikke kodende, men indeholder – foruden OH<br />
– separate transkriptionsstartsekvenser for de to strenge samt to regioner med højvariable sekvenser. Molekylets basepar<br />
nummereres fortløbende fra basepar nr. 1 (i kontrolregionen) og frem, i retning mod uret (pilen). (Adapteret fra<br />
Attardi, G. The elucidation of the human mitochondrial <strong>genom</strong>e. A historical perspective. BioEssays 1986;5:34-9.)<br />
Siden 1986 har man kendt hele mitokondrie-<br />
DNA’ets kodende funktion (Figur 1.27). Den-<br />
39
18209 01.fm7 Page 40 Friday, March 3, 2006 12:37 PM<br />
1 <strong>Menneskets</strong> <strong>genom</strong><br />
ne del af menneskets <strong>genom</strong> har således været<br />
beskrevet i detaljer flere år før den store kortlægning<br />
af menneskets nukleære <strong>genom</strong> tog sin<br />
begyndelse.<br />
mtDNA indeholder i alt 37 gener. Heraf koder<br />
2 for ribosomalt RNA (hhv. 12S og 16S<br />
rRNA), 22 koder for tRNA, og 13 er proteinkodende.<br />
De 13 polypeptider er alle engageret<br />
i den oxidative fosforylering (OXPHOS) og<br />
dermed i mitokondriernes livsvigtige syntese af<br />
ATP (adenosintrifosfat).<br />
Pga. den ulige fordeling af puriner (adenin og<br />
guanin) og pyrimidiner (cytosin og thymin)<br />
mellem mtDNA-molekylets to strenge, betegnes<br />
den ene streng som tung (H-strengen, H =<br />
heavy), den anden som let (L-strengen, L =<br />
light). For 12 af de 13 proteinkodende gener i<br />
mtDNA er H-strengen template-streng ved<br />
transkriptionen, og L-strengen derfor »den<br />
RNA-lignende streng«, dvs. den streng hvis<br />
nukleotidsekvens er lig mRNA-sekvensen, såfremt<br />
thymin (T) erstattes med uracil (U). Dette<br />
er baggrunden for at man, når man beskriver<br />
mtDNA-sekvenser og -mutationer, bruger Lstrengens<br />
sekvens (se fx Tabel 5.5 s. 110), også<br />
i de tilfælde hvor L-strengen er genets templatestreng,<br />
jf ND6.<br />
Mitokondrie<strong>genom</strong>et er specielt ved at ingen<br />
af dets gener indeholder introns, ligesom<br />
der stort set heller ikke findes ikke-kodende<br />
basepar mellem generne, når undtages den såkaldte<br />
kontrolregion: det ca. 1100 bp store<br />
område mellem generne for prolin-tRNA<br />
(tRNA Pro ) og phenylalanin-tRNA (tRNA Phe )<br />
(Figur 1.27). Den informationsmæssige kompakthed<br />
i mtDNA’et understreges af at<br />
transkripterne fra de fleste af de proteinkodende<br />
gener afsluttes med en ufuldstændig stopcodon<br />
der først fuldendes til UAA ved den posttranskriptionelle<br />
polyadenylering af mRNA’et.<br />
40<br />
Sekvensvariation i mtDNA<br />
Ved rutinemæssig mtDNA-analyse vil man hos<br />
de allerfleste personer kun påvise én mtDNAsekvens.<br />
Denne homogene tilstand betegnes<br />
homoplasmi; dette til forskel fra den sjældnere<br />
situation hvor der påvises to forskellige sekvenser,<br />
såkaldt heteroplasmi.<br />
På populationsniveau er der til gengæld tale<br />
om en betydelig sekvensvariation mellem tilfældigt<br />
udvalgte individer der således udviser<br />
homoplasmi for hver deres mtDNA-sekvens.<br />
Den typiske sekvensvariation mellem individer<br />
er uden fænotypiske konsekvenser og betegnes<br />
derfor som normalgenetisk variation.<br />
Dertil kommer den lejlighedsvise variation der<br />
skyldes patogene mutationer; disse vil blive<br />
omtalt i Kap 5, se afsnittet Mitokondriesygdomme,<br />
side 108ff).<br />
Haplotyper og haplogrupper<br />
Da mtDNA nedarves som et fast sammentømret<br />
molekyle, betegnes en persons mtDNA-sekvens<br />
også som vedkommendes mtDNAhaplotype.<br />
De mange forskellige haplotyper<br />
som blev kortlagt ved omfattende populationsgenetiske<br />
studier i 1980’erne og -90’erne har<br />
kunnet indpasses i et sammenhængende, overordnet<br />
stamtræ over udviklingen af mtDNA’ets<br />
sekvensdiversitet hos mennesket. I forbindelse<br />
hermed har man defineret et antal hovedgrupper<br />
af haplotyper som har fået betegnelsen<br />
haplogrupper.<br />
Fra DNA til protein<br />
Gen-ekspression<br />
I det følgende gives en oversigt over de væsentligste<br />
elementer, set fra et genetisk synpunkt, af<br />
processerne transkription og translation.<br />
Transkription og translation er samlet den måde<br />
hvorpå celler udlæser, eller udtrykker, deres genetiske<br />
information (Figur 1.2 og 1.28).
18209 01.fm7 Page 41 Friday, March 3, 2006 12:37 PM<br />
cDNA<br />
N C<br />
N . . . . . C<br />
rRNA<br />
Kromosomalt<br />
DNA<br />
Transkription<br />
Cellekernen<br />
tRNA<br />
mRNA Andet RNA<br />
Protein<br />
Der kan dannes mange identiske RNA-kopier<br />
fra det samme gen, og hvert mRNA-molekyle<br />
kan dirigere dannelsen af mange identiske proteinmolekyler.<br />
Selvom der for de allerfleste proteinkodende<br />
geners vedkommende kun findes to<br />
kopier af hvert gen i hver celle (en maternel og<br />
en paternel allel), vil den successive amplifikation<br />
via mRNA gøre cellen i stand til at syntetisere<br />
den nødvendige mængde af protein.<br />
Gener hvis processerede transkript er slutproduktet,<br />
forekommer ofte i mange kopier. For<br />
eksempel findes der ca. 200 kopier af de gener<br />
der koder for ribosomalt RNA (rRNA). De<br />
5’<br />
Eksport til andre<br />
celler/væv<br />
3’<br />
Kerneproteiner<br />
snRNA<br />
Andre<br />
proteiner<br />
rRNA<br />
Ribosomproteiner<br />
Translation<br />
N C<br />
Andre organeller + cytosol<br />
Fra DNA til protein<br />
Mitokondrie<br />
mtDNA<br />
Transkription<br />
mRNA tRNA<br />
OXPHOS<br />
Figur 1.28 Gen-ekspressionen i en menneskecelle. Der foregår transkription i både cellekernen og mitokondrierne. I<br />
cellekernen dannes et primært transkript som processeres før det transporteres ud af cellekernen. Bemærk at en lille<br />
del af RNA-molekylerne i cellekernen naturligt kan omdannes til cDNA af viralt eller cellulært kodet revers transkriptase<br />
og derefter integreres forskellige steder i det kromosomale DNA. Mitokondrierne syntetiserer dets eget rRNA og<br />
tRNA samt nogle få proteiner som er involveret i den oxidative fosforylering (OXPHOS). De mitokondrielle DNA- og<br />
RNA-polymeraser, proteinerne i mitokondriets ribosomer, enzymerne i trikarboxidationen og urinstofcyklus mv. samt<br />
hovedparten af proteinerne i den oxidative fosforylering kodes af nukleære gener.<br />
· · · · · markerer post-translationelle modifikationer såsom fx glykosylering og fosforylering.<br />
sidder fordelt på den korte arm af de akrocentriske<br />
kromosomer (13, 14, 15, 21 og 22, se<br />
Figur 1.8) og er alle aktive. Dette betyder at disse<br />
gener særdeles effektivt kan danne rRNA til<br />
de mange ribosomer der er nødvendige for<br />
proteinsyntesen. For de gener, hvor der kun<br />
findes to kopier kan den enkelte allel transkriberes<br />
og translateres med forskellig effektivitet,<br />
hvilket gør cellen i stand til at regulere mængden<br />
af de forskellige proteiner i og uden for cellen.<br />
En celles transkription foregår dels i cellekernen,<br />
hvor det nukleære DNA befinder sig, dels<br />
41
18209 01.fm7 Page 42 Friday, March 3, 2006 12:37 PM<br />
1 <strong>Menneskets</strong> <strong>genom</strong><br />
i mitokondrierne (Figur 1.28). For at mRNA<br />
fra de nukleære gener kan translateres, må det<br />
transporteres ud af cellekernen hvilket sker<br />
gennem porer i kernemembranen. Før RNA<br />
forlader cellekernen undergår det nogle processeringstrin.<br />
Afhængigt af om transkriptet skal<br />
blive til mRNA eller en anden slags RNA bliver<br />
det processeret forskelligt før det forlader<br />
cellekernen. Kun det RNA som skal blive til<br />
mRNA udsættes for: 1) RNA-capping i 5'-enden<br />
og 2) polyadenylering i 3'-enden. Disse trin<br />
har betydning for mRNA-stabiliteten og er af<br />
betydning for eksporten ud af cellekernen.<br />
Endvidere fungerer modifikationerne som signaler<br />
for proteinsyntese-maskineriet sådan at<br />
når begge modifikationer er til stede, opfattes<br />
molekylet som intakt, og translationen kan begynde<br />
(se dog afsnittet nonsense-medieret<br />
RNA-nedbrydning, side 67). RNA syntetiseret<br />
i mitokondrierne forbliver i mitokondriet og<br />
indgår i translationen dér.<br />
De fleste nukleære præmRNA-molekyler<br />
må undergå endnu et processeringstrin i form af<br />
RNA-splejsning (se nærmere beskrivelse side<br />
27).<br />
Eksempler på måder for regulation af<br />
genekspression – promotorer, enhancere og<br />
silencere<br />
Mennesket består af ca. 250 forskellige slags celler.<br />
Hos et normalt individ har de somatiske<br />
celler samme DNA-indhold, dvs. de har samme<br />
genetiske information til rådighed. Celler fra<br />
forskellige væv er imidlertid meget forskellige<br />
mht. hvilke gener de udtrykker, dvs. hvilken<br />
del af den genetiske information de udnytter.<br />
Eksempelvis indeholder et individs leukocytter<br />
og hjerneceller den samme genetiske information,<br />
men deres RNA- og protein-indhold er<br />
meget forskelligt. Man skelner mellem såkaldte<br />
husholdningsproteiner, der findes i alle celler<br />
og har betydning for cellens basale funktion, og<br />
42<br />
de såkaldte celle/vævs-specifikke proteiner, der<br />
kun produceres i visse celler og som har særlige<br />
og specialiserede funktioner enten i eller uden<br />
for cellen/vævet.<br />
Før RNA-syntesen kan begynde, skal der<br />
samles et transkriptionsinitieringskompleks opstrøms<br />
for genet, idet RNA-polymeraser hos<br />
mennesket ikke kan initiere transkription selvstændigt.<br />
I umiddelbar nærhed af genets kodende<br />
sekvens er der nogle korte sekvenselementer<br />
der agerer som genkendelsessignaler for transkriptionsfaktorer<br />
der binder til DNA og dermed<br />
guider og aktiverer RNA-polymerasen.<br />
Disse korte sekvenser ligger oftest opstrøms for<br />
den kodende sekvens og benævnes kollektivt<br />
promotor-regionen.<br />
Der findes bl.a. en særlig promotor, kaldet<br />
»TATA-boksen«, foran gener der koder for<br />
celle/vævsspecifikke proteiner (se Figurerne<br />
1.15 og 1.19). Den består af sekvensen<br />
5'-TATAAAA-3' ca. 25-30 basepar opstrøms<br />
for transkriptionsinitieringsstedet. Gener der<br />
koder for husholdningsproteiner har sædvanligvis<br />
en eller flere »GC-bokse« (sekvensen<br />
5'-GGGCGG-3') i varierende afstand fra<br />
transkriptionsinitieringsstedet (Figur 1.19). Et<br />
andet almindeligt promotor-element er »CATboksen«<br />
(fx 5'-CCAAT-3') som sidder 75-80<br />
bp opstrøms for transkriptionsinitieringsstedet<br />
(Figur 1.15 og 1.19) ligesom der ofte findes enhancer-<br />
og silencer-sekvenser i nogen afstand fra<br />
de enkelte gener. Det er sekvenser som binder<br />
forskellige faktorer, der regulerer ekspressionen<br />
af generne ved hhv. at øge og nedsætte transkriptionsinitieringen.<br />
Transkription og translation<br />
Ved transkriptionen bliver nukleotidsekvensen<br />
i genets ene DNA-streng kopieret til et komplementært<br />
RNA-molekyle (det primære<br />
transkript) vha. en DNA-afhængig RNA-polymerase.<br />
DNA’ets dobbelthelix åbnes, og den
18209 01.fm7 Page 43 Friday, March 3, 2006 12:37 PM<br />
DNA-streng der er orienteret i 3'→5'-retningen<br />
fungerer som template for transkriptionen.<br />
Syntesen af RNA foregår i 5'→3'-retningen.<br />
Translationen (proteinsyntesen) foregår i en<br />
læseramme hvis begyndelse defineres af startcodon,<br />
AUG, der koder for aminosyren methionin<br />
(Figur 1.15 og 1.29b). I det nysyntetiserede<br />
polypeptid vil denne methionin altså være den<br />
N-terminale aminosyre og polypeptidkædeforlængelsen<br />
er sket i retning mod den C-terminale<br />
ende. For de fleste proteiners vedkommende<br />
fraspaltes den N-terminale methionin dog<br />
umiddelbart efter syntesen.<br />
Ved translationen oversættes mRNA’ets basesekvens<br />
i grupper af 3 baser (codons), som definerer<br />
polypeptidets aminosyresekvens. Aminosyrerne<br />
føres til ribosomerne vha. transfer-<br />
RNA (tRNA) (Figur 1.29b-d). Hver aminosyre<br />
har sit eget tRNA, som i molekylet har en såkaldt<br />
anticodon, der er komplementær til den<br />
codon i mRNA som tRNA’et bindes til, mens<br />
det afleverer aminosyren. Eksempelvis kan<br />
nævnes at tRNA for glycin har 3'-CCG-5' som<br />
anticodon og baseparrer med codon 5'-GGC-3'<br />
på mRNA, se Figur 1.29b og 1.29c. Codon 1,<br />
2, 3 og 4 i det skitserede mRNA translateres til<br />
aminosyresekvensen methionin (Met), glycin<br />
(Gly), serin (Ser) og isoleucin (Ile). Glycin og<br />
alanin følger i positionerne 5 og 6.<br />
Selve translationsprocessen kan inddeles i tre<br />
trin (Figur 1.29c): 1) Initiering, hvor der dannes<br />
et initieringskompleks bestående af mRNA, et<br />
ribosom og tRNA sv.t. codon 1; dette kræver<br />
forskellige initieringsfaktorer. 2) Elongering er<br />
det næste trin, og består af codon-genkendelse<br />
(binding af tRNA), etablering af peptid-binding<br />
og flytning af ribosomet, vha. en translokase,<br />
3 baser frem i 3'-retningen på mRNA;<br />
dette trin kræver tilstedeværelsen af elongeringsfaktorer<br />
sådan at de successive aminosyrer<br />
påsættes det voksende polypeptid. 3) Termine-<br />
Fra DNA til protein<br />
ringen er det sidste trin, og translationen stopper<br />
når en af de tre stopcodons UAA, UGA eller<br />
UAG nås. Det dannede polypeptid forlader<br />
ribosomet, som dissocierer til dets subunits og<br />
mRNA.<br />
mRNA har en begrænset levetid i cytoplasmaet,<br />
forskelligt for de enkelte mRNA’er. Eksempelvis<br />
har β-globin-mRNA en halveringstid<br />
(t1) på omkring 10 timer, mens andre har en<br />
t1 < 30 min.<br />
Den genetiske kode<br />
Den genetiske kode udgør et sæt biologiske<br />
regler der bestemmer hvordan nukleotidsekvensen<br />
i DNA oversættes til aminosyresekvens<br />
via mRNA. Den anvendte genetiske<br />
kode er næsten universel for nukleære gener,<br />
dvs. at med enkelte undtagelser benytter alle<br />
arter samme kode for kernegenernes vedkommende.<br />
Bakterier ligeså.<br />
Koden er opbygget af kodeord (codons), der<br />
udgøres af en sekvens på 3 baser som bestemmer<br />
hvilken aminosyre der skal kobles på ved<br />
translationen. Hver codon angiver én aminosyre.<br />
Derimod kan en aminosyre godt kan have<br />
flere forskellige codons (jf. Tabel 1.6). Den genetiske<br />
kode kaldes derfor degenereret, hvilket<br />
kan eksemplificeres ved at aminosyren fenylalanin,<br />
har to codons: UUU og UUC, mens der<br />
er seks forskellige codons for aminosyren serin:<br />
UCU, UCC, UCA, UCG, AGU og AGC.<br />
Den genetiske kode blev dechifreret og beskrevet<br />
i 1966 og er angivet i sin helhed i Tabel 1.6,<br />
se også kodetabellen side 249. Der er anført 20<br />
forskellige aminosyrer, men rent faktisk indeholder<br />
nogle få proteiner en 21. aminosyre, selenocystein<br />
(Sec), hvis tRNA genkender codonen<br />
UGA (jf Tabel 1.6).<br />
Mitokondriernes genetiske kode er lidt anderledes.<br />
Translationen af deres 13 mRNAmolekyler<br />
sker på mitokondriernes egne ribosomer,<br />
under anvendelse af det mitokondrielle<br />
43
18209 01.fm7 Page 44 Friday, March 3, 2006 12:37 PM<br />
1 <strong>Menneskets</strong> <strong>genom</strong><br />
44<br />
a. Transkription<br />
5'<br />
3'<br />
DNA-dobbelthelix<br />
b. Translation<br />
RNA<br />
Methionin Glycin Serin Isoleucin Glycin Alanin<br />
Polypeptid<br />
A U G G G C U C C A U C G G C G C A G C A A G C<br />
5' 1 2 3 4 5 6 7 8 3'<br />
Codons<br />
mRNA<br />
c. Translationsforløb<br />
3'<br />
C C G C G T<br />
5' A U G G G C U C C A U G G G C U C C<br />
A G U U A A U C C 3'<br />
U A C<br />
Ribosom<br />
Met<br />
1. Initiering<br />
d. Strukturen af transfer-RNA (tRNA)<br />
1. Kløverbladstruktur<br />
5'<br />
G<br />
C<br />
G<br />
G<br />
A<br />
U<br />
A<br />
C<br />
C<br />
A<br />
C<br />
G<br />
C<br />
U<br />
U<br />
A<br />
A<br />
G A C A C C U<br />
U<br />
G A<br />
U<br />
G<br />
C U C A<br />
C U G U G C<br />
G G A G C U<br />
G G<br />
A<br />
A<br />
G<br />
C<br />
C<br />
A<br />
G<br />
A<br />
C<br />
U<br />
G A A<br />
Loop 3<br />
Loop 1<br />
Variabel loop<br />
G<br />
G<br />
U<br />
C<br />
Loop 2 A<br />
3'<br />
Anticodon<br />
Figur 1.29 Se Billedtekst på siden overfor.<br />
Met<br />
C C G<br />
Gly<br />
Ribosom<br />
A G G<br />
Ser<br />
2. Elongering<br />
Phe<br />
2. Tredimensionel struktur<br />
Loop 3<br />
20<br />
Variabel loop<br />
Anticodon-loop<br />
(Loop 2)<br />
54<br />
44<br />
32<br />
U C A<br />
Leu Met Ser<br />
64<br />
Ribosom<br />
3. Terminering<br />
4<br />
7<br />
26<br />
38<br />
12<br />
69<br />
5'<br />
Loop 1<br />
Anticodon<br />
72<br />
3'<br />
5'<br />
76<br />
3'<br />
Acceptorende
18209 01.fm7 Page 45 Friday, March 3, 2006 12:37 PM<br />
sæt af tRNA-molekyler som definerer mitokondriernes<br />
specielle variant af den genetiske<br />
kode (Tabel 1.7); her koder UGA for tryptofan<br />
(Trp), og AGA og AGG fungerer som supplerende<br />
stopcodons i stedet for at kode for arginin<br />
(Arg).<br />
Translation og posttranslationelle<br />
modifikationer<br />
Et segment af en nukleotidsekvens kan læses i tre<br />
forskellige læserammer (Figur 1.30, læserammerne<br />
A, B og C), men kun én af dem er rigtig (A i<br />
Figur 1.30 se dog side 32, Figur 1.23). Den defineres<br />
oftest af den første AUG-sekvens i mR-<br />
NA’et, som så er codon 1, og nysyntetiserede<br />
polypeptider har, som tidligere nævnt (side 43),<br />
Fra DNA til protein<br />
Tabel 1.6 Den genetiske standardkode. Aminosyrerne er angivet ved deres tre- og étbogstavkode (se tabel<br />
i Appendix, side 35). Man har konventionelt bestemt at en codon skrives med 5'-nukleotidet til venstre.<br />
GCA<br />
GCC<br />
GCG<br />
GCU<br />
AGA<br />
AGG<br />
CGA<br />
CGC<br />
CGG<br />
CGU AAC<br />
AAU GAC<br />
GAU UGC<br />
UGU CAA<br />
CAG GAA<br />
GAG<br />
GGA<br />
GGC<br />
GGG<br />
GGU CAC<br />
CAU<br />
AUA<br />
AUC<br />
AUU<br />
UUA<br />
UUG<br />
CUA<br />
CUC<br />
CUG<br />
CUU AAA<br />
AAG AUG UUC<br />
UUU<br />
A R N D C Q E G H I L K M F P S T W Y V<br />
*) I enkelte nukleære gener fungerer UGA som codon for selenocystein.<br />
methionin som N-terminal aminosyre. Efter<br />
translationen undergår polypeptidet forskellige<br />
former for kemiske ændringer, såkaldte posttranslationelle<br />
modifikationer, som er nødvendige<br />
for at opnå det modne slutprodukt, fx et aktive<br />
enzym. Ud over fraspaltning af en eller flere<br />
aminosyrer, herunder den N-terminale methionin,<br />
kan de posttranslationelle modifikationer typisk<br />
bestå i oxidation af cysteiner for at danne<br />
disulfidbroer, samt i glykosylering, fosforylering<br />
etc. Et polypeptids aminosyresekvens betegnes<br />
dets primære struktur og er af afgørende betydning<br />
for sekundærstrukturen, der er den tredimensionelle<br />
form på dele af et polypeptid eksempelvis<br />
α-helix og β-sheet. Den tertiære struktur<br />
er den foldede form af hele polypeptidet,<br />
Figur 1.29 Transkription og translation. A. Det første trin i gen-ekspressionen er transkription af den ene DNA-streng<br />
med dannelse af komplementært RNA. Processen styres af mange proteiner kaldet transkriptionsfaktorer. RNA-syntesen<br />
foregår ved hjælp af RNA-polymerase og kræver at DNA-dobbelthelix åbnes. Syntesen sker i 5' → 3'-retningen,<br />
dvs. komplementært til 3' → 5'-retningen på den DNA-streng der fungerer som template.<br />
Efter transkriptionen sker der en RNA-processering og -splejsning med dannelse af mRNA. B. Translationen er den<br />
proces hvor en række af codons i mRNA oversættes til en korresponderende aminosyresekvens på ribosomerne i cytoplasmaet.<br />
Translationen sker i en læseramme, som defineres af start-codon AUG. De enkelte codons er nummereret.<br />
C. Man definerer tre trin under translationen: initiering, elongering og terminering. Hvert af disse trin har forskellige<br />
proteiner som regulerer processen. De enkelte aminosyrer bringes til ribosomet af specifikke tRNA-molekyler via anticodon<br />
som baseparrer med den rette aminosyrecodon i mRNA. Når to aminosyrer sidder tæt ved hinanden dannes der<br />
en peptidbinding mellem dem, det næstsidst ankomne tRNA frigøres, og ribosomet bevæger sig en codon til højre, hvor<br />
processen gentages til der optræder en stopcodon. D. Til venstre er vist tRNA på såkaldt kløverbladsform. Acceptorarmen<br />
(3'-enden) binder den specifikke aminosyre, i dette eksempel fenylalanin, hvilket kan aflæses af anticodon. Den<br />
tredimensionelle struktur af tRNA er vist til højre. De forskellige loops har funktioner i relation til at elongeringsprocessen<br />
forløber uden fejl. markerer modificeret nukleotid.<br />
CCA<br />
CCC<br />
CCG<br />
CCU<br />
AGC<br />
AGU<br />
UCA<br />
UCC<br />
UCG<br />
UCU<br />
ACA<br />
ACC<br />
ACG<br />
ACU UGG UAC<br />
UAU<br />
Ala Arg Asn Asp Cys Gln Glu Gly Hls Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val stop<br />
GUA<br />
GUC<br />
GUG<br />
GUU<br />
UAA<br />
UAG<br />
UGA *<br />
45
18209 01.fm7 Page 46 Friday, March 3, 2006 12:37 PM<br />
1 <strong>Menneskets</strong> <strong>genom</strong><br />
A<br />
B<br />
C<br />
mens den kvaternære form er den sluttelige konformation<br />
af et multimert protein. Fx hæmoglobin,<br />
som består af 2 α-globin-monomerer, 2 βglobin<br />
monomerer og 4 hæmmolekyler hver<br />
med ét jernatom.<br />
Genomisk regulation af<br />
gen-ekspressionen<br />
Med afslutningen af det humane <strong>genom</strong>projekt<br />
har vi en næsten komplet liste over de gener<br />
som er nødvendige for at danne et individ og<br />
vedligeholde dets celler og organsystemer. Forståelsen<br />
af hvordan den biologiske information<br />
anvendes, kræver dog langt mere end et simpelt<br />
katalog over gener selvom det er en væsentlig<br />
information.<br />
Man har påvist, at andelen af mRNA udgør<br />
omkring 2-3% af det samlede RNA i en menneskecelle.<br />
Et lille antal mRNA’er findes i flere<br />
tusinde kopier, andre findes i flere hundrede<br />
kopier, mens hovedparten findes i mindre end<br />
10 kopier pr. celle. Man regner med, at der i alt<br />
findes omkring 500.000 mRNA-molekyler i<br />
en enkelt menneskecelle. Af de omkring<br />
27.000 gener man har fundet i menneskets <strong>genom</strong>,<br />
er det kun omkring en tredjedel, der udtrykkes<br />
i de enkelte væv og celletyper. Da der<br />
er hundredevis af forskellige celletyper dannende<br />
forskellige organer, der desuden har forskellige<br />
fysiologiske, udviklingsmæssige og patofy-<br />
46<br />
CAGUCUAUGGCAAAUAAGGUAGACCAU<br />
Met Ala Asn Lys Val Asp His<br />
Tyr Gly Lys<br />
Leu Trp Glu<br />
STOP<br />
Ile Arg STOP<br />
Figur 1.30 Læserammen for translationen. Se teksten<br />
for detaljer.<br />
Tabel 1.7<br />
mtDNA.<br />
Den genetiske kode for menneskets<br />
Forskelle fra kernekoden<br />
codon kernekode mtDNA-kode<br />
AUU Ile Ile (startcodon i ND2)<br />
AUA Ile Met<br />
UGA Stop Trp<br />
AGA Arg Stop<br />
AGG Arg Stop<br />
siologiske tilstande, eksisterer der således tusinder<br />
af forskellige transkriptomer.<br />
Beskrivelse og forståelse af de biologiske systemer<br />
som bestemmer hvilke af disse mange<br />
gener der skal være aktive i hvilke celler og på<br />
hvilket tidspunkt, samt hvilke regioner af de<br />
enkelte gener som skal udtrykkes i de enkelte<br />
celler, er mindst lige så vigtig som selve det humane<br />
<strong>genom</strong>s sekvensinformation. Man har allerede<br />
påvist vigtige faktorer i disse systemer,<br />
såkaldte epigenetiske markører, der har betydning<br />
for den differentierede anvendelse af den<br />
biologiske information som de enkelte celler<br />
har. De epigenetiske markører varierer fra celletype<br />
til celletype og har yderligere den vigtige<br />
egenskab at de kan videregives ved celledelingen.<br />
Faktorer i dette system ændrer ikke DNAbaserækkefølgen,<br />
men modificerer i stedet nogle<br />
af baserne, modificerer mængden og typen af<br />
transkript posttranskriptionelt eller modificerer<br />
proteiner omkring DNA-molekylet (Tabel<br />
1.8).<br />
Alternativ transkription og processering<br />
Ud over de kontrolmekanisker som har betydning<br />
for styringen af transkripters initiering og<br />
elongering, eksisterer der mekanismer som regulerer<br />
hvilke specifikke alternative transkripter<br />
der udtrykkes fra et gen. Ved genekspression<br />
kan en celle anvende flere forskellige pro-
18209 01.fm7 Page 47 Friday, March 3, 2006 12:37 PM<br />
Tabel 1.8 Eksempler på epigenetiske modifikationer<br />
til regulation af gen-ekspressionen.<br />
Alternativ transkription og processering<br />
alternativ splejsning meget hyppig<br />
alternativ anvendelse af promotorer almindelig<br />
alternativ polyadenylering almindelig<br />
RNA-editering<br />
Genomiske modifikationer<br />
sjælden<br />
metylering/demetylering af DNA meget hyppig<br />
acetylering/deacetylering af histon<br />
RNA-interferens<br />
meget hyppig<br />
nedbrydning af mRNA almindelig<br />
motorer og differentiel RNA-processering og<br />
der kan således ud fra et relativt lille antal gener<br />
dannes et stort antal forskellige isoformer af<br />
genprodukter. Disse opdagelser har ændret den<br />
klassiske definition af et gen, og den simple relation<br />
»ét gen – ét polypeptid« er ikke mere<br />
gældende.<br />
Mange gener har to eller flere alternative promotorer<br />
hvilket kan resultere i dannelsen af forskellige<br />
isoformer af genprodukter med forskellige<br />
egenskaber. Et af de bedst undersøgte gener,<br />
hvor differentiel promotor anvendes, er<br />
Genomisk regulation af gen-ekspressionen<br />
det store dystrofin-gen (DMD), som består af<br />
79 exons fordelt på 2,4 Mb. Mindst 8 forskellige<br />
promotorer er beskrevet (Figur 1.31), og de<br />
anvendes til celletypespecifik ekspression af<br />
dystrofin-genet. Atter andre isoformer af dystrofin-genet<br />
skyldes alternativ splejsning.<br />
Omkring halvdelen af menneskets gener har<br />
primære transkripter der undergår alternativ<br />
splejsning, hvor forskellige exon-kombinationer<br />
bliver inkluderet i det færdige transkript<br />
ved RNA-processering (Figur 1.17 og 1.18).<br />
Det har vist sig at visse transkripter har bestemte<br />
exon-kombinationer i forskellige væv. De forskellige<br />
isoformer i de forskellige væv giver<br />
mange muligheder for ændrede funktionelle<br />
egenskaber, men detaljeret viden herom mangler<br />
endnu. Alternativ splejsning har vist sig at<br />
være en af de vigtigste mekanismer bag dannelsen<br />
af forskellige isoformer.<br />
Alternativ polyadenylering er en anden almindelig<br />
måde til dannelse af isoformer. Et eksempel<br />
herpå er alternativ polyadenylering af<br />
calcitonin-transkriptet, hvilket resulterer i<br />
vævsspecifik ekspression af to isoformer (Figur<br />
1.32). Calcitonin er et cirkulerende Ca 2+ -homøostatisk<br />
hormon som produceres i gl. thyroidea.<br />
Det calcitonin-gen-relaterede peptid<br />
L C M P R CNS S G<br />
L1 C1 M1 P1<br />
0 500 1000 1500 2000<br />
2 5 10 15 20 30 40 45 50 55 60 70 79<br />
Dp427 Dp260 Dp140 Dp116 Dp71<br />
Figur 1.31 Mindst 8 forskellige promotorer benyttes til cellespecifik ekspression af dystrofin-genet. Positionen af de<br />
8 alternative promotorer er vist øverst: L i lymfocytter, C i hjernebarken (cortex cerebri), M i muskel, P i Purkinjefibre,<br />
R i retina, CNS i central nervesystemet, S i schwannske celler, G for generel promotor. Exons er nummererede 1-79.<br />
Notér at promotorvalget afgør hvilken exon der bliver den første i det pågældende transkript (L1, C1, M1, P1, R1 osv.).<br />
Dp427, Dp260, Dp140, Dp116, Dp71 refererer til størrelsen af færdige peptid i kDa, eksempelvis 427 kDa for Dp427.<br />
kb<br />
47
18209 01.fm7 Page 48 Friday, March 3, 2006 12:37 PM<br />
1 <strong>Menneskets</strong> <strong>genom</strong><br />
(CGRP) syntetiseres i hypothalamus og har<br />
neuromodulatoriske egenskaber. Ud fra samme<br />
gen kan der således dannes peptider med forskellige<br />
egenskaber relateret til forskellige funktioner<br />
i forskellige væv.<br />
RNA-editering er en sjældnere form for<br />
posttranskriptionel processering hos mennesket<br />
og involverer enzym-medieret insertion, deletion<br />
eller modifikation af enkelte nukleotider<br />
på RNA-niveau (fx deaminering af cytosin til<br />
uracil) som fører til ændret mRNA-sekvens.<br />
Man kender til dato kun få gener, hvor denne<br />
måde til dannelse af isoformer anvendes (fx<br />
apolipoprotein B).<br />
Genomiske modifikationer til regulation<br />
af gen-ekspressionen<br />
I Tabel 1.9 er der givet en oversigt over de epigenetiske<br />
modifikationer, som har betydning<br />
for aktive og mindre aktive gener.<br />
48<br />
Calcitoningenet<br />
mRNA<br />
Polypeptidforstadium<br />
Polypeptid<br />
Cap<br />
Gl. thyroidea<br />
Neuronalt<br />
væv<br />
Gl. thyroidea<br />
1 2 3 4<br />
Calcitonin<br />
pA1 pA2 1 2 3 4 5a 5b<br />
Poly-<br />
A<br />
Differentiel splejsning<br />
og polyadenylering<br />
Translation<br />
Posttranslationel<br />
kløvning<br />
Cap<br />
Neuronalt væv<br />
1 2 3 5a<br />
CGRP<br />
5b<br />
Poly-<br />
A<br />
Figur 1.32 Differentiel RNA-processering resulterer i vævsspecifikke calcitoningen-produkter. pA1 og pA2 repræsenterer<br />
alternative polyadenyleringssignaler som anvendes i hhv. gl. thyroidea og neuronalt væv. Notér at calcitonin<br />
kodes af exon 4-sekvenser i gl. thyroidea, mens calcitonin-gen-relateret-peptid (CGRP) i neuronalt væv syntetiseres fra<br />
5'-delen af exon 5 (5a) som et resultat af alternativ splejsning.<br />
Den eneste kendte modifikation af DNA hos<br />
mennesket er metylering af cytosin i position 5<br />
i CpG-dinukleotider. I normale celler foregår<br />
DNA-metylering især i dé <strong>genom</strong>iske områder<br />
som har repeterede sekvenser såsom satellit-<br />
DNA, SINEs og LINEs. Hypermetylering af et<br />
gen eller gen-område nedsætter ekspressionen<br />
af disse og omvendt ved hypometylering.<br />
En anden vigtig epigenetisk modifikation er<br />
den posttranskriptionelle modifikation af histonerne<br />
som DNA er viklet omkring. Denne<br />
modifikation består i påsætning af acetyl-grupper<br />
på lysin-enheder tæt på den N-terminale<br />
ende af histonerne. De acetylerede N-termini<br />
danner haler som stikker ud fra histon-oktameren.<br />
Acetylerede histoner har mindre affinitet<br />
over for DNA og medfører en mere åben<br />
struktur, der er bedre egnet til transkription.<br />
Med andre ord, acetylering af histoner fremmer
18209 01.fm7 Page 49 Friday, March 3, 2006 12:37 PM<br />
Tabel 1.9 Epigenetiske modifikationer ved aktive og inaktive gener.<br />
gen-ekspressionen mens de-acetylering hæmmer<br />
denne ekspression.<br />
For nylig er det blevet vist at processerne for<br />
DNA-metylering og histon-acetylering er koblede,<br />
men den nærmere biologiske betydning<br />
heraf er endnu ikke klarlagt.<br />
DNA-metylering og<br />
imprintningsygdomme<br />
Tidligt i embryogenesen hos kvinder sker der i<br />
somatiske celler normalt en permanent og tilfældig<br />
inaktivering af det ene X-kromosom<br />
som følge af en hypermetylering. Dette betyder<br />
at ca. halvdelen af de somatiske celler hos kvinder<br />
har det paternelt nedarvede X-kromosom<br />
aktivt mens de øvrige celler har det maternelle<br />
X-kromosom aktivt (se nærmere om X-inaktivering<br />
i Kap. 5, side 106ff).<br />
Epigenetiske modifikationer har også sygdomsmæssig<br />
betydning, hvilket bl.a. understreges<br />
af det stigende antal sygdomme, hvor det er<br />
påvist at disse modifikationer er involveret i patogenesen.<br />
En kobling mellem DNA-metylering og<br />
cancer blev kendt for flere år siden, hvor det<br />
blev vist at cancercellers <strong>genom</strong> er relativt hypometyleret<br />
i forhold til normale cellers. Det er<br />
interessant at dette tab af metylering hovedsageligt<br />
er sket i de repetitive områder af <strong>genom</strong>et.<br />
Et andet fænomen er imprintning. Visse regioner<br />
i de maternelle og paternelle <strong>genom</strong>er er<br />
ikke funktionelle ækvivalenter. Gener i sådanne<br />
regioner har forskellig ekspression afhængig af<br />
den parentale oprindelse. En sådan forskel i<br />
gen-ekspressionen som følge af den parentale<br />
Genomisk regulation af gen-ekspressionen<br />
Epigenetisk modifikation Aktive gener Inaktive gener<br />
DNA-metylering Relativ hypometylering<br />
specielt af promotor-regionen<br />
Relativ hypermetylering<br />
inklusive promotor-regionen<br />
Histon-acetylering Acetylerede histoner De-acetylerede histoner<br />
oprindelse kaldes for imprintning. Grunden til<br />
dette fænomen er at der er forskel i graden af<br />
metylering mellem den maternelle og paternelle<br />
allel. Eksempelvis, hvis et maternelt gen er<br />
metyleret (inaktivt) mens det paternelle ikke er,<br />
vil kun det paternelle blive udtrykt. Hvis der<br />
sker forstyrrelser i dette normale imprintningsystem,<br />
medfører det udvikling af forskellige<br />
sygdomme afhængigt af de berørte regioner.<br />
Det har vist sig at visse cancerformer såsom<br />
Wilms’ tumor og kolorektal cancer har forstyrrelser<br />
i de imprintede gener. Der findes også andre<br />
grupper af sygdomme, hvor forstyrret imprintning<br />
har patogenetisk betydning, eksempelvis<br />
Beckwith-Wiedemanns syndrom samt<br />
Prader-Willis og Angelmans syndromer (se<br />
nærmere herom i Kap. 15, side 238ff).<br />
Med baggrund i ovenstående syndromer er<br />
der nu betydelig farmakologisk interesse i at udvikle<br />
medikamina som skal kunne revertere<br />
epigenetiske abnormiteter.<br />
RNA-interferens<br />
Man har for nylig fundet at ekspressionen af ca.<br />
3 af alle menneskets gener reguleres af en ny<br />
klasse af molekyler kaldet miRNA. Det er en<br />
forkortelse for mikro-RNA, der udgøres af små<br />
RNA-molekyler med en længde på 21-30 nukleotider.<br />
De er ikke peptidkodende, men udtrykkes<br />
vævs- og udviklingsmæssigt specifikt og<br />
regulerer ekspressionen af andre gener ved at<br />
binde sig til specifikke mRNA-molekyler og<br />
iværksætte nedbrydning heraf.<br />
Til dato har man identificeret omkring 400<br />
forskellige miRNA’er som har betydning for<br />
49
18209 01.fm7 Page 50 Friday, March 3, 2006 12:37 PM<br />
udvikling og vedligeholdelse af stamceller, hjerne-<br />
og muskelceller. Det har endvidere vist sig<br />
at tab af bestemte miRNA’er kan føre til dysreguleret<br />
insulinsekretion og til celler der ikke<br />
kan dele sig som følge af manglende funktionelle<br />
centromerer.<br />
Betydning og Perspektiver<br />
Det humane <strong>genom</strong> har gennem de sidste 10 år<br />
haft høj grad af fokus inden for den biologiske<br />
og medicinske forskning, og dette vil utvivlsomt<br />
fortsætte endnu en rum tid. Men hvorfor<br />
er al den aktivitet koncentreret om dette og andre<br />
<strong>genom</strong>er (fx mus, gris og ris)? Der er flere<br />
grunde hertil.<br />
For det første vil det humane <strong>genom</strong> danne<br />
grundlag for et genkatalog, hvor man kender<br />
sekvensen af hvert gen selvom man måske ikke<br />
kender dets funktion. Herudover vil man have<br />
adgang til oplysninger om de enkelte geners regulatoriske<br />
områder og om hvordan generne er<br />
lokaliseret i forhold til andre gener. Mange af<br />
disse gener vil, når de ikke fungerer korrekt, give<br />
anledning til genetisk sygdom. Via et genka-<br />
talog for mennesket vil man have hurtig adgang<br />
til sekvensdetaljerne om disse gener, hvilket er<br />
udgangspunktet for at kunne undersøge og forstå<br />
sygdomsmekanismerne, hvilket igen vil<br />
kunne føre til strategier for behandling og profylakse.<br />
Det humane genkatalog er endnu i sin vorden<br />
og mens det færdiggøres, vil der nu blive<br />
rettet mere fokus på transkriptomet og proteomet<br />
(Figur 1.2), som udgør nøglefaktorer for at<br />
forstå hvordan den genetiske information indeholdt<br />
i <strong>genom</strong>et omsættes i den enkelte celle,<br />
herunder hvad der sker i forbindelse med forskellige<br />
sygdomme. Det bliver også interessant<br />
at se hvilken funktion alt det intergeniske DNA<br />
har. Det udgør trods alt ca. 5 af <strong>genom</strong>et.<br />
Sekventeringen af det humane og andre <strong>genom</strong>er<br />
presser teknologien til det yderste og<br />
fungerer derfor også som drivkraft i den fortsatte<br />
teknologiske udvikling af nye og mere effektive<br />
metoder inden for den basalbiologiske og<br />
medicinske forskning, og til betydelig forbedret<br />
diagnostik.