26.07.2013 Views

Appendix to dan news 2007: Longest sentences - Universität Leipzig

Appendix to dan news 2007: Longest sentences - Universität Leipzig

Appendix to dan news 2007: Longest sentences - Universität Leipzig

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Technical Report Series<br />

on<br />

Corpus Building<br />

Uwe Quasthoff<br />

Dirk Goldhahn<br />

Erla Hallsteinsdóttir<br />

Vol. 2<br />

(March 2013)<br />

Danish Corpora<br />

Abteilung Au<strong>to</strong>matische Sprachverarbeitung, Institut für Informatik,<br />

<strong>Universität</strong> <strong>Leipzig</strong>


Affiliation oft the authors:<br />

Uwe Quasthoff und Dirk Goldhahn: Institut für Informatik,<strong>Universität</strong> <strong>Leipzig</strong><br />

{quasthoff, dgoldhahn}@informatik.uni-leipzig.de<br />

Erla Hallsteinsdóttir, Institut for Sprog og Kommunikation, Syd<strong>dan</strong>sk Universitet<br />

Odense, erla@sdu.dk<br />

Copyright: Abteilung Au<strong>to</strong>matische Sprachverarbeitung, Institut für Informatik,<br />

<strong>Universität</strong> <strong>Leipzig</strong>, http://asv.informatik.uni-leipzig.de/<br />

Technical Report Series on Corpus Building<br />

Vol. 1: Deutscher Wortschatz 2013<br />

Vol. 2: Danish Corpora<br />

This PDF document was created using the open source <strong>to</strong>ol mwlib. For more infotmation, see<br />

http://code.pediapress.com/<br />

PDF generated at: Tue, 15 May 2013 12:19:38 UTC


Danish corpora 1<br />

Introduction <strong>to</strong> corpus creation 1<br />

DAN - a processing related language description 2<br />

DAN corpora 4<br />

DAN corpus comparison 8<br />

Processing details 10<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Database summary 10<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Database summary 10<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Database summary 11<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Database summary 11<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Database summary 12<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Database summary 12<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Database summary 13<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Database summary 13<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Database summary 14<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Database summary 14<br />

Content details 15<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Size of different TLDs 15<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Size of different TLDs 15<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Size of different TLDs 16<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Size of different TLDs 16<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Size of different TLDs 17<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Size of different TLDs 17<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Size of different TLDs 17<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Size of different TLDs 18<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Size of largest domains 18<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Size of largest domains 19<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Size of largest domains 19<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Size of largest domains 20<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Size of largest domains 21<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Size of largest domains 21


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Size of largest domains 22<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Size of largest domains 22<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Number of sources by time period 23<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Number of sources by time period 24<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Number of sources by time period 25<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Number of sources by time period 26<br />

Word details 28<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Words by length without multiplicity 28<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Words by length without multiplicity 30<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Words by length without multiplicity 32<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Words by length without multiplicity 34<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Words by length without multiplicity 36<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Words by length without multiplicity 38<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Words by length without multiplicity 40<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Words by length without multiplicity 42<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Words by length without multiplicity 44<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Words by length without multiplicity 46<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Words by length with multiplicity 48<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Words by length with multiplicity 50<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Words by length with multiplicity 52<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Words by length with multiplicity 54<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Words by length with multiplicity 56<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Words by length with multiplicity 58<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Words by length with multiplicity 60<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Words by length with multiplicity 62<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Words by length with multiplicity 64<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Words by length with multiplicity 66<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: The most frequent 50 words 67<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: The most frequent 50 words 68<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: The most frequent 50 words 69<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: The most frequent 50 words 70<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: The most frequent 50 words 71<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: The most frequent 50 words 72<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: The most frequent 50 words 73<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: The most frequent 50 words 74<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: The most frequent 50 words 75<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: The most frequent 50 words 76


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 77<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 78<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 79<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 80<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 81<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 82<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 83<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 84<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 85<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 86<br />

Character details 87<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Alphabet as used in the <strong>to</strong>p-100.000 words 87<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Alphabet as used in the <strong>to</strong>p-100.000 words 88<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Alphabet as used in the <strong>to</strong>p-100.000 words 90<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Alphabet as used in the <strong>to</strong>p-100.000 words 91<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Alphabet as used in the <strong>to</strong>p-100.000 words 92<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Alphabet as used in the <strong>to</strong>p-100.000 words 94<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Alphabet as used in the <strong>to</strong>p-100.000 words 95<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Alphabet as used in the <strong>to</strong>p-100.000 words 96<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Alphabet as used in the <strong>to</strong>p-100.000 words 98<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Alphabet as used in the <strong>to</strong>p-100.000 words 99<br />

Abbreviation details 101<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Most frequent abbreviations 101<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Most frequent abbreviations 102<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Most frequent abbreviations 103<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Most frequent abbreviations 104<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Most frequent abbreviations 105<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Most frequent abbreviations 106<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Most frequent abbreviations 107<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Most frequent abbreviations 108<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Most frequent abbreviations 109<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Most frequent abbreviations 110<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Left neighbors of the full s<strong>to</strong>p 111<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Left neighbors of the full s<strong>to</strong>p 112<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Left neighbors of the full s<strong>to</strong>p 113<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Left neighbors of the full s<strong>to</strong>p 114


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Left neighbors of the full s<strong>to</strong>p 115<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Left neighbors of the full s<strong>to</strong>p 116<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Left neighbors of the full s<strong>to</strong>p 117<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Left neighbors of the full s<strong>to</strong>p 118<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Left neighbors of the full s<strong>to</strong>p 119<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Left neighbors of the full s<strong>to</strong>p 120<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 121<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 122<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 123<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 124<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 125<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 126<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 127<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 128<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 129<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 130<br />

Sentences details 131<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Shortest <strong>sentences</strong> 131<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Shortest <strong>sentences</strong> 132<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Shortest <strong>sentences</strong> 134<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Shortest <strong>sentences</strong> 135<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Shortest <strong>sentences</strong> 137<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Shortest <strong>sentences</strong> 138<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Shortest <strong>sentences</strong> 140<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Shortest <strong>sentences</strong> 141<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Shortest <strong>sentences</strong> 143<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Shortest <strong>sentences</strong> 144<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: <strong>Longest</strong> <strong>sentences</strong> 146<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: <strong>Longest</strong> <strong>sentences</strong> 148<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: <strong>Longest</strong> <strong>sentences</strong> 150<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: <strong>Longest</strong> <strong>sentences</strong> 152<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: <strong>Longest</strong> <strong>sentences</strong> 154<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: <strong>Longest</strong> <strong>sentences</strong> 156<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: <strong>Longest</strong> <strong>sentences</strong> 158<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: <strong>Longest</strong> <strong>sentences</strong> 160<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: <strong>Longest</strong> <strong>sentences</strong> 162<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: <strong>Longest</strong> <strong>sentences</strong> 164


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Length of <strong>sentences</strong> in characters 166<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Length of <strong>sentences</strong> in characters 167<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Length of <strong>sentences</strong> in characters 168<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Length of <strong>sentences</strong> in characters 169<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Length of <strong>sentences</strong> in characters 170<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Length of <strong>sentences</strong> in characters 171<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Length of <strong>sentences</strong> in characters 172<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Length of <strong>sentences</strong> in characters 173<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Length of <strong>sentences</strong> in characters 174<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Length of <strong>sentences</strong> in characters 175<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Length of <strong>sentences</strong> in words 176<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Length of <strong>sentences</strong> in words 177<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Length of <strong>sentences</strong> in words 178<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Length of <strong>sentences</strong> in words 179<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Length of <strong>sentences</strong> in words 180<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Length of <strong>sentences</strong> in words 181<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Length of <strong>sentences</strong> in words 182<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Length of <strong>sentences</strong> in words 183<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Length of <strong>sentences</strong> in words 184<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Length of <strong>sentences</strong> in words 185<br />

Oddities details 186<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: <strong>Longest</strong> words 186<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: <strong>Longest</strong> words 186<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: <strong>Longest</strong> words 187<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: <strong>Longest</strong> words 187<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: <strong>Longest</strong> words 188<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: <strong>Longest</strong> words 188<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: <strong>Longest</strong> words 189<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: <strong>Longest</strong> words 189<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: <strong>Longest</strong> words 190<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: <strong>Longest</strong> words 190<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Sentences with high average word length 191<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Sentences with high average word length 192<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Sentences with high average word length 193<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Sentences with high average word length 194<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Sentences with high average word length 195<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Sentences with high average word length 196


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Problems with sentence segmentation - words ending in a s<strong>to</strong>pword 197<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Problems with sentence segmentation - words ending in a s<strong>to</strong>pword 197<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Problems with sentence segmentation - words ending in a s<strong>to</strong>pword 198<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Problems with sentence segmentation - words ending in a s<strong>to</strong>pword 199<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Problems with sentence segmentation - words ending in a<br />

s<strong>to</strong>pword 200<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Problems with sentence segmentation - words ending in a<br />

s<strong>to</strong>pword 201<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Problems with sentence segmentation - words ending in a<br />

s<strong>to</strong>pword 201<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Problems with sentence segmentation - words ending in a s<strong>to</strong>pword 202<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Problems with sentence segmentation - words ending in a s<strong>to</strong>pword 203<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Problems with sentence segmentation - words ending in a s<strong>to</strong>pword 204


Danish corpora<br />

Introduction <strong>to</strong> corpus creation<br />

The <strong>Leipzig</strong> Corpora Collection (LCC) collects Web based corpora for many different languages. The main text<br />

genres are <strong>news</strong>paper texts, Wikipedias and randomly collected web pages. All corpora are processed in the same<br />

way:<br />

• Crawling Web pages<br />

• HTML stripping<br />

• Language identifikation<br />

• Sentence segmentation<br />

• Cleaning: Removal of ill-formed <strong>sentences</strong><br />

• Duplicate removal<br />

• Calculation of word frequences and word co-occurrences<br />

As result we have a corpus containing only well-formed <strong>sentences</strong> in the language under consideration. The<br />

<strong>sentences</strong> are in random order; hence, sharing the corpus does not violate copyright law because it is impossible <strong>to</strong><br />

reconstruct the original texts.<br />

The pre-processing steps contain both language independent steps (like HTML stripping and duplicate removal) and<br />

language dependent steps (like language identification and sentence segmentation). Especially the language specific<br />

parts are vulnerable <strong>to</strong> specific processing problems. The aim of the paper is <strong>to</strong> identify possible problems and<br />

evaluate the results. The following problems are adressed:<br />

• A processing-focused language description<br />

• Language size: How much text is available for this language? What are the biggest sources?<br />

• Corpus description: Genre, size, crawling and processing date.<br />

• Possible problems in language identification: Which languages are similar?<br />

• Character set and alphabet<br />

• Inspecting the word list: Most frequent words, longer high frequent words and longest words at all. Word length<br />

distribution.<br />

• Can abbreviations confuse sentence segmentation? Information about the abbreviation list.<br />

• Inspecting <strong>sentences</strong>: Inspect shortest and longest <strong>sentences</strong> <strong>to</strong> identify possible segmentation problems. Sentence<br />

length distribution.<br />

The paper describes the result of these inspections; the appendices show the exact results for the different corpora.<br />

This helps <strong>to</strong> compare the corpora with respect <strong>to</strong> quality. In the section quality overview, an overall quality<br />

description for each corpus is given. All corpora contain only minor problems which are irrelevant for most<br />

applications. Otherwise the corpus creation has been iterated.<br />

1


DAN - a processing related language description 2<br />

DAN - a processing related language description<br />

General properties of the Danish language<br />

• Native Name: Dansk<br />

• Classifiation: Indo-European, Germanic, North, East Scandinavian, Danish-Swedish, Danish-Riksmal, Danish<br />

• Total Number of Speakers: 5.6M<br />

• Largest countries with number of spakers: Denmark (5.6M)<br />

• Source: http:/ / www. dst. dk/ en/ Statistik/ emner/ befolkning-og-befolkningsfremskrivning/ folketal. aspx<br />

Processing summary<br />

• latin alphabet with some additional characters<br />

• full s<strong>to</strong>p is used as sentence boundary and for abbreviations<br />

• apostros<strong>to</strong>phes used rarely<br />

Properties important for processing<br />

Alphabet and punctuation<br />

• The alphabet is latin based, with the following specialities (sources: http:/ / en. wikipedia. org/ wiki/<br />

Alphabets_derived_from_the_Latin and http:/ / en. wikipedia. org/ wiki/ Danish_and_Norwegian_alphabet):<br />

• Danish includes all 26 base letters and Æ, Ø, Å<br />

• Additional letter forms: É (a diacritic used for disamgiguation: en/et - én/ét)<br />

• In foreign words: Á, À, Â, Ä, É, È, Ê, Ë, Í, Ì, Î, Ï, Ó, Ò, Ô, Ö, Ú, Ù, Û, Ü and more<br />

• Additional digraphs: EE in foreign words (trainee, frisbee); AA in older texts (replaced by å in 1948) and<br />

names (Aalborg, Aarhus). NB! Aa is treetet like Å in alphabetical sorting in <strong>dan</strong>ish words only, meaning that<br />

Aabenraa is listet under Å (last letter of the alphabet) and Aachen under A.<br />

• Å, Æ and Ø might occur as AA, AE and OE in newer texts (avoi<strong>dan</strong>ce of language specific letters)<br />

• Usual latin punctuation<br />

• Usage of uppercase letters:<br />

• At sentence beginnings and<br />

• for proper names (of persons, organisations, countries etc.).<br />

• When a word beginning with Aa is capitalized, only the first letter becomes capital, e.g. Aarhus.<br />

Sentence segmentation and word <strong>to</strong>kenization<br />

• Sentence beginnings<br />

• Sentences begin with a capitalized first word.<br />

• Abbreviations<br />

• Abbreviations confusing with sentence boundaries: Special abbreviation list has <strong>to</strong> be inspected.<br />

• Sources for abbreviations: http:/ / www. dsn. dk/ retskrivning/ retskrivningsregler/ a7-40-60/ a7-41-43/ a7-42<br />

and http:/ / www. dsn. dk/ sprogviden/ udgivelser/ sprognaevnets-skriftserie-1/ flere-udgivelser/<br />

Rigtigt%20kort%20indskannet. pdf/ at_download/ file<br />

• Abbreviations with full s<strong>to</strong>p may appear in the word list without full s<strong>to</strong>p.<br />

• Apostrophes (http:/ / www. dsn. dk/ retskrivning/ retskrivningsregler/ a7-1-6/ a7-6)


DAN - a processing related language description 3<br />

• Use of apostrophes: infrequent.<br />

• in elliptical forms like "bli'", "hva'", "ha'", "ka'" and "la'r" instead of "blive", "hvad", "have", "kan" and "lader"<br />

(Bitte überprüfen, warum nach "ha'" immer ein ";" steht, dies passt nicht)<br />

• <strong>to</strong> mark combination of a word/radical and inflectional endings:<br />

• in combination of definite article: euro'en, PC'en, SMS'erne, OP'ens, CD-ROM'en<br />

• used <strong>to</strong> mark genitive (instead of "s") in words that end with the letters s, z or x: Marx's ven Wilhelm<br />

Liebknecht, Georg Brandes' Plads<br />

• <strong>to</strong> mark a genitive or plural form with "s": Jan's, fo<strong>to</strong>'s (both incorrect but frequent usages), and, in certain<br />

cases, other inflectional endings on proper names: Albert'er (2x Albert), Alberte'r (2x Alberte), Borges'ske<br />

dimensioner, Crohn's sygdom<br />

• in combination with english (or other foreign) words: chicken satay's, Google's brugsoplevelser<br />

• <strong>to</strong> mark combination of numerals and inflectional endings: 60'er-rock<br />

• <strong>to</strong> mark combination of foreign words ending on "-ee" and inflectional endings: frisbee'en, yankee'er<br />

• Mainly used <strong>to</strong> mark citations<br />

Sources and ranking (2012)<br />

• Estimated number of webpages containing text<br />

• Google.com <strong>to</strong>p-5 words: 3.170.000 results for "i" "og" "at" "er" "på"<br />

• Google.com <strong>to</strong>p-10 words: 1.190.000 results for "i" "og" "at" "er" "på" "til" "en" "af" "for" "med"<br />

• Rank according <strong>to</strong> number of speakers (Ethnologue): 111<br />

• Rank according <strong>to</strong> Wikipedia size (see http:/ / de. wikipedia. org/ wiki/ Wikipedia:Sprachen): Rank 30 with<br />

172.000 articles.<br />

• Rank according <strong>to</strong> number of <strong>news</strong>papers as found by AbyZ (5/2012): 160 <strong>news</strong>papers, rank 15.<br />

• Rank according <strong>to</strong> number of <strong>news</strong>papers with RSS feeds (5/2012): 110 <strong>news</strong>papers, rank 14.<br />

• Rank according <strong>to</strong> our corpus size (9/2012): 19


DAN corpora 4<br />

DAN corpora<br />

Quality Overview<br />

Quality Ratings<br />

• A: Very good quality. Ready <strong>to</strong> use (or already used) for frequency dictionary.<br />

• Size as large as possible<br />

• Only minimal errors<br />

• Multiple genres (if possible)<br />

• A-: Small problems identified. They should not affect usage.<br />

• B: Native speaker quality.<br />

• Information about abbreviations and sentence boundaries by native speaker<br />

• Resulting statistics checked by native speaker, possible errors corrected<br />

• C: Non-native speaker quality<br />

• Obvious problems shown in corpus statistics are corrected<br />

• D: First version<br />

• Pre-processing with default abbreviation list and default sentence boundaries<br />

• E: Poor Quality: Old, outdated or faulty.<br />

Corpus Quality<br />

The quality of the corpora differes slightly because the corpus processing <strong>to</strong>olchain changed slightly during several<br />

years. Moreover, original data are often no more available. Hence, improvement of quality often means removing<br />

incomplete or doubtful <strong>sentences</strong>. Forthcoming editions of all corpora thus might have a slightly smaller number of<br />

<strong>sentences</strong>. This especially applies <strong>to</strong> near duplicate <strong>sentences</strong> which are removed only sparingly.<br />

The following table shows the quality of the corpora. Minimal errors are still possible and described in the sections<br />

below. All possible major improvements are mentioned here.<br />

Corpus Quality rating Known problems <strong>to</strong>-dos<br />

<strong>dan</strong>_<strong>news</strong>_<strong>2007</strong> A- near duplicates, see sentence length distibution -<br />

<strong>dan</strong>_<strong>news</strong>_2008 A - -<br />

<strong>dan</strong>_<strong>news</strong>_2010 A - -<br />

<strong>dan</strong>_<strong>news</strong>_2011 A - -<br />

<strong>dan</strong>_<strong>news</strong>crawl_2011 A - -<br />

<strong>dan</strong>_wikipedia_<strong>2007</strong> A- near duplicates, see sentence length distibution -<br />

<strong>dan</strong>_wikipedia_2012 A - -<br />

<strong>dan</strong>_web_2002 A - -<br />

<strong>dan</strong>_web_2011 A - -<br />

<strong>dan</strong>_mixed_2012 A - -


DAN corpora 5<br />

Processing Overview<br />

For more details, see <strong>Appendix</strong>: Database Summary and <strong>Appendix</strong>: Number of sources by time period.<br />

Corpus Size (M <strong>sentences</strong>) Size (M running words) Multiwords Crawling date Production date<br />

<strong>dan</strong>_<strong>news</strong>_<strong>2007</strong> 1.0 18 0 03-12/<strong>2007</strong> 2012<br />

<strong>dan</strong>_<strong>news</strong>_2008 0.8 15 10.311 01-06/2008 2012<br />

<strong>dan</strong>_<strong>news</strong>_2010 .7 14 9.693 06-12/2010 2012<br />

<strong>dan</strong>_<strong>news</strong>_2011 1.2 22 11.762 dayly 2011 2012<br />

<strong>dan</strong>_<strong>news</strong>crawl_2011 2.5 44 18.202 batch crawling 2012<br />

<strong>dan</strong>_wikipedia_<strong>2007</strong> 0.4 7 25833 dump <strong>2007</strong> 2011<br />

<strong>dan</strong>_wikipedia_2012 0.6 10 26.875 dump 2012 2012<br />

<strong>dan</strong>_web_2002 9.5 155 0 randomly 2002 <strong>2007</strong><br />

<strong>dan</strong>_web_2011 6.2 103 21.247 randomly 2011 2012<br />

<strong>dan</strong>_mixed_2012 21.4 368 43740 - 2012<br />

Content Overview<br />

For more details, see <strong>Appendix</strong>: Size of different TLDs and <strong>Appendix</strong>: Size of different domains.<br />

Words<br />

Corpus Type of sources Countries Number of sources Publishing date Biggest source<br />

<strong>dan</strong>_<strong>news</strong>_<strong>2007</strong> News dk 42 <strong>news</strong>papers <strong>2007</strong> www.dr.dk/<br />

<strong>dan</strong>_<strong>news</strong>_2008 News dk 56 <strong>news</strong>papers 2008 www.dr.dk/<br />

<strong>dan</strong>_<strong>news</strong>_2010 News dk 45 <strong>news</strong>papers 2010 www.dr.dk/<br />

<strong>dan</strong>_<strong>news</strong>_2011 News dk 36 <strong>news</strong>papers 2011 www.dr.dk/<br />

<strong>dan</strong>_<strong>news</strong>crawl_2011 News dk 73 <strong>news</strong>papers 2011 and before www.arbejderen.dk/<br />

<strong>dan</strong>_wikipedia_<strong>2007</strong> Wikipedia - - - -<br />

<strong>dan</strong>_wikipedia_2012 Wikipedia - - - -<br />

<strong>dan</strong>_web_2002 Web dk 29.071 domains 2002 and before<br />

<strong>dan</strong>_web_2011 Web dk 59.009 domains 2011 and before aarhus.lokalavisen.dk/<br />

<strong>dan</strong>_mixed_2012 combined combined 59.037 domains 2011 and before www.dr.dk/<br />

<strong>Appendix</strong>: Words by Length without multiplicity and <strong>Appendix</strong>: Words by Length without multiplicity show<br />

the length distribution for words. The curves should be smooth and decreasing for length>=5.<br />

<strong>Appendix</strong>: The Most Frequent 50 Words shows the most frequent s<strong>to</strong>pwords as well as one or more words related<br />

<strong>to</strong> the region.<br />

<strong>Appendix</strong>: <strong>Longest</strong> Words in Top-1000 by rank shows the 25 longest words within the <strong>to</strong>p-1000. They usually<br />

give an impression of the main <strong>to</strong>pics treated in the corpus.<br />

<strong>Appendix</strong>: <strong>Longest</strong> Words with minimum frequency 2 should give an idea of very long words. In the case of<br />

processing problems, different types of non-words may appear. This might help <strong>to</strong> improve the word definition.


DAN corpora 6<br />

Corpus Word length graph<br />

without multiplicity<br />

Word length graph<br />

with multiplicity<br />

Most Frequent<br />

50 Words<br />

<strong>Longest</strong> Words in<br />

Top-1000<br />

<strong>Longest</strong> Words with<br />

minimum frequency 2<br />

<strong>dan</strong>_<strong>news</strong>_<strong>2007</strong> okay okay, min. avg. 5.04 okay okay URLs, routes<br />

<strong>dan</strong>_<strong>news</strong>_2008 okay okay okay okay okay<br />

<strong>dan</strong>_<strong>news</strong>_2010 okay okay okay okay URLs, routes<br />

<strong>dan</strong>_<strong>news</strong>_2011 okay okay okay okay missing blanks, hex strings<br />

<strong>dan</strong>_<strong>news</strong>crawl_2011 okay okay Publiceret and .. okay URLs, routes, missing<br />

<strong>dan</strong>_wikipedia_<strong>2007</strong> okay, min. avg. 10.12 okay, max. avg. 5.36 okay okay URLs, routes<br />

<strong>dan</strong>_wikipedia_2012 okay okay okay okay URLs<br />

<strong>dan</strong>_web_2002 okay, max. avg. 12.07 okay okay okay missing blanks, special<br />

blanks<br />

characters<br />

<strong>dan</strong>_web_2011 okay okay okay okay missing blanks, special<br />

characters<br />

<strong>dan</strong>_mixed_2012 okay okay okay okay all errors as above<br />

Remarks<br />

• The average word length (without multiplicity) differs for the different text genres.<br />

• There is an unexpected minimum in the length distribution (with multiplicity) for length 4.<br />

Abbreviations<br />

For sentence boundary detection, abbreviations ending in a full s<strong>to</strong>p are of interest: Such abbreviations are usually<br />

not used as sentence boundaries. Conversely, missing abbreviations can overgenerate sentence boundaries. The list<br />

of abbreviations is of high quality: nearly complete and manually checked.<br />

Due <strong>to</strong> limitations in the processing chain, this list of abbreviations is only used for sentence boundary detection and<br />

not included in the word list. Hence, abbreviations ending with a full s<strong>to</strong>p appear in the word list without the full<br />

s<strong>to</strong>p.<br />

Sentences<br />

<strong>Appendix</strong>: Shortest <strong>sentences</strong> shows the shortest declarative, exclama<strong>to</strong>ry and interrogative <strong>sentences</strong>. In<br />

preprocessing, a minimal length for <strong>sentences</strong> might be specified. And missing abbreviations are often visible as<br />

faulty sentence endings.<br />

<strong>Appendix</strong>: <strong>Longest</strong> <strong>sentences</strong> shows the longest declarative, exclama<strong>to</strong>ry and interrogative <strong>sentences</strong>. Usually, the<br />

maximun sentence length is defined as 256 characters (not 256 bytes). Very long exclama<strong>to</strong>ry or interrogative<br />

<strong>sentences</strong> often contain an overseen sentence boundary.<br />

<strong>Appendix</strong>: Length of <strong>sentences</strong> in characters shows the distribution of the sentence length. A large and balanced<br />

corpus will result in a smooth and bell-shaped curve. Isolated local maxima usually result from large sets of near<br />

duplicate <strong>sentences</strong>.


DAN corpora 7<br />

Corpus Shortest <strong>sentences</strong> <strong>Longest</strong> <strong>sentences</strong> Length distribution<br />

(in characters)<br />

<strong>dan</strong>_<strong>news</strong>_<strong>2007</strong> unsymmetric quotation marks okay near duplicate peak at<br />

<strong>dan</strong>_<strong>news</strong>_2008 some unsymmetric quotation marks okay <strong>sentences</strong> longer than<br />

<strong>dan</strong>_<strong>news</strong>_2010 okay 1 menu list, 2x hex data near duplicate peak at<br />

<strong>dan</strong>_<strong>news</strong>_2011 duplicate <strong>sentences</strong> declarative <strong>sentences</strong> with<br />

many time data<br />

<strong>dan</strong>_<strong>news</strong>crawl_2011 okay declarative <strong>sentences</strong> with<br />

<strong>dan</strong>_wikipedia_<strong>2007</strong> declarative <strong>sentences</strong> beginning with digits<br />

and ending with abbrev.<br />

many time data<br />

48<br />

255?<br />

42?<br />

near duplicate peak at<br />

42<br />

many near duplicate<br />

peaks<br />

okay near duplicate peak at<br />

<strong>dan</strong>_wikipedia_2012 okay okay okay okay<br />

<strong>dan</strong>_web_2002 declarative non-<strong>sentences</strong>, interrogative<br />

<strong>sentences</strong> beginning lowercase or with blank<br />

<strong>dan</strong>_web_2011 Lowercase beginnings for declarative<br />

<strong>sentences</strong><br />

20<br />

Length distribution<br />

(in words)<br />

okay<br />

okay<br />

okay<br />

okay<br />

many near duplicate<br />

peaks<br />

okay very smooth okay<br />

Enumerations, multiple<br />

<strong>sentences</strong><br />

<strong>dan</strong>_mixed_2012 max. 277 characters<br />

Oddities<br />

sharp maximum at<br />

<strong>Appendix</strong>: Sentences with high average word length: Average <strong>sentences</strong> contain many s<strong>to</strong>pwords, and these<br />

s<strong>to</strong>pwords are usually short. Hence, they restrict the average word length in a sentence. Conversely, <strong>sentences</strong> with<br />

high average word length are often ill formed. They may be used <strong>to</strong> improve pre-processing.<br />

<strong>Appendix</strong>: Problems with sentence segmentation - Words ending in a s<strong>to</strong>pword: If there are many ill-formed<br />

word or sentence boundaries wi<strong>to</strong>ut a blank between two words, they will generate new ill-formed words. The<br />

appendix shows the most frequent words ending in an uppercase s<strong>to</strong>pword. If they are infrequent then the date were<br />

of high quality.<br />

Corpus Sentences with high average word length Words ending in a s<strong>to</strong>pword ...<br />

<strong>dan</strong>_<strong>news</strong>_<strong>2007</strong> all kinds of errors okay<br />

<strong>dan</strong>_<strong>news</strong>_2008 okay okay<br />

<strong>dan</strong>_<strong>news</strong>_2010 2x hex strings maxfreq=11<br />

<strong>dan</strong>_<strong>news</strong>_2011 2x hex strings, 2x missing blanks maxfreq=24<br />

<strong>dan</strong>_<strong>news</strong>crawl_2011 1x missing blanks maxfreq=805<br />

<strong>dan</strong>_wikipedia_<strong>2007</strong> (no data) okay<br />

<strong>dan</strong>_wikipedia_2012 okay maxfreq=27<br />

<strong>dan</strong>_web_2002 missing blanks, underscores maxfreq=67<br />

<strong>dan</strong>_web_2011 missing blanks maxfreq=58<br />

<strong>dan</strong>_mixed_2012 missing blanks, underscores words containing ";"<br />

10


DAN corpus comparison 8<br />

DAN corpus comparison<br />

Au<strong>to</strong>mated Corpus comparison<br />

For the conducted comparisons, the following tests on the <strong>to</strong>p-1000 words are performed:<br />

• Vec<strong>to</strong>rs based on the frequencies of the <strong>to</strong>p-1000 words are created for the analysed languages. As similarity<br />

value, 1-cos(alpha) of the angle alpha between these vec<strong>to</strong>rs is computed. Identical languages receive a value of 0,<br />

distinct languages get a value of 1.<br />

• The same analysis is conducted using the frequencies of the <strong>to</strong>p-1000 typical letter trigrams of the languages.<br />

Monolingual word list comparison (<strong>to</strong>p-1000 words)<br />

As one can expect the comparisons show:<br />

• The different <strong>news</strong> corpora have word lists with maximum distance 0.19 (<strong>dan</strong>_<strong>news</strong>crawl_2011 and<br />

<strong>dan</strong>_<strong>news</strong>_2008)<br />

• The web corpora have word lists with distance 0.13<br />

• The wikipedia corpora are similar with distance 0.10<br />

• The biggest distance of 0.36 can be found between <strong>dan</strong>_wikipedia_<strong>2007</strong> <strong>dan</strong>_<strong>news</strong>_2008<br />

• The mixed corpus <strong>dan</strong>_mixed_2012 has a central position within the corpora and has a maximum distance of 0.31<br />

<strong>to</strong> the wikipedia_<strong>2007</strong> corpus<br />

Multilingual word list comparison (<strong>to</strong>p-1000 words)<br />

Both the comparison of the <strong>to</strong>p-1000 words and the comparison of the letter trigrams used in these words were<br />

conducted <strong>to</strong> find the most similar languages based on these features. The distance of Danish <strong>to</strong> the next languages<br />

considering words is 0.47 <strong>to</strong> Swedish. Considering letter trigrams the nearest language with distance 0.38 is Bokmål.<br />

These distances are below average. On average the value for the most similar language <strong>to</strong> a language in question is<br />

0.58 for trigrams.<br />

• The most similar languages based on words: Swedish, Bokmål, Nynorsk<br />

+--------+---------------------+--------------------+-------------+<br />

| source | language_short_name | language_name | cos_logfreq |<br />

+--------+---------------------+--------------------+-------------+<br />

| <strong>dan</strong> | swe | Swedish | 0.469093 |<br />

| <strong>dan</strong> | nob | Norwegian, Bokmål | 0.492077 |<br />

| <strong>dan</strong> | nno | Norwegian, Nynorsk | 0.573548 |<br />

| <strong>dan</strong> | fao | Faroese | 0.813491 |<br />

| <strong>dan</strong> | isl | Icelandic | 0.828406 |<br />

+--------+---------------------+--------------------+-------------+<br />

• The most similar languages based on letter trigrams: Bokmål, Swedish, Dutch<br />

+--------+---------------------+--------------------+-------------+<br />

| source | language_short_name | language_name | cos_logfreq |<br />

+--------+---------------------+--------------------+-------------+<br />

| <strong>dan</strong> | nob | Norwegian, Bokmål | 0.381547 |<br />

| <strong>dan</strong> | swe | Swedish | 0.544641 |<br />

| <strong>dan</strong> | nld | Dutch | 0.547686 |<br />

| <strong>dan</strong> | nno | Norwegian, Nynorsk | 0.563022 |


DAN corpus comparison 9<br />

| <strong>dan</strong> | deu | German | 0.581681 |<br />

+--------+---------------------+--------------------+-------------+<br />

.


Processing details<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Database summary<br />

Values for some general parameters<br />

Parameter Value<br />

Number of <strong>sentences</strong> 1019416<br />

Number of running word forms 18004757<br />

Number of distinct word forms 496351<br />

Number of multiwords 0<br />

Percentage of words with frequency=1 54.9835<br />

Number of sentence based co-occurrences 3323980<br />

Number of neighbour co-occurrences 465789<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Database summary<br />

Values for some general parameters<br />

Parameter Value<br />

Number of <strong>sentences</strong> 764570<br />

Number of running word forms 14724500<br />

Number of distinct word forms 411502<br />

Number of multiwords 10311<br />

Percentage of words with frequency=1 53.3893<br />

Number of sentence based co-occurrences 3271410<br />

Number of neighbour co-occurrences 404953<br />

10


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Database summary 11<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Database summary<br />

Values for some general parameters<br />

Parameter Value<br />

Number of <strong>sentences</strong> 734284<br />

Number of running word forms 13333010<br />

Number of distinct word forms 393468<br />

Number of multiwords 9696<br />

Percentage of words with frequency=1 53.8712<br />

Number of sentence based co-occurrences 2708704<br />

Number of neighbour co-occurrences 364115<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Database summary<br />

Values for some general parameters<br />

Parameter Value<br />

Number of <strong>sentences</strong> 1219425<br />

Number of running word forms 21802092<br />

Number of distinct word forms 520768<br />

Number of multiwords 11762<br />

Percentage of words with frequency=1 54.6631<br />

Number of sentence based co-occurrences 4250226<br />

Number of neighbour co-occurrences 538976


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Database summary 12<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Database<br />

summary<br />

Values for some general parameters<br />

Parameter Value<br />

Number of <strong>sentences</strong> 2495624<br />

Number of running word forms 43803329<br />

Number of distinct word forms 862781<br />

Number of multiwords 18202<br />

Percentage of words with frequency=1 57.0620<br />

Number of sentence based co-occurrences 6424512<br />

Number of neighbour co-occurrences 887568<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Database<br />

summary<br />

Values for some general parameters<br />

Parameter Value<br />

Number of <strong>sentences</strong> 425109<br />

Number of running word forms 6890416<br />

Number of distinct word forms 399379<br />

Number of multiwords 25833<br />

Percentage of words with frequency=1 57.8318<br />

Number of sentence based co-occurrences 1500578<br />

Number of neighbour co-occurrences 213947


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Database summary 13<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Database<br />

summary<br />

Values for some general parameters<br />

Parameter Value<br />

Number of <strong>sentences</strong> 579053<br />

Number of running word forms 10377606<br />

Number of distinct word forms 544816<br />

Number of multiwords 26875<br />

Percentage of words with frequency=1 59.4762<br />

Number of sentence based co-occurrences 1894246<br />

Number of neighbour co-occurrences 291356<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Database summary<br />

Values for some general parameters<br />

Parameter Value<br />

Number of <strong>sentences</strong> 9499926<br />

Number of running word forms 154815516<br />

Number of distinct word forms 3119110<br />

Number of multiwords 0<br />

Percentage of words with frequency=1 60.7960<br />

Number of sentence based co-occurrences 22847154<br />

Number of neighbour co-occurrences 2671468


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Database summary 14<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Database summary<br />

Values for some general parameters<br />

Parameter Value<br />

Number of <strong>sentences</strong> 6154285<br />

Number of running word forms 103167130<br />

Number of distinct word forms 2168778<br />

Number of multiwords 21247<br />

Percentage of words with frequency=1 56.3487<br />

Number of sentence based co-occurrences 17531252<br />

Number of neighbour co-occurrences 1934237<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Database summary<br />

Values for some general parameters<br />

Parameter Value<br />

Number of <strong>sentences</strong> 21386227<br />

Number of running word forms 368106768<br />

Number of distinct word forms 5190886<br />

Number of multiwords 43749<br />

Percentage of words with frequency=1 59.4620<br />

Number of sentence based co-occurrences 51650334<br />

Number of neighbour co-occurrences 5229029


Content details<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Size of different<br />

TLDs<br />

TLDs larger than 1%<br />

TLD # of sources %<br />

.dk/ 107255 96.70<br />

.nu/ 3380 3.05<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Size of different<br />

TLDs<br />

TLDs larger than 1%<br />

TLD # of sources %<br />

.dk/ 106032 97.73<br />

.nu/ <strong>2007</strong> 1.85<br />

15


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Size of different TLDs 16<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Size of different<br />

TLDs<br />

TLDs larger than 1%<br />

TLD # of sources %<br />

.dk/ 69425 92.27<br />

.nu/ 3061 4.07<br />

com/ 2753 3.66<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Size of different<br />

TLDs<br />

TLDs larger than 1%<br />

TLD # of sources %<br />

.dk/ 104158 86.89<br />

com/ 10508 8.77<br />

.nu/ 5212 4.35


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Size of different TLDs 17<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Size of<br />

different TLDs<br />

TLDs larger than 1%<br />

TLD # of sources %<br />

.dk/ 197282 99.99<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Size of different<br />

TLDs<br />

TLDs larger than 1%<br />

TLD # of sources %<br />

.dk/ 39035 99.83<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Size of different<br />

TLDs<br />

TLDs larger than 1%<br />

TLD # of sources %<br />

.dk/ 753536 95.97<br />

com/ 9155 1.17


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Size of different TLDs 18<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Size of different<br />

TLDs<br />

TLDs larger than 1%<br />

TLD # of sources %<br />

.dk/ 1324571 89.85<br />

tp:/ 50846 3.45<br />

com/ 22915 1.55<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Size of largest<br />

domains<br />

Largest domains<br />

Source # of <strong>sentences</strong><br />

www.dr.dk/ 259782<br />

www.berlingske.dk/ 233418<br />

www.fyn.dk/ 97044<br />

borsen.dk/ 79034<br />

www.computerworld.dk/ 58308<br />

www.business.dk/ 51640<br />

www.bt.dk/ 40671<br />

politiken.dk/ 32582<br />

www.mo<strong>to</strong>rsporten.dk/ 32277<br />

sporten.tv2.dk/ 26313<br />

# of distinct sources<br />

42


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Size of largest domains 19<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Size of largest<br />

domains<br />

Largest domains<br />

Source # of <strong>sentences</strong><br />

www.dr.dk/ 185723<br />

www.berlingske.dk/ 154839<br />

www.business.dk/ 87124<br />

www.fyn.dk/ 80440<br />

borsen.dk/ 59419<br />

sporten.tv2.dk/ 26905<br />

politiken.dk/ 26089<br />

www.computerworld.dk/ 24925<br />

www.sportenkort.dk/ 21628<br />

www.bt.dk/ 16513<br />

# of distinct sources<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Size of largest<br />

domains<br />

Largest domains<br />

56<br />

Source # of <strong>sentences</strong><br />

www.dr.dk/ 224578<br />

www.berlingske.dk/ 90621<br />

www.business.dk/ 54917<br />

politiken.dk/ 50434<br />

www.computerworld.dk/ 43139<br />

www.comon.dk/ 37188<br />

borsen.dk/ 33020<br />

www.information.dk/ 32329<br />

www.sporten.dk/ 21588<br />

sporten.tv2.dk/ 17850<br />

# of distinct sources<br />

45


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Size of largest domains 20<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Size of largest<br />

domains<br />

Largest domains<br />

Source # of <strong>sentences</strong><br />

www.dr.dk/ 391870<br />

politiken.dk/ 106373<br />

www.b.dk/ 103455<br />

www.business.dk/ 72685<br />

www.computerworld.dk/ 71436<br />

borsen.dk.feedsportal.com/ 70864<br />

www.sporten.dk/ 66083<br />

sporten.tv2.dk/ 61521<br />

www.comon.dk/ 46734<br />

www.mo<strong>to</strong>rsporten.dk/ 28741<br />

# of distinct sources<br />

36


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Size of largest domains 21<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Size of largest<br />

domains<br />

Largest domains<br />

Source # of <strong>sentences</strong><br />

www.arbejderen.dk/ 805553<br />

www.information.dk/ 524497<br />

www.folketidende.dk/ 202615<br />

www.tv2east.dk/ 199033<br />

www.dr.dk/ 129635<br />

aarhus.lokalavisen.dk/ 115949<br />

www.bt.dk/ 93941<br />

www.nordjyske.dk/ 76035<br />

alleroed.lokalavisen.dk/ 61821<br />

www.jv.dk/ 58983<br />

# of distinct sources<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Size of largest<br />

domains<br />

73<br />

# of distinct sources<br />

29071


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Size of largest domains 22<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Size of largest<br />

domains<br />

Largest domains<br />

Source # of <strong>sentences</strong><br />

aarhus.lokalavisen.dk/ 161640<br />

www.3dmaxer.dk/ 48402<br />

www2.viauc.dk/ 37972<br />

www.kvinfo.dk/ 19037<br />

aarhus.guide.dk/ 16952<br />

www.italy.dk/ 14460<br />

www.vestrehus.dk/ 6189<br />

www.stud.hum.ku.dk/ 6084<br />

www.holidayhome4you.dk/ 5967<br />

www.fagboginfo.dk/ 5665<br />

# of distinct sources<br />

59009<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Size of largest<br />

domains<br />

Largest domains<br />

Source # of <strong>sentences</strong><br />

www.dr.dk/ 1162522<br />

www.arbejderen.dk/ 803859<br />

www.information.dk/ 557356<br />

www.berlingske.dk/ 474737<br />

www.business.dk/ 262011<br />

www.tv2east.dk/ 221261<br />

politiken.dk/ 212362<br />

www.folketidende.dk/ 197802<br />

# of distinct sources<br />

59032


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Number of sources by time period 23<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Number of sources<br />

by time period<br />

Number of sources by year, month, and day<br />

Number of sources per year<br />

Number of sources per month<br />

year # of sources %<br />

<strong>2007</strong> 110910 100.00<br />

month # of sources %<br />

<strong>2007</strong>-03 5078 4.58<br />

<strong>2007</strong>-04 5161 4.65<br />

<strong>2007</strong>-05 11177 10.08<br />

<strong>2007</strong>-06 13156 11.86<br />

<strong>2007</strong>-07 9814 8.85<br />

<strong>2007</strong>-08 16406 14.79<br />

<strong>2007</strong>-09 12338 11.12<br />

<strong>2007</strong>-10 14256 12.85<br />

<strong>2007</strong>-11 11995 10.82


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Number of sources by time period 24<br />

<strong>2007</strong>-12 11529 10.39<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Number of sources<br />

by time period<br />

Number of sources by year, month, and day<br />

Number of sources per year<br />

Number of sources per month<br />

year # of sources %<br />

2008 105999 97.70<br />

2012 2492 2.30


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Number of sources by time period 25<br />

month # of sources %<br />

2008-01 14476 13.34<br />

2008-02 14635 13.49<br />

2008-03 19163 17.66<br />

2008-04 20141 18.56<br />

2008-05 20573 18.96<br />

2008-06 15249 14.06<br />

2012-10 2492 2.30<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Number of sources<br />

by time period<br />

Number of sources by year, month, and day


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Number of sources by time period 26<br />

Number of sources per year<br />

Number of sources per month<br />

year # of sources %<br />

2010 75239 100.00<br />

month # of sources %<br />

2010-06 4930 6.55<br />

2010-07 9921 13.19<br />

2010-08 10903 14.49<br />

2010-09 9118 12.12<br />

2010-10 13343 17.73<br />

2010-11 12704 16.88<br />

2010-12 12077 16.05<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Number of sources<br />

by time period<br />

Number of sources by year, month, and day


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Number of sources by time period 27<br />

Number of sources per year<br />

Number of sources per month<br />

year # of sources %<br />

2011 119878 100.00<br />

month # of sources %<br />

2011-01 11115 9.27<br />

2011-02 10318 8.61<br />

2011-03 7205 6.01<br />

2011-04 9510 7.93<br />

2011-05 10717 8.94<br />

2011-06 6463 5.39<br />

2011-07 10772 8.99<br />

2011-08 11242 9.38<br />

2011-09 10658 8.89<br />

2011-10 11833 9.87<br />

2011-11 11046 9.21<br />

2011-12 8999 7.51


Word details<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Words by length<br />

without multiplicity<br />

Percentage of words of fixed length in characters, counted without multiplicty<br />

Average word length<br />

11.0175<br />

word length percentage<br />

1 0.0355<br />

2 0.3018<br />

3 1.6676<br />

4 3.3990<br />

5 5.5698<br />

6 6.4414<br />

7 7.4596<br />

8 7.9605<br />

9 8.3681<br />

28


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Words by length without multiplicity 29<br />

10 8.4132<br />

11 8.1553<br />

12 7.4339<br />

13 6.7170<br />

14 5.9637<br />

15 5.1524<br />

16 4.2788<br />

17 3.5336<br />

18 2.6602<br />

19 2.0153<br />

20 1.4490<br />

21 1.0245<br />

22 0.6844<br />

23 0.4656<br />

24 0.3080<br />

25 0.1928<br />

26 0.1181<br />

27 0.0756<br />

28 0.0524<br />

29 0.0328<br />

30 0.0214<br />

31 0.0155<br />

32 0.0073<br />

33 0.0089<br />

34 0.0042<br />

35 0.0028<br />

36 0.0022<br />

37 0.0040<br />

38 0.0014<br />

39 0.0014<br />

40 0.0018<br />

41 0.0010<br />

42 0.0008<br />

43 0.0012<br />

44 0.0016<br />

45 0.0004<br />

46 0.0006<br />

47 0.0010<br />

48 0.0002


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Words by length without multiplicity 30<br />

49 0.0002<br />

50 0.0006<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Words by length<br />

without multiplicity<br />

Percentage of words of fixed length in characters, counted without multiplicty<br />

Average word length<br />

10.9576<br />

word length percentage<br />

1 0.0296<br />

2 0.3305<br />

3 1.7660<br />

4 3.5268<br />

5 5.7849<br />

6 6.5268<br />

7 7.5062<br />

8 8.0126<br />

9 8.4780


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Words by length without multiplicity 31<br />

10 8.5329<br />

11 8.2274<br />

12 7.6967<br />

13 6.9642<br />

14 6.1664<br />

15 5.3798<br />

16 4.3973<br />

17 3.6338<br />

18 2.7665<br />

19 2.0552<br />

20 1.5074<br />

21 1.0440<br />

22 0.7546<br />

23 0.4921<br />

24 0.3230<br />

25 0.2056<br />

26 0.1315<br />

27 0.0875<br />

28 0.0556<br />

29 0.0425<br />

30 0.0260<br />

31 0.0211<br />

32 0.0114<br />

33 0.0068<br />

34 0.0051<br />

35 0.0032<br />

36 0.0027<br />

37 0.0024<br />

38 0.0010<br />

39 0.0024<br />

40 0.0007<br />

41 0.0010<br />

42 0.0005<br />

43 0.0007<br />

44 0.0012<br />

45 0.0005<br />

46 0.0010<br />

47 0.0010<br />

50 0.0005


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Words by length without multiplicity 32<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Words by length<br />

without multiplicity<br />

Percentage of words of fixed length in characters, counted without multiplicty<br />

Average word length<br />

10.8797<br />

word length percentage<br />

1 0.0335<br />

2 0.3772<br />

3 1.9038<br />

4 3.5840<br />

5 5.8449<br />

6 6.6005<br />

7 7.6611<br />

8 8.0604<br />

9 8.5095<br />

10 8.5809<br />

11 8.2703<br />

12 7.6357


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Words by length without multiplicity 33<br />

13 7.0049<br />

14 6.0699<br />

15 5.1849<br />

16 4.2931<br />

17 3.5528<br />

18 2.7194<br />

19 2.0243<br />

20 1.4469<br />

21 1.0324<br />

22 0.7256<br />

23 0.4575<br />

24 0.3088<br />

25 0.2008<br />

26 0.1172<br />

27 0.0917<br />

28 0.0615<br />

29 0.0323<br />

30 0.0239<br />

31 0.0163<br />

32 0.0140<br />

33 0.0069<br />

34 0.0053<br />

35 0.0048<br />

36 0.0033<br />

37 0.0023<br />

38 0.0010<br />

39 0.0015<br />

40 0.0018<br />

41 0.0013<br />

42 0.0018<br />

43 0.0008<br />

44 0.0008<br />

45 0.0005<br />

46 0.0008<br />

47 0.0003<br />

48 0.0003


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Words by length without multiplicity 34<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Words by length<br />

without multiplicity<br />

Percentage of words of fixed length in characters, counted without multiplicty<br />

Average word length<br />

11.0858<br />

word length percentage<br />

1 0.0255<br />

2 0.3059<br />

3 1.6823<br />

4 3.3405<br />

5 5.4272<br />

6 6.4077<br />

7 7.4788<br />

8 7.8960<br />

9 8.3290<br />

10 8.3999<br />

11 8.2503<br />

12 7.6600


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Words by length without multiplicity 35<br />

13 7.0699<br />

14 6.2859<br />

15 5.4491<br />

16 4.5226<br />

17 3.7518<br />

18 2.8975<br />

19 2.1474<br />

20 1.5709<br />

21 1.1128<br />

22 0.7641<br />

23 0.5185<br />

24 0.3483<br />

25 0.2151<br />

26 0.1306<br />

27 0.0937<br />

28 0.0643<br />

29 0.0359<br />

30 0.0261<br />

31 0.0186<br />

32 0.0108<br />

33 0.0075<br />

34 0.0042<br />

35 0.0033<br />

36 0.0036<br />

37 0.0012<br />

38 0.0015<br />

39 0.0013<br />

40 0.0017<br />

41 0.0004<br />

42 0.0010<br />

43 0.0002<br />

44 0.0006<br />

45 0.0006<br />

46 0.0008<br />

47 0.0004<br />

48 0.0002


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Words by length without multiplicity 36<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Words by<br />

length without multiplicity<br />

Percentage of words of fixed length in characters, counted without multiplicty<br />

Average word length<br />

11.3779<br />

word length percentage<br />

1 0.0194<br />

2 0.2330<br />

3 1.3983<br />

4 2.9051<br />

5 4.8026<br />

6 5.8413<br />

7 7.0610<br />

8 7.5976<br />

9 8.4073<br />

10 8.5340<br />

11 8.4889<br />

12 7.8902


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Words by length without multiplicity 37<br />

13 7.2379<br />

14 6.4902<br />

15 5.6015<br />

16 4.7203<br />

17 3.8916<br />

18 3.0345<br />

19 2.3284<br />

20 1.6986<br />

21 1.2330<br />

22 0.8724<br />

23 0.6056<br />

24 0.3898<br />

25 0.2667<br />

26 0.1755<br />

27 0.1153<br />

28 0.0847<br />

29 0.0529<br />

30 0.0373<br />

31 0.0249<br />

32 0.0181<br />

33 0.0109<br />

34 0.0094<br />

35 0.0079<br />

36 0.0059<br />

37 0.0042<br />

38 0.0030<br />

39 0.0025<br />

40 0.0034<br />

41 0.0021<br />

42 0.0012<br />

43 0.0007<br />

44 0.0010<br />

45 0.0006<br />

46 0.0010<br />

47 0.0005<br />

48 0.0003<br />

49 0.0001<br />

50 0.0001


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Words by length without multiplicity 38<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Words by<br />

length without multiplicity<br />

Percentage of words of fixed length in characters, counted without multiplicty<br />

Average word length<br />

10.1240<br />

word length percentage<br />

1 0.0936<br />

2 0.5085<br />

3 2.1496<br />

4 3.9514<br />

5 5.9352<br />

6 7.6404<br />

7 9.3833<br />

8 9.6179<br />

9 10.7988<br />

10 9.6485<br />

11 8.7954<br />

12 7.6727


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Words by length without multiplicity 39<br />

13 6.5329<br />

14 5.4402<br />

15 4.4266<br />

16 3.5165<br />

17 2.8231<br />

18 2.0650<br />

19 1.5905<br />

20 1.1415<br />

21 0.7787<br />

22 0.5591<br />

23 0.4049<br />

24 0.2589<br />

25 0.1885<br />

26 0.1452<br />

27 0.0974<br />

28 0.0799<br />

29 0.0468<br />

30 0.0431<br />

31 0.0265<br />

32 0.0255<br />

33 0.0198<br />

34 0.0163<br />

35 0.0138<br />

36 0.0100<br />

37 0.0078<br />

38 0.0058<br />

39 0.0053<br />

40 0.0060<br />

41 0.0033<br />

42 0.0045<br />

43 0.0018<br />

44 0.0015<br />

45 0.0003<br />

46 0.0018<br />

47 0.0003<br />

48 0.0010<br />

49 0.0003<br />

50 0.0003


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Words by length without multiplicity 40<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Words by<br />

length without multiplicity<br />

Percentage of words of fixed length in characters, counted without multiplicty<br />

Average word length<br />

10.3336<br />

word length percentage<br />

1 0.0697<br />

2 0.4119<br />

3 1.9954<br />

4 3.7750<br />

5 5.8403<br />

6 7.4047<br />

7 9.0592<br />

8 9.2708<br />

9 10.1660<br />

10 9.4228<br />

11 8.6872<br />

12 7.6351


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Words by length without multiplicity 41<br />

13 6.5844<br />

14 5.5312<br />

15 4.5340<br />

16 3.6473<br />

17 2.9397<br />

18 2.2268<br />

19 1.6604<br />

20 1.2043<br />

21 0.8601<br />

22 0.6068<br />

23 0.4233<br />

24 0.2781<br />

25 0.1880<br />

26 0.1375<br />

27 0.0885<br />

28 0.0692<br />

29 0.0508<br />

30 0.0395<br />

31 0.0266<br />

32 0.0195<br />

33 0.0165<br />

34 0.0134<br />

35 0.0103<br />

36 0.0077<br />

37 0.0068<br />

38 0.0057<br />

39 0.0050<br />

40 0.0033<br />

41 0.0037<br />

42 0.0026<br />

43 0.0024<br />

44 0.0022<br />

45 0.0007<br />

46 0.0013<br />

47 0.0009<br />

48 0.0007<br />

49 0.0009<br />

50 0.0007


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Words by length without multiplicity 42<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Words by length<br />

without multiplicity<br />

Percentage of words of fixed length in characters, counted without multiplicty<br />

Average word length<br />

12.0653<br />

word length percentage<br />

1 0.0079<br />

2 0.1343<br />

3 1.1377<br />

4 2.5534<br />

5 4.1063<br />

6 4.9995<br />

7 6.3884<br />

8 7.3009<br />

9 8.0824<br />

10 8.1056<br />

11 7.8904<br />

12 7.3902


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Words by length without multiplicity 43<br />

13 6.8580<br />

14 6.1937<br />

15 5.5442<br />

16 4.8170<br />

17 4.1107<br />

18 3.3910<br />

19 2.7020<br />

20 2.1335<br />

21 1.6164<br />

22 1.2040<br />

23 0.8905<br />

24 0.6410<br />

25 0.4587<br />

26 0.3249<br />

27 0.2379<br />

28 0.1710<br />

29 0.1252<br />

30 0.0949<br />

31 0.0715<br />

32 0.0517<br />

33 0.0400<br />

34 0.0321<br />

35 0.0258<br />

36 0.0202<br />

37 0.0181<br />

38 0.0148<br />

39 0.0118<br />

40 0.0113<br />

41 0.0097<br />

42 0.0071<br />

43 0.0082<br />

44 0.0070<br />

45 0.0067<br />

46 0.0056<br />

47 0.0050<br />

48 0.0038<br />

49 0.0040<br />

50 0.0035


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Words by length without multiplicity 44<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Words by length<br />

without multiplicity<br />

Percentage of words of fixed length in characters, counted without multiplicty<br />

Average word length<br />

11.6077<br />

word length percentage<br />

0 0.0001<br />

1 0.0139<br />

2 0.1539<br />

3 1.2237<br />

4 2.7200<br />

5 4.2967<br />

6 5.3638<br />

7 6.6381<br />

8 7.8336<br />

9 8.5143<br />

10 8.8824<br />

11 8.4841


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Words by length without multiplicity 45<br />

12 7.8169<br />

13 7.0511<br />

14 6.2625<br />

15 5.4258<br />

16 4.6153<br />

17 3.8275<br />

18 3.0562<br />

19 2.3524<br />

20 1.8130<br />

21 1.3380<br />

22 0.9680<br />

23 0.6774<br />

24 0.4804<br />

25 0.3354<br />

26 0.2306<br />

27 0.1600<br />

28 0.1138<br />

29 0.0847<br />

30 0.0583<br />

31 0.0402<br />

32 0.0302<br />

33 0.0216<br />

34 0.0148<br />

35 0.0136<br />

36 0.0108<br />

37 0.0085<br />

38 0.0074<br />

39 0.0057<br />

40 0.0055<br />

41 0.0042<br />

42 0.0033<br />

43 0.0030<br />

44 0.0020<br />

45 0.0018<br />

46 0.0017<br />

47 0.0020<br />

48 0.0016<br />

49 0.0012


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Words by length without multiplicity 46<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Words by length<br />

without multiplicity<br />

Percentage of words of fixed length in characters, counted without multiplicty<br />

Average word length<br />

12.2333<br />

word length percentage<br />

1 0.0112<br />

2 0.0961<br />

3 0.8462<br />

4 2.1122<br />

5 3.7721<br />

6 4.8923<br />

7 6.1243<br />

8 7.0522<br />

9 7.8065<br />

10 8.1077<br />

11 8.0405<br />

12 7.6926


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Words by length without multiplicity 47<br />

13 7.2670<br />

14 6.6371<br />

15 5.9535<br />

16 5.1836<br />

17 4.3998<br />

18 3.6013<br />

19 2.8482<br />

20 2.2227<br />

21 1.6755<br />

22 1.2397<br />

23 0.9058<br />

24 0.6445<br />

25 0.4583<br />

26 0.3227<br />

27 0.2309<br />

28 0.1663<br />

29 0.1205<br />

30 0.0879<br />

31 0.0646<br />

32 0.0462<br />

33 0.0350<br />

34 0.0269<br />

35 0.0226<br />

36 0.0175<br />

37 0.0149<br />

38 0.0121<br />

39 0.0094<br />

40 0.0091<br />

41 0.0072<br />

42 0.0058<br />

43 0.0061<br />

44 0.0051<br />

45 0.0042<br />

46 0.0036<br />

47 0.0035<br />

48 0.0029<br />

49 0.0026<br />

50 0.0025


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Words by length with multiplicity 48<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Words by length<br />

with multiplicity<br />

Percentage of words of fixed length in characters, counted with multiplicty<br />

Average word length<br />

5.0354<br />

word length percentage<br />

1 3.8228<br />

2 18.8244<br />

3 21.2518<br />

4 10.3225<br />

5 10.7658<br />

6 9.1842<br />

7 6.7160<br />

8 5.0151<br />

9 4.0218<br />

10 2.9701<br />

11 2.0830<br />

12 1.4846


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Words by length with multiplicity 49<br />

13 0.9858<br />

14 0.7392<br />

15 0.5373<br />

16 0.3621<br />

17 0.2886<br />

18 0.2105<br />

19 0.1459<br />

20 0.0929<br />

21 0.0633<br />

22 0.0441<br />

23 0.0258<br />

24 0.0164<br />

25 0.0103<br />

26 0.0048<br />

27 0.0041<br />

28 0.0024<br />

29 0.0012<br />

30 0.0007


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Words by length with multiplicity 50<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Words by length<br />

with multiplicity<br />

Percentage of words of fixed length in characters, counted with multiplicty<br />

Average word length<br />

5.1551<br />

word length percentage<br />

1 3.5978<br />

2 18.3983<br />

3 20.9724<br />

4 10.2885<br />

5 10.8568<br />

6 9.1432<br />

7 6.7623<br />

8 4.9601<br />

9 4.0088<br />

10 3.0276<br />

11 2.1431<br />

12 1.6017


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Words by length with multiplicity 51<br />

13 1.1074<br />

14 0.8748<br />

15 0.6455<br />

16 0.4432<br />

17 0.3567<br />

18 0.2722<br />

19 0.1779<br />

20 0.1208<br />

21 0.0822<br />

22 0.0573<br />

23 0.0332<br />

24 0.0222<br />

25 0.0126<br />

26 0.0106<br />

27 0.0061<br />

28 0.0047<br />

29 0.0024<br />

30 0.0019


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Words by length with multiplicity 52<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Words by length<br />

with multiplicity<br />

Percentage of words of fixed length in characters, counted with multiplicty<br />

Average word length<br />

5.1118<br />

word length percentage<br />

1 3.6784<br />

2 18.9997<br />

3 20.8897<br />

4 10.2861<br />

5 10.8410<br />

6 8.9156<br />

7 6.6529<br />

8 4.8950<br />

9 4.0010<br />

10 2.9843<br />

11 2.1888<br />

12 1.5882


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Words by length with multiplicity 53<br />

13 1.0864<br />

14 0.8402<br />

15 0.5962<br />

16 0.4291<br />

17 0.3357<br />

18 0.2693<br />

19 0.1683<br />

20 0.1176<br />

21 0.0766<br />

22 0.0570<br />

23 0.0347<br />

24 0.0228<br />

25 0.0127<br />

26 0.0091<br />

27 0.0066<br />

28 0.0049<br />

29 0.0018<br />

30 0.0017


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Words by length with multiplicity 54<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Words by length<br />

with multiplicity<br />

Percentage of words of fixed length in characters, counted with multiplicty<br />

Average word length<br />

5.1103<br />

word length percentage<br />

1 3.6976<br />

2 18.9187<br />

3 20.9205<br />

4 10.1864<br />

5 10.8288<br />

6 9.1201<br />

7 6.6738<br />

8 4.9216<br />

9 3.9875<br />

10 2.9783<br />

11 2.1220<br />

12 1.5766


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Words by length with multiplicity 55<br />

13 1.0686<br />

14 0.8376<br />

15 0.5978<br />

16 0.4420<br />

17 0.3425<br />

18 0.2600<br />

19 0.1636<br />

20 0.1222<br />

21 0.0756<br />

22 0.0562<br />

23 0.0354<br />

24 0.0233<br />

25 0.0132<br />

26 0.0093<br />

27 0.0063<br />

28 0.0046<br />

29 0.0015<br />

30 0.0014


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Words by length with multiplicity 56<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Words by<br />

length with multiplicity<br />

Percentage of words of fixed length in characters, counted with multiplicty<br />

Average word length<br />

5.0894<br />

word length percentage<br />

1 3.6010<br />

2 19.6868<br />

3 20.9025<br />

4 10.4302<br />

5 10.6086<br />

6 8.5188<br />

7 6.4837<br />

8 4.7929<br />

9 3.9607<br />

10 3.1027<br />

11 2.2358<br />

12 1.6116


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Words by length with multiplicity 57<br />

13 1.0804<br />

14 0.8521<br />

15 0.6192<br />

16 0.4187<br />

17 0.3130<br />

18 0.2449<br />

19 0.1696<br />

20 0.1173<br />

21 0.0805<br />

22 0.0599<br />

23 0.0362<br />

24 0.0214<br />

25 0.0145<br />

26 0.0102<br />

27 0.0070<br />

28 0.0057<br />

29 0.0024<br />

30 0.0019


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Words by length with multiplicity 58<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Words by<br />

length with multiplicity<br />

Percentage of words of fixed length in characters, counted with multiplicty<br />

Average word length<br />

5.3583<br />

word length percentage<br />

1 4.3321<br />

2 17.0137<br />

3 18.7219<br />

4 10.5207<br />

5 10.3048<br />

6 9.0630<br />

7 7.2714<br />

8 5.6971<br />

9 4.6674<br />

10 3.5777<br />

11 2.6972<br />

12 1.7031


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Words by length with multiplicity 59<br />

13 1.2489<br />

14 0.9116<br />

15 0.6170<br />

16 0.4533<br />

17 0.3416<br />

18 0.2473<br />

19 0.1819<br />

20 0.1245<br />

21 0.0839<br />

22 0.0642<br />

23 0.0441<br />

24 0.0282<br />

25 0.0193<br />

26 0.0161<br />

27 0.0105<br />

28 0.0084<br />

29 0.0052<br />

30 0.0050


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Words by length with multiplicity 60<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Words by<br />

length with multiplicity<br />

Percentage of words of fixed length in characters, counted with multiplicty<br />

Average word length<br />

5.3100<br />

word length percentage<br />

1 4.0474<br />

2 17.0794<br />

3 19.0490<br />

4 10.4981<br />

5 10.7408<br />

6 9.1956<br />

7 7.1430<br />

8 5.6189<br />

9 4.5945<br />

10 3.6252<br />

11 2.6458<br />

12 1.6901


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Words by length with multiplicity 61<br />

13 1.1827<br />

14 0.8714<br />

15 0.5694<br />

16 0.4044<br />

17 0.3045<br />

18 0.2207<br />

19 0.1640<br />

20 0.1062<br />

21 0.0761<br />

22 0.0530<br />

23 0.0375<br />

24 0.0230<br />

25 0.0156<br />

26 0.0111<br />

27 0.0075<br />

28 0.0060<br />

29 0.0045<br />

30 0.0034


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Words by length with multiplicity 62<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Words by length with<br />

multiplicity<br />

Percentage of words of fixed length in characters, counted with multiplicty<br />

Average word length<br />

5.1730<br />

word length percentage<br />

1 3.7617<br />

2 19.6093<br />

3 20.3929<br />

4 10.2205<br />

5 10.3157<br />

6 8.1474<br />

7 6.4267<br />

8 5.0591<br />

9 4.2074<br />

10 3.4453<br />

11 2.5102<br />

12 1.6860


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Words by length with multiplicity 63<br />

13 1.1105<br />

14 0.8479<br />

15 0.5685<br />

16 0.4285<br />

17 0.3564<br />

18 0.2537<br />

19 0.2090<br />

20 0.1355<br />

21 0.0962<br />

22 0.0681<br />

23 0.0481<br />

24 0.0328<br />

25 0.0191<br />

26 0.0120<br />

27 0.0087<br />

28 0.0060<br />

29 0.0041<br />

30 0.0027


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Words by length with multiplicity 64<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Words by length with<br />

multiplicity<br />

Percentage of words of fixed length in characters, counted with multiplicty<br />

Average word length<br />

5.0746<br />

word length percentage<br />

0 0.0001<br />

1 3.7486<br />

2 20.0481<br />

3 20.3479<br />

4 10.3757<br />

5 10.6454<br />

6 8.4007<br />

7 6.3683<br />

8 4.9882<br />

9 4.0586<br />

10 3.3071<br />

11 2.3946


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Words by length with multiplicity 65<br />

12 1.6040<br />

13 1.0335<br />

14 0.7460<br />

15 0.5009<br />

16 0.3771<br />

17 0.3189<br />

18 0.2163<br />

19 0.1686<br />

20 0.1118<br />

21 0.0741<br />

22 0.0561<br />

23 0.0348<br />

24 0.0250<br />

25 0.0139<br />

26 0.0104<br />

27 0.0072<br />

28 0.0046<br />

29 0.0035<br />

30 0.0023


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Words by length with multiplicity 66<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Words by length<br />

with multiplicity<br />

Percentage of words of fixed length in characters, counted with multiplicty<br />

Average word length<br />

5.1431<br />

word length percentage<br />

1 3.7753<br />

2 19.5942<br />

3 20.4041<br />

4 10.1718<br />

5 10.5380<br />

6 8.4431<br />

7 6.4781<br />

8 4.9925<br />

9 4.1147<br />

10 3.3106<br />

11 2.4020<br />

12 1.6482


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Words by length with multiplicity 67<br />

13 1.0984<br />

14 0.8373<br />

15 0.5741<br />

16 0.4235<br />

17 0.3455<br />

18 0.2498<br />

19 0.1899<br />

20 0.1271<br />

21 0.0875<br />

22 0.0643<br />

23 0.0421<br />

24 0.0285<br />

25 0.0166<br />

26 0.0120<br />

27 0.0083<br />

28 0.0058<br />

29 0.0038<br />

30 0.0026<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: The most frequent<br />

50 words<br />

Rank in Wordlist Word Rank in Wordlist Word<br />

1 i 26 skal<br />

2 at 27 sig<br />

3 og 28 vil<br />

4 er 29 siger<br />

5 på 30 men<br />

6 til 31 blev<br />

7 en 32 ved<br />

8 af 33 man<br />

9 det 34 vi<br />

10 for 35 år<br />

11 med 36 efter<br />

12 der 37 også<br />

13 har 38 over<br />

14 de 39 hvor<br />

15 den 40 Men


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: The most frequent 50 words 68<br />

16 ikke 41 være<br />

17 som 42 I<br />

18 et 43 nu<br />

19 om 44 ud<br />

20 fra 45 jeg<br />

21 Det 46 <strong>to</strong><br />

22 var 47 Den<br />

23 kan 48 da<br />

24 så 49 bliver<br />

25 han 50 op<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: The most frequent<br />

50 words<br />

Rank in Wordlist Word Rank in Wordlist Word<br />

1 i 26 skal<br />

2 at 27 så<br />

3 og 28 vil<br />

4 er 29 sig<br />

5 til 30 men<br />

6 på 31 blev<br />

7 en 32 vi<br />

8 af 33 ved<br />

9 for 34 også<br />

10 det 35 år<br />

11 der 36 efter<br />

12 har 37 man<br />

13 med 38 over<br />

14 den 39 Men<br />

15 de 40 hvor<br />

16 ikke 41 nu<br />

17 som 42 være<br />

18 et 43 I<br />

19 om 44 ud<br />

20 fra 45 2008<br />

21 Det 46 jeg<br />

22 kan 47 <strong>to</strong><br />

23 var 48 bliver


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: The most frequent 50 words 69<br />

24 han 49 Den<br />

25 siger 50 da<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: The most frequent<br />

50 words<br />

Rank in Wordlist Word Rank in Wordlist Word<br />

1 i 26 han<br />

2 at 27 vil<br />

3 og 28 sig<br />

4 er 29 siger<br />

5 til 30 man<br />

6 på 31 men<br />

7 en 32 også<br />

8 af 33 ved<br />

9 det 34 vi<br />

10 for 35 blev<br />

11 der 36 år<br />

12 har 37 efter<br />

13 med 38 over<br />

14 de 39 være<br />

15 den 40 hvor<br />

16 ikke 41 nu<br />

17 som 42 Men<br />

18 et 43 I<br />

19 om 44 ud<br />

20 fra 45 jeg<br />

21 Det 46 bliver<br />

22 kan 47 eller<br />

23 så 48 op<br />

24 var 49 da<br />

25 skal 50 mere


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: The most frequent 50 words 70<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: The most frequent<br />

50 words<br />

Rank in Wordlist Word Rank in Wordlist Word<br />

1 i 26 han<br />

2 at 27 siger<br />

3 og 28 vil<br />

4 er 29 sig<br />

5 til 30 men<br />

6 på 31 man<br />

7 en 32 vi<br />

8 af 33 også<br />

9 det 34 blev<br />

10 for 35 ved<br />

11 har 36 efter<br />

12 der 37 år<br />

13 med 38 over<br />

14 de 39 hvor<br />

15 den 40 nu<br />

16 ikke 41 være<br />

17 som 42 ud<br />

18 et 43 Men<br />

19 om 44 I<br />

20 fra 45 jeg<br />

21 Det 46 bliver<br />

22 kan 47 op<br />

23 var 48 mod<br />

24 så 49 <strong>to</strong><br />

25 skal 50 da


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: The most frequent 50 words 71<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: The most<br />

frequent 50 words<br />

Rank in Wordlist Word Rank in Wordlist Word<br />

1 i 26 sig<br />

2 at 27 vil<br />

3 og 28 man<br />

4 er 29 vi<br />

5 til 30 han<br />

6 en 31 blev<br />

7 af 32 men<br />

8 på 33 ved<br />

9 det 34 også<br />

10 for 35 jeg<br />

11 der 36 I<br />

12 med 37 være<br />

13 de 38 år<br />

14 har 39 hvor<br />

15 den 40 Men<br />

16 ikke 41 eller<br />

17 som 42 over<br />

18 et 43 ud<br />

19 om 44 bliver<br />

20 Det 45 siger<br />

21 fra 46 nu<br />

22 kan 47 efter<br />

23 var 48 op<br />

24 så 49 Den<br />

25 skal 50 De


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: The most frequent 50 words 72<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: The most<br />

frequent 50 words<br />

Rank in Wordlist Word Rank in Wordlist Word<br />

1 i 26 om<br />

2 og 27 men<br />

3 af 28 eller<br />

4 er 29 også<br />

5 en 30 Det<br />

6 at 31 sig<br />

7 til 32 man<br />

8 som 33 Den<br />

9 på 34 hvor<br />

10 den 35 Han<br />

11 med 36 efter<br />

12 for 37 havde<br />

13 der 38 sin<br />

14 det 39 år<br />

15 de 40 så<br />

16 blev 41 De<br />

17 et 42 over<br />

18 var 43 første<br />

19 fra 44 under<br />

20 har 45 da<br />

21 han 46 <strong>to</strong><br />

22 I 47 være<br />

23 ved 48 hans<br />

24 ikke 49 mange<br />

25 kan 50 En


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: The most frequent 50 words 73<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: The most<br />

frequent 50 words<br />

Rank in Wordlist Word Rank in Wordlist Word<br />

1 og 26 sig<br />

2 i 27 men<br />

3 af 28 kan<br />

4 at 29 også<br />

5 en 30 Det<br />

6 er 31 eller<br />

7 til 32 havde<br />

8 som 33 Den<br />

9 på 34 efter<br />

10 den 35 man<br />

11 med 36 hvor<br />

12 for 37 sin<br />

13 de 38 Han<br />

14 det 39 år<br />

15 der 40 så<br />

16 blev 41 over<br />

17 var 42 De<br />

18 et 43 da<br />

19 fra 44 hans<br />

20 har 45 <strong>to</strong><br />

21 han 46 første<br />

22 I 47 være<br />

23 ikke 48 under<br />

24 om 49 mod<br />

25 ved 50 deres


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: The most frequent 50 words 74<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: The most frequent 50<br />

words<br />

Rank in Wordlist Word Rank in Wordlist Word<br />

1 og 26 så<br />

2 i 27 man<br />

3 at 28 ved<br />

4 er 29 eller<br />

5 af 30 vil<br />

6 til 31 sig<br />

7 en 32 du<br />

8 på 33 men<br />

9 for 34 også<br />

10 med 35 I<br />

11 der 36 jeg<br />

12 det 37 være<br />

13 den 38 blev<br />

14 som 39 hvor<br />

15 de 40 Der<br />

16 har 41 år<br />

17 et 42 efter<br />

18 ikke 43 meget<br />

19 kan 44 alle<br />

20 om 45 over<br />

21 fra 46 han<br />

22 var 47 Vi<br />

23 vi 48 ud<br />

24 Det 49 kunne<br />

25 skal 50 Den


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: The most frequent 50 words 75<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: The most frequent 50<br />

words<br />

Rank in Wordlist Word Rank in Wordlist Word<br />

1 og 26 Det<br />

2 i 27 eller<br />

3 er 28 skal<br />

4 at 29 ved<br />

5 til 30 man<br />

6 af 31 jeg<br />

7 en 32 vil<br />

8 på 33 også<br />

9 med 34 sig<br />

10 for 35 men<br />

11 det 36 være<br />

12 der 37 I<br />

13 som 38 hvor<br />

14 har 39 Vi<br />

15 den 40 blev<br />

16 de 41 alle<br />

17 kan 42 meget<br />

18 et 43 år<br />

19 ikke 44 efter<br />

20 om 45 Der<br />

21 fra 46 mere<br />

22 du 47 over<br />

23 vi 48 mange<br />

24 så 49 vores<br />

25 var 50 ud


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: The most frequent 50 words 76<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: The most frequent<br />

50 words<br />

Rank in Wordlist Word Rank in Wordlist Word<br />

1 og 26 skal<br />

2 i 27 sig<br />

3 at 28 man<br />

4 er 29 ved<br />

5 til 30 vil<br />

6 af 31 eller<br />

7 en 32 men<br />

8 på 33 også<br />

9 for 34 du<br />

10 med 35 blev<br />

11 det 36 I<br />

12 der 37 jeg<br />

13 har 38 være<br />

14 den 39 hvor<br />

15 de 40 han<br />

16 som 41 år<br />

17 et 42 efter<br />

18 ikke 43 over<br />

19 kan 44 meget<br />

20 om 45 ud<br />

21 fra 46 alle<br />

22 Det 47 Der<br />

23 var 48 Vi<br />

24 vi 49 bliver<br />

25 så 50 op


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 77<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: <strong>Longest</strong> words in <strong>to</strong>p<br />

1.000 by rank<br />

The 20 words of maximal string length ordered by rank<br />

Local Rank Rank in Wordlist Word Length<br />

1 182 amerikanske 11<br />

2 293 forbindelse 11<br />

3 326 forskellige 11<br />

4 346 virksomheder 12<br />

5 482 medarbejdere 12<br />

6 550 eftermiddag 11<br />

7 564 selvfølgelig 12<br />

8 580 oplysninger 11<br />

9 605 undersøgelse 12<br />

10 620 Christensen 11<br />

11 661 internationale 14<br />

12 748 virksomheden 12<br />

13 808 tilsyneladende 14<br />

14 813 politikerne 11<br />

15 826 understreger 12<br />

16 865 eksempelvis 11<br />

17 870 udviklingen 11<br />

18 900 efterfølgende 13<br />

19 920 Socialdemokraterne 18<br />

20 959 overraskende 12


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 78<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: <strong>Longest</strong> words in <strong>to</strong>p<br />

1.000 by rank<br />

The 20 words of maximal string length ordered by rank<br />

Local Rank Rank in Wordlist Word Length<br />

1 194 amerikanske 11<br />

2 318 virksomheder 12<br />

3 487 medarbejdere 12<br />

4 523 undersøgelse 12<br />

5 524 internationale 14<br />

6 552 selvfølgelig 12<br />

7 587 oplysninger 11<br />

8 621 understreger 12<br />

9 654 eftermiddag 11<br />

10 716 virksomheden 12<br />

11 750 udviklingen 11<br />

12 821 politikerne 11<br />

13 869 efterfølgende 13<br />

14 870 pressemeddelelse 16<br />

15 886 tilsyneladende 14<br />

16 908 Universitet 11<br />

17 913 eksempelvis 11<br />

18 958 umiddelbart 11<br />

19 991 Sublicensiering 15<br />

20 999 forventninger 13


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 79<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: <strong>Longest</strong> words in <strong>to</strong>p<br />

1.000 by rank<br />

The 20 words of maximal string length ordered by rank<br />

Local Rank Rank in Wordlist Word Length<br />

1 215 amerikanske 11<br />

2 271 forbindelse 11<br />

3 280 virksomheder 12<br />

4 317 forskellige 11<br />

5 445 oplysninger 11<br />

6 471 medarbejdere 12<br />

7 496 undersøgelse 12<br />

8 500 selvfølgelig 12<br />

9 682 eftermiddag 11<br />

10 685 Christensen 11<br />

11 688 understreger 12<br />

12 714 internationale 14<br />

13 721 eksempelvis 11<br />

14 732 virksomheden 12<br />

15 748 tilsyneladende 14<br />

16 815 Universitet 11<br />

17 888 myndigheder 11<br />

18 899 efterfølgende 13<br />

19 903 regeringens 11<br />

20 926 politikerne 11


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 80<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: <strong>Longest</strong> words in <strong>to</strong>p<br />

1.000 by rank<br />

The 20 words of maximal string length ordered by rank<br />

Local Rank Rank in Wordlist Word Length<br />

1 228 amerikanske 11<br />

2 292 virksomheder 12<br />

3 304 forbindelse 11<br />

4 328 forskellige 11<br />

5 495 selvfølgelig 12<br />

6 498 medarbejdere 12<br />

7 520 oplysninger 11<br />

8 542 undersøgelse 12<br />

9 583 internationale 14<br />

10 647 Christensen 11<br />

11 652 eftermiddag 11<br />

12 697 understreger 12<br />

13 780 Universitet 11<br />

14 783 eksempelvis 11<br />

15 792 efterfølgende 13<br />

16 843 tilsyneladende 14<br />

17 856 virksomheden 12<br />

18 959 Folketinget 11<br />

19 973 udviklingen 11<br />

20 996 Midtjylland 11


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 81<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: <strong>Longest</strong> words<br />

in <strong>to</strong>p 1.000 by rank<br />

The 20 words of maximal string length ordered by rank<br />

Local Rank Rank in Wordlist Word Length<br />

1 259 forskellige 11<br />

2 466 selvfølgelig 12<br />

3 479 internationale 14<br />

4 554 virksomheder 12<br />

5 590 Afghanistan 11<br />

6 643 befolkningen 12<br />

7 656 undersøgelse 12<br />

8 690 Christensen 11<br />

9 695 naturligvis 11<br />

10 751 Enhedslisten 12<br />

11 778 virkeligheden 13<br />

12 786 tilsyneladende 14<br />

13 826 understreger 12<br />

14 833 efterfølgende 13<br />

15 892 overhovedet 11<br />

16 904 organisationer 14<br />

17 925 arbejdspladser 14<br />

18 936 medarbejdere 12<br />

19 945 Socialdemokraterne 18<br />

20 954 arbejdskraft 12


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 82<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: <strong>Longest</strong> words<br />

in <strong>to</strong>p 1.000 by rank<br />

The 20 words of maximal string length ordered by rank<br />

Local Rank Rank in Wordlist Word Length<br />

1 99 forskellige 11<br />

2 216 forbindelse 11<br />

3 268 amerikanske 11<br />

4 442 begyndelsen 11<br />

5 443 oprindelige 11<br />

6 444 verdenskrig 11<br />

7 503 Universitet 11<br />

8 557 skuespiller 11<br />

9 575 almindelige 11<br />

10 604 efterfølgende 13<br />

11 610 betegnelsen 11<br />

12 643 efterhånden 11<br />

13 683 betydninger 11<br />

14 764 internationale 14<br />

15 788 S<strong>to</strong>rbritannien 14<br />

16 830 Kommunalreformen 16<br />

17 840 Folketinget 11<br />

18 852 RobotQuistnix 13<br />

19 901 middelalderen 13<br />

20 993 befolkningen 12


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 83<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: <strong>Longest</strong> words<br />

in <strong>to</strong>p 1.000 by rank<br />

The 20 words of maximal string length ordered by rank<br />

Local Rank Rank in Wordlist Word Length<br />

1 88 forskellige 11<br />

2 212 forbindelse 11<br />

3 266 amerikanske 11<br />

4 379 begyndelsen 11<br />

5 397 oprindelige 11<br />

6 420 efterfølgende 13<br />

7 484 indflydelse 11<br />

8 502 verdenskrig 11<br />

9 591 efterhånden 11<br />

10 597 almindelige 11<br />

11 609 adskillige 10<br />

12 614 modsætning 10<br />

13 634 oprindeligt 11<br />

14 647 internationale 14<br />

15 738 befolkningen 12<br />

16 798 nogensinde 10<br />

17 803 S<strong>to</strong>rbritannien 14<br />

18 848 amerikansk 10<br />

19 863 udelukkende 11<br />

20 958 almindelig 10


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 84<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: <strong>Longest</strong> words in <strong>to</strong>p<br />

1.000 by rank<br />

The 20 words of maximal string length ordered by rank<br />

Local Rank Rank in Wordlist Word Length<br />

1 100 forskellige 11<br />

2 165 forbindelse 11<br />

3 295 oplysninger 11<br />

4 396 virksomheder 12<br />

5 410 aktiviteter 11<br />

6 456 naturligvis 11<br />

7 459 udgangspunkt 12<br />

8 494 selvfølgelig 12<br />

9 497 medarbejdere 12<br />

10 560 undervisning 12<br />

11 634 internationale 14<br />

12 686 efterfølgende 13<br />

13 712 virksomheden 12<br />

14 767 undersøgelse 12<br />

15 828 institutioner 13<br />

16 871 generalforsamling 17<br />

17 921 undervisningen 14<br />

18 929 eksisterende 12<br />

19 945 informationer 13<br />

20 968 arrangementer 13


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 85<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: <strong>Longest</strong> words in <strong>to</strong>p<br />

1.000 by rank<br />

The 20 words of maximal string length ordered by rank<br />

Local Rank Rank in Wordlist Word Length<br />

1 104 forskellige 11<br />

2 216 forbindelse 11<br />

3 333 oplysninger 11<br />

4 373 virksomheder 12<br />

5 403 aktiviteter 11<br />

6 413 selvfølgelig 12<br />

7 419 information 11<br />

8 439 naturligvis 11<br />

9 466 bestyrelsen 11<br />

10 496 medarbejdere 12<br />

11 538 udgangspunkt 12<br />

12 598 arrangementer 13<br />

13 654 generalforsamling 17<br />

14 668 undervisning 12<br />

15 707 efterfølgende 13<br />

16 771 internationale 14<br />

17 809 virksomheden 12<br />

18 863 generalforsamlingen 19<br />

19 910 informationer 13<br />

20 985 interesseret 12


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: <strong>Longest</strong> words in <strong>to</strong>p 1.000 by rank 86<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: <strong>Longest</strong> words in<br />

<strong>to</strong>p 1.000 by rank<br />

The 20 words of maximal string length ordered by rank<br />

Local Rank Rank in Wordlist Word Length<br />

1 129 forskellige 11<br />

2 200 forbindelse 11<br />

3 347 oplysninger 11<br />

4 369 virksomheder 12<br />

5 463 selvfølgelig 12<br />

6 474 amerikanske 11<br />

7 508 medarbejdere 12<br />

8 527 aktiviteter 11<br />

9 529 naturligvis 11<br />

10 611 information 11<br />

11 613 udgangspunkt 12<br />

12 615 internationale 14<br />

13 625 bestyrelsen 11<br />

14 689 efterfølgende 13<br />

15 758 almindelige 11<br />

16 766 undersøgelse 12<br />

17 780 undervisning 12<br />

18 789 virksomheden 12<br />

19 828 udviklingen 11<br />

20 991 generalforsamling 17


Character details<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Alphabet as used in<br />

the <strong>to</strong>p-100.000 words<br />

Letters and their frequency with and without repetition. All converted <strong>to</strong> lowercase.<br />

Character frequencies<br />

Character Frequency without repetition Frequency with repetition<br />

, 0.96 0.32<br />

- 6 1.38<br />

. 2.03 1.68<br />

/ 0.2 0.08<br />

: 0.37 0.03<br />

a 59.26 61.12<br />

b 21.76 15.92<br />

c 9.83 4.95<br />

d 46.41 59.48<br />

e 141.5 156.39<br />

f 20 24.74<br />

g 35.36 39.77<br />

h 14.77 16.63<br />

i 58.78 59.78<br />

j 7.51 6.16<br />

k 34.3 32.06<br />

l 52.73 49.79<br />

m 27.42 32.4<br />

n 79.42 73.39<br />

o 43.66 45.63<br />

p 19.44 16.76<br />

q 0.3 0.07<br />

r 87.27 87.71<br />

s 70.36 57.69<br />

t 64.39 70.65<br />

u 22.22 16.31<br />

v 18.56 22.67<br />

w 1.91 0.83<br />

87


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Alphabet as used in the <strong>to</strong>p-100.000 words 88<br />

x 0.73 0.27<br />

y 9.09 6.07<br />

z 1.29 0.38<br />

0.15 0.02<br />

0.19 0.05<br />

0.13 0.01<br />

å 3.99 12.06<br />

æ 9.25 7.8<br />

é 0.21 0.16<br />

ö 0.12 0.03<br />

ø 9.14 8.28<br />

ü 0.12 0.03<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Alphabet as used in<br />

the <strong>to</strong>p-100.000 words<br />

Letters and their frequency with and without repetition. All converted <strong>to</strong> lowercase.<br />

Character frequencies<br />

Character Frequency without repetition Frequency with repetition<br />

5.62 2.41<br />

' 0.44 0.15<br />

, 1.08 0.34<br />

- 6.1 1.41<br />

. 2.3 1.89<br />

/ 0.45 0.08<br />

: 1.23 0.29<br />

a 59.53 62.04<br />

b 21.45 16.24<br />

c 10.37 5.42<br />

d 45.51 58.49<br />

e 137.7 153.68<br />

f 19.49 24.64<br />

g 34.41 38.74<br />

h 15.24 16.7<br />

i 58.17 59.64<br />

j 7.62 6.52<br />

k 33.57 31.96


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Alphabet as used in the <strong>to</strong>p-100.000 words 89<br />

l 51.36 49.37<br />

m 26.88 31.77<br />

n 79.84 74.42<br />

o 43.56 45.42<br />

p 18.71 16.56<br />

q 0.29 0.07<br />

r 85.89 87.36<br />

s 70.05 58.01<br />

t 62.21 69.26<br />

u 21.94 16.39<br />

v 17.85 21.98<br />

w 2 0.88<br />

x 0.76 0.34<br />

y 8.87 6.12<br />

z 1.24 0.43<br />

å 3.79 11.35<br />

æ 8.57 7.55<br />

é 0.2 0.16<br />

ö 0.15 0.03<br />

ø 8.97 8.27<br />

ü 0.12 0.04


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Alphabet as used in the <strong>to</strong>p-100.000 words 90<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Alphabet as used in<br />

the <strong>to</strong>p-100.000 words<br />

Letters and their frequency with and without repetition. All converted <strong>to</strong> lowercase.<br />

Character frequencies<br />

Character Frequency without repetition Frequency with repetition<br />

5.39 2.21<br />

' 0.48 0.15<br />

, 0.75 0.24<br />

- 5.52 1.24<br />

. 1.24 0.51<br />

/ 0.18 0.05<br />

: 0.72 0.08<br />

a 60.08 61.7<br />

b 21.68 16.15<br />

c 10.55 5.21<br />

d 45.91 58.71<br />

e 140.31 155.26<br />

f 20.04 24.38<br />

g 34.78 39.2<br />

h 15.84 16.9<br />

i 59.03 60.07<br />

j 8 6.39<br />

k 33.88 32.71<br />

l 51.77 50.17<br />

m 27.62 32.25<br />

n 79.79 73.79<br />

o 44.32 46.07<br />

p 18.83 16.37<br />

q 0.29 0.06<br />

r 86.63 87.74<br />

s 70.74 57.85<br />

t 63.24 69.73<br />

u 22.25 16.42<br />

v 18.2 22.78<br />

w 2.29 1<br />

x 0.79 0.37<br />

y 9.06 6.17


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Alphabet as used in the <strong>to</strong>p-100.000 words 91<br />

z 1.31 0.41<br />

å 3.69 11.7<br />

æ 8.77 7.83<br />

é 0.22 0.15<br />

ö 0.13 0.03<br />

ø 8.82 8.14<br />

ü 0.11 0.03<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Alphabet as used in<br />

the <strong>to</strong>p-100.000 words<br />

Letters and their frequency with and without repetition. All converted <strong>to</strong> lowercase.<br />

Character frequencies<br />

Character Frequency without repetition Frequency with repetition<br />

5.69 2.43<br />

' 0.49 0.19<br />

, 0.81 0.25<br />

- 6.07 1.39<br />

. 0.88 0.38<br />

/ 0.13 0.03<br />

: 0.2 0.03<br />

a 61 62.54<br />

b 21.3 16.13<br />

c 10.99 5.7<br />

d 45.93 58.78<br />

e 140.29 154.74<br />

f 19.82 24.44<br />

g 34.62 38.91<br />

h 15.75 17.02<br />

i 59.03 59.92<br />

j 7.83 6.2<br />

k 33.76 32.28<br />

l 51.95 50.04<br />

m 27.43 32.11<br />

n 80.31 74.14<br />

o 44.42 46.08<br />

p 19.39 16.75


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Alphabet as used in the <strong>to</strong>p-100.000 words 92<br />

q 0.31 0.07<br />

r 87.05 87.79<br />

s 71.1 57.92<br />

t 63.48 69.73<br />

u 22.51 16.48<br />

v 17.95 22.44<br />

w 2.32 1.07<br />

x 0.79 0.36<br />

y 9.08 6.24<br />

z 1.31 0.43<br />

å 3.7 11.62<br />

æ 8.57 7.71<br />

é 0.22 0.15<br />

ö 0.15 0.04<br />

ø 8.88 8.23<br />

ü 0.11 0.03<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Alphabet as<br />

used in the <strong>to</strong>p-100.000 words<br />

Letters and their frequency with and without repetition. All converted <strong>to</strong> lowercase.<br />

Character frequencies<br />

Character Frequency without repetition Frequency with repetition<br />

5.15 1.44<br />

' 0.28 0.11<br />

, 0.28 0.08<br />

- 3.5 0.87<br />

. 0.77 0.54<br />

: 0.2 0.02<br />

` 0.13 0.08<br />

a 58.66 60.97<br />

b 20.75 15.57<br />

c 7.72 3.37<br />

d 47.46 60.42<br />

e 143.8 157.53<br />

f 20.25 25.07<br />

g 36.81 41.74


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Alphabet as used in the <strong>to</strong>p-100.000 words 93<br />

h 15.25 16.48<br />

i 59.11 60.11<br />

j 8.37 6.56<br />

k 34.51 32.61<br />

l 52.96 50.61<br />

m 28.18 32.8<br />

n 80.85 73.34<br />

o 43.23 46.31<br />

p 18.23 14.89<br />

q 0.19 0.04<br />

r 87.86 87.19<br />

s 73.36 57.48<br />

t 63.85 69.55<br />

u 22.63 16.61<br />

v 19.2 23.81<br />

w 1.46 0.45<br />

x 0.52 0.19<br />

y 8.73 5.71<br />

z 1.11 0.3<br />

å 4.1 11.78<br />

æ 9.72 8.46<br />

é 0.2 0.16<br />

ø 9.68 8.33


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Alphabet as used in the <strong>to</strong>p-100.000 words 94<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Alphabet as<br />

used in the <strong>to</strong>p-100.000 words<br />

Letters and their frequency with and without repetition. All converted <strong>to</strong> lowercase.<br />

Character frequencies<br />

Character Frequency without repetition Frequency with repetition<br />

10.95 2.64<br />

( 0.01 0.11<br />

, 0.23 0.06<br />

- 3.73 0.91<br />

. 0.91 2.36<br />

/ 0.2 0.08<br />

a 63.9 60.84<br />

b 21.45 18<br />

c 11.34 5.01<br />

d 45.22 59.32<br />

e 134.19 153.46<br />

f 18.05 25.58<br />

g 34.16 38.94<br />

h 16.72 16.46<br />

i 59.63 58.72<br />

j 7.3 5.27<br />

k 33.56 29.87<br />

l 52.49 49.35<br />

m 29.19 32.02<br />

n 78.73 74.77<br />

o 46.73 47.83<br />

p 17.81 14.76<br />

q 0.37 0.11<br />

r 85.29 84.24<br />

s 70.14 58.51<br />

t 61.82 67.22<br />

u 24.22 17.34<br />

v 17.92 22.9<br />

w 2.44 1.17<br />

x 0.98 0.46<br />

y 10.11 7.09<br />

z 1.52 0.51


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Alphabet as used in the <strong>to</strong>p-100.000 words 95<br />

á 0.11 0.03<br />

ä 0.14 0.04<br />

å 3.62 8.8<br />

æ 8.33 7.48<br />

é 0.34 0.2<br />

ö 0.19 0.06<br />

ø 8.04 7.72<br />

ü 0.14 0.06<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Alphabet as<br />

used in the <strong>to</strong>p-100.000 words<br />

Letters and their frequency with and without repetition. All converted <strong>to</strong> lowercase.<br />

Character frequencies<br />

Character Frequency without repetition Frequency with repetition<br />

6.48 1.38<br />

' 0.58 0.22<br />

, 0.32 0.09<br />

- 3.38 0.74<br />

. 1.1 2<br />

/ 0.2 0.07<br />

a 62.14 60.2<br />

b 20.14 17.18<br />

c 10.31 4.57<br />

d 45.83 61.02<br />

e 138.14 156.64<br />

f 18.93 26.41<br />

g 34.89 40.04<br />

h 16.24 16.65<br />

i 60.16 58.71<br />

j 7.01 4.9<br />

k 33.3 29.16<br />

l 52 50.1<br />

m 28.78 31.9<br />

n 79.32 74.84<br />

o 46.39 47.47<br />

p 18.07 14.42


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Alphabet as used in the <strong>to</strong>p-100.000 words 96<br />

q 0.33 0.07<br />

r 86.38 82.66<br />

s 71.47 57.76<br />

t 63.82 69.22<br />

u 23.18 16.85<br />

v 18.27 23.75<br />

w 2.58 1.05<br />

x 0.84 0.35<br />

y 10.12 6.93<br />

z 1.42 0.4<br />

ä 0.13 0.03<br />

å 3.65 9.16<br />

æ 8.74 7.86<br />

é 0.29 0.19<br />

ö 0.21 0.05<br />

ø 7.64 7.52<br />

ü 0.16 0.05<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Alphabet as used in<br />

the <strong>to</strong>p-100.000 words<br />

Letters and their frequency with and without repetition. All converted <strong>to</strong> lowercase.<br />

Character frequencies<br />

Character Frequency without repetition Frequency with repetition<br />

# 0.15 0.03<br />

& 0.18 0.04<br />

, 0.34 0.09<br />

- 3.07 0.67<br />

. 1.63 2.82<br />

/ 0.58 0.16<br />

; 0.15 0.02<br />

_ 0.13 0.02<br />

a 54.52 57<br />

b 19.93 15.13<br />

c 7.33 3.2<br />

d 49.35 61.84<br />

e 144.89 159.57


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Alphabet as used in the <strong>to</strong>p-100.000 words 97<br />

f 20.57 25.8<br />

g 39.2 43.69<br />

h 13.34 15.3<br />

i 60.22 59.49<br />

j 7.77 6.42<br />

k 34.64 30.72<br />

l 53.52 51.89<br />

m 27.42 32.77<br />

n 80.08 72.04<br />

o 42.33 45.51<br />

p 18.88 14.73<br />

q 0.16 0.03<br />

r 87 85.18<br />

s 73.15 56.78<br />

t 65.8 68.61<br />

u 23.21 17.31<br />

v 20.19 25.24<br />

w 1.16 0.39<br />

x 0.58 0.23<br />

y 8.85 5.66<br />

z 0.61 0.13<br />

0.13 0.03<br />

0.12 0.03<br />

0.26 0.04<br />

ã 0.15 0.04<br />

å 4.39 11.5<br />

æ 10.56 8.8<br />

é 0.15 0.16<br />

ø 9.34 8.27


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Alphabet as used in the <strong>to</strong>p-100.000 words 98<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Alphabet as used in<br />

the <strong>to</strong>p-100.000 words<br />

Letters and their frequency with and without repetition. All converted <strong>to</strong> lowercase.<br />

Character frequencies<br />

Character Frequency without repetition Frequency with repetition<br />

2.51 0.48<br />

' 0.24 0.05<br />

, 0.43 0.1<br />

- 2.88 0.63<br />

. 1.03 0.85<br />

/ 0.42 0.13<br />

: 0.18 0.06<br />

a 56.48 56.8<br />

b 20.65 15.57<br />

c 8.21 3.47<br />

d 48.28 61.51<br />

e 143.7 158.49<br />

f 20.31 24.97<br />

g 38.25 44.64<br />

h 14.39 16.19<br />

i 59.22 59.7<br />

j 7.9 6.62<br />

k 35.24 31.17<br />

l 53.54 52.46<br />

m 27.59 32.94<br />

n 79.38 70.75<br />

o 42.47 46.41<br />

p 19.08 15.28<br />

q 0.19 0.03<br />

r 87.39 86.19<br />

s 71.79 55.87<br />

t 64.77 67.81<br />

u 23.64 18.27<br />

v 20.18 25.73<br />

w 1.53 0.52<br />

x 0.72 0.25<br />

y 9.42 6.11


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Alphabet as used in the <strong>to</strong>p-100.000 words 99<br />

z 0.81 0.17<br />

å 4.32 11.83<br />

æ 10.2 8.61<br />

é 0.17 0.16<br />

ø 9.46 8.17<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Alphabet as used in<br />

the <strong>to</strong>p-100.000 words<br />

Letters and their frequency with and without repetition. All converted <strong>to</strong> lowercase.<br />

Character frequencies<br />

Character Frequency without repetition Frequency with repetition<br />

3.91 0.88<br />

' 0.29 0.08<br />

, 0.38 0.11<br />

- 2.96 0.67<br />

. 0.89 0.71<br />

/ 0.25 0.09<br />

a 57.03 58.42<br />

b 20.52 15.49<br />

c 8.17 3.57<br />

d 48.27 61.43<br />

e 143.94 158.87<br />

f 20.25 25.46<br />

g 37.66 42.99<br />

h 14.43 16<br />

i 59.59 59.79<br />

j 7.93 6.38<br />

k 34.65 31.32<br />

l 52.97 51.51<br />

m 27.85 32.81<br />

n 80.5 72.28<br />

o 42.78 46.02<br />

p 18.77 15.13<br />

q 0.17 0.03<br />

r 87.32 86.13<br />

s 72.73 56.61


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Alphabet as used in the <strong>to</strong>p-100.000 words 100<br />

t 64.81 69.06<br />

u 23.15 17.23<br />

v 19.45 24.84<br />

w 1.5 0.52<br />

x 0.62 0.24<br />

y 9.1 5.89<br />

z 0.83 0.2<br />

å 4.25 11.72<br />

æ 9.93 8.54<br />

é 0.16 0.16<br />

ø 9.39 8.23


Abbreviation details<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Most frequent<br />

abbreviations<br />

Top 20 words ending with period<br />

Rank Abbreviation Frequency<br />

140 kr. 11778<br />

310 kl. 5405<br />

321 det. 5255<br />

485 sig. 3499<br />

511 dag. 3350<br />

537 med. 3157<br />

610 op. 2801<br />

724 pr. 2383<br />

732 ca. 2346<br />

982 i. 1728<br />

1319 ind. 1289<br />

1732 red. 987<br />

1933 ... 875<br />

1962 adm. 860<br />

2019 d. 833<br />

2210 bil. 755<br />

3339 .. 492<br />

3623 min. 448<br />

3819 St. 422<br />

4161 pt. 382<br />

101


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Most frequent abbreviations 102<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Most frequent<br />

abbreviations<br />

Top 20 words ending with period<br />

Rank Abbreviation Frequency<br />

142 kr. 9576<br />

278 kl. 5068<br />

335 det. 4137<br />

513 sig. 2774<br />

556 dag. 2554<br />

572 med. 2490<br />

658 .. 2180<br />

693 pr. 2081<br />

799 ca. 1826<br />

860 d. 1678<br />

919 op. 1550<br />

1338 ind. 1095<br />

1358 mar. 1080<br />

1425 i. 1027<br />

1640 adm. 887<br />

1644 red. 887<br />

1651 jun. 883<br />

3436 bil. 398<br />

4189 Int. 316<br />

4275 St. 309


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Most frequent abbreviations 103<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Most frequent<br />

abbreviations<br />

Top 20 words ending with period<br />

Rank Abbreviation Frequency<br />

476 .. 2648<br />

25205 Co.. 28<br />

29626 pct.. 23<br />

36797 op.. 17<br />

40183 osv.. 15<br />

40287 res.. 15<br />

44005 kr.. 13<br />

56162 fa.. 9<br />

58029 var.. 9<br />

62890 ti.. 8<br />

62923 <strong>to</strong>.. 8<br />

87969 st.. 5<br />

97213 bil.. 4<br />

97751 da.. 4<br />

98364 etc.. 4<br />

98978 fr.. 4<br />

100414 kl.. 4<br />

101567 min.. 4<br />

103467 sk.. 4<br />

125757 mio.. 3


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Most frequent abbreviations 104<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Most frequent<br />

abbreviations<br />

Top 20 words ending with period<br />

Rank Abbreviation Frequency<br />

771 .. 2760<br />

36525 kr.. 27<br />

44753 pct.. 20<br />

46278 op.. 19<br />

54387 osv.. 15<br />

57367 ti.. 14<br />

67053 ned.. 11<br />

70557 etc.. 10<br />

71952 sk.. 10<br />

76831 mio.. 9<br />

77833 <strong>to</strong>.. 9<br />

88783 bl.. 7<br />

92678 var.. 7<br />

98454 da.. 6<br />

102376 st.. 6<br />

110683 bla.. 5<br />

114179 ma.. 5<br />

115753 sa.. 5<br />

127789 ba.. 4<br />

130223 fr.. 4


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Most frequent abbreviations 105<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Most frequent<br />

abbreviations<br />

Top 20 words ending with period<br />

Rank Abbreviation Frequency<br />

188 .. 20323<br />

19264 osv.. 129<br />

19818 op.. 124<br />

21631 var.. 110<br />

24850 da.. 90<br />

35844 kr.. 54<br />

40257 <strong>to</strong>.. 46<br />

47203 dyr.. 36<br />

53616 ned.. 30<br />

53786 stk.. 30<br />

56203 min.. 28<br />

58672 bil.. 26<br />

60317 etc.. 25<br />

66361 sk.. 22<br />

78325 kl.. 17<br />

78885 samt.. 17<br />

82355 tv.. 16<br />

85490 par.. 15<br />

89448 ord.. 14<br />

109570 bl.. 10


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Most frequent abbreviations 106<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Most frequent<br />

abbreviations<br />

Top 20 words ending with period<br />

Rank Abbreviation Frequency<br />

100 ca. 5249<br />

430 dvs. 1360<br />

617 d. 972<br />

660 sig. 923<br />

667 det. 916<br />

742 pr. 820<br />

885 dag. 690<br />

894 med. 686<br />

902 f. 680<br />

1413 i. 446<br />

1549 op. 408<br />

1553 St. 406<br />

1581 .. 397<br />

1703 kr. 373<br />

1814 evt. 350<br />

1974 km. 318<br />

2146 m. 293<br />

2292 kg. 276<br />

2368 cm. 267<br />

2394 Dr. 264


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Most frequent abbreviations 107<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Most frequent<br />

abbreviations<br />

Top 20 words ending with period<br />

Rank Abbreviation Frequency<br />

140 ca. 5976<br />

464 sig. 1904<br />

480 s. 1839<br />

537 det. 1676<br />

558 dvs. 1617<br />

723 pr. 1268<br />

791 dag. 1169<br />

799 d. 1155<br />

831 med. 1093<br />

950 p. 985<br />

1344 kr. 709<br />

1388 .. 687<br />

1592 kl. 602<br />

1624 St. 591<br />

1978 f. 481<br />

1984 pp. 480<br />

2008 evt. 473<br />

2213 op. 430<br />

2640 Dr. 362<br />

2772 i. 346


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Most frequent abbreviations 108<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Most frequent<br />

abbreviations<br />

Top 20 words ending with period<br />

Rank Abbreviation Frequency<br />

151 ca. 91862<br />

163 kr. 84532<br />

265 kl. 52365<br />

313 det. 44097<br />

325 d. 41802<br />

336 pr. 40123<br />

420 ... 32654<br />

471 med. 29619<br />

514 s. 27428<br />

555 sig. 25400<br />

558 evt. 25308<br />

619 .. 22664<br />

691 dag. 20368<br />

716 op. 19719<br />

786 min. 18054<br />

880 dvs. 16425<br />

886 i. 16325<br />

935 Stk. 15381<br />

1186 ill. 12215<br />

1340 cm. 10758


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Most frequent abbreviations 109<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Most frequent<br />

abbreviations<br />

Top 20 words ending with period<br />

Rank Abbreviation Frequency<br />

141 .. 69173<br />

17594 osv.. 335<br />

21295 op.. 260<br />

22748 etc.. 238<br />

27869 kr.. 181<br />

37161 mv.. 123<br />

42010 mm.. 104<br />

54087 min.. 74<br />

62432 ti.. 61<br />

64059 var.. 59<br />

68853 bil.. 53<br />

68885 da.. 53<br />

70125 ned.. 52<br />

70147 ord.. 52<br />

71234 sk.. 51<br />

79447 <strong>to</strong>.. 44<br />

83086 dyr.. 41<br />

88066 inkl.. 38<br />

90133 st.. 37<br />

91641 lign.. 36


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Most frequent abbreviations 110<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Most frequent<br />

abbreviations<br />

Top 20 words ending with period<br />

Rank Abbreviation Frequency<br />

275 .. 116012<br />

1023 ... 32423<br />

5795 .... 5038<br />

12748 ..... 1892<br />

24111 ...... 813<br />

26933 osv.. 700<br />

30859 kr.. 582<br />

35339 op.. 484<br />

38350 etc.. 430<br />

44463 ....... 352<br />

50714 ill.. 294<br />

60411 mv.. 230<br />

68750 var.. 192<br />

68944 mm.. 191<br />

75773 da.. 167<br />

77175 pct.. 163<br />

84312 min.. 144<br />

98877 <strong>to</strong>.. 115<br />

103321 ned.. 108<br />

111258 bil.. 97


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Left neighbors of the full s<strong>to</strong>p 111<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Left neighbors of the<br />

full s<strong>to</strong>p<br />

Top 25 left neighbour co-occurrences of full s<strong>to</strong>p<br />

Rank Word Frequency before Full S<strong>to</strong>p Frequency overall Amount<br />

106 pct 16221 16336 99<br />

215 mio 7338 7431 99<br />

380 2008 1889 4313 44<br />

432 mia 3884 3907 99<br />

1018 2009 777 1659 47<br />

1716 nr 970 994 98<br />

1827 B 565 932 61<br />

1926 2010 443 878 50<br />

2302 ej 337 724 47<br />

2935 W 560 566 99<br />

3013 Avis 237 551 43<br />

3436 H 406 475 85<br />

3824 pga 397 422 94<br />

3969 2012 211 403 52<br />

4165 2011 196 381 51<br />

4918 D 131 315 42<br />

4943 P 250 313 80<br />

4979 E 178 311 57<br />

5050 M 235 306 77<br />

5141 F 194 299 65<br />

5361 osv 259 285 91<br />

6123 AP 110 243 45<br />

6174 L 129 241 54<br />

6719 G 134 217 62<br />

6997 114 113 206 55


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Left neighbors of the full s<strong>to</strong>p 112<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Left neighbors of the<br />

full s<strong>to</strong>p<br />

Top 25 left neighbour co-occurrences of full s<strong>to</strong>p<br />

Rank Word Frequency before Full S<strong>to</strong>p Frequency overall Amount<br />

89 pct 16011 16113 99<br />

196 mio 6853 6953 99<br />

342 mia 3970 4017 99<br />

692 2009 992 2081 48<br />

1265 apr 1095 1153 95<br />

1299 2010 564 1129 50<br />

1333 jan 1020 1099 93<br />

1679 feb 785 864 91<br />

1843 B 557 778 72<br />

1871 A 331 768 43<br />

2250 nr 611 634 96<br />

2332 ej 261 610 43<br />

2796 Avis 238 502 47<br />

3006 W 435 463 94<br />

3083 2012 236 451 52<br />

3187 2011 247 434 57<br />

3774 C 203 357 57<br />

3872 04 230 346 66<br />

3895 O 297 344 86<br />

3989 H 312 336 93<br />

4261 ApS 140 310 45<br />

4549 08 229 288 80<br />

4972 M 196 262 75<br />

4983 pga 243 262 93<br />

5305 Ø 137 244 56


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Left neighbors of the full s<strong>to</strong>p 113<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Left neighbors of the<br />

full s<strong>to</strong>p<br />

Top 25 left neighbour co-occurrences of full s<strong>to</strong>p<br />

Rank Word Frequency before Full S<strong>to</strong>p Frequency overall Amount<br />

127 pct 9774 9823 100<br />

137 kr 8747 9031 97<br />

219 1 3176 5568 57<br />

226 mio 5326 5418 98<br />

347 2011 1438 3476 41<br />

348 kl 3399 3475 98<br />

388 mia 3051 3092 99<br />

439 jul <strong>2007</strong> 2868 70<br />

770 ca 1584 1669 95<br />

773 6 738 1667 44<br />

788 22 821 1631 50<br />

830 21 701 1550 45<br />

843 19 630 1530 41<br />

884 9 767 1454 53<br />

1070 pr 1151 1211 95<br />

1169 2012 546 1106 49<br />

1199 29 538 1080 50<br />

1269 jun 866 1022 85<br />

1278 28 448 1016 44<br />

1307 d 956 993 96<br />

1366 26 427 948 45<br />

1811 red 601 710 85<br />

1833 ej 287 698 41<br />

1903 31 281 667 42<br />

2325 nr 518 542 96


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Left neighbors of the full s<strong>to</strong>p 114<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Left neighbors of the<br />

full s<strong>to</strong>p<br />

Top 25 left neighbour co-occurrences of full s<strong>to</strong>p<br />

Rank Word Frequency before Full S<strong>to</strong>p Frequency overall Amount<br />

132 pct 15714 15807 99<br />

169 kr 11885 12235 97<br />

242 1 5275 8463 62<br />

284 mio 6938 7082 98<br />

407 mia 4865 4952 98<br />

420 2012 2091 4871 43<br />

478 kl 4192 4346 96<br />

823 6 1036 2558 41<br />

865 ca 2277 2404 95<br />

966 22 881 2181 40<br />

1044 9 946 2029 47<br />

1185 pr 1656 1791 92<br />

1482 red 1241 1412 88<br />

1546 2013 693 1366 51<br />

1726 29 493 1211 41<br />

1900 31 518 1098 47<br />

1945 nr 1042 1071 97<br />

2068 ej 460 997 46<br />

2273 2014 495 904 55<br />

2294 d 831 895 93<br />

2321 B 506 885 57<br />

2429 2020 343 843 41<br />

2561 2015 386 797 48<br />

3069 adm 657 658 100<br />

3456 osv 483 574 84


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Left neighbors of the full s<strong>to</strong>p 115<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Left neighbors<br />

of the full s<strong>to</strong>p<br />

Top 25 left neighbour co-occurrences of full s<strong>to</strong>p<br />

Rank Word Frequency before Full S<strong>to</strong>p Frequency overall Amount<br />

190 1 14670 19870 74<br />

261 kl 14685 15078 97<br />

263 2 6814 14949 46<br />

377 kr 9476 10362 91<br />

426 3 4127 9291 44<br />

527 11 3428 7675 45<br />

571 4 3259 7106 46<br />

617 5 2989 6636 45<br />

677 ca 5526 6136 90<br />

688 17 2599 6039 43<br />

773 6 2753 5248 52<br />

774 ven 3300 5240 63<br />

810 19 2329 5006 47<br />

825 8 2764 4939 56<br />

842 7 2871 4820 60<br />

853 21 2290 4782 48<br />

907 9 2863 4549 63<br />

934 22 1992 4453 45<br />

1074 mio 3621 3859 94<br />

1105 28 2133 3757 57<br />

1121 27 1960 3704 53<br />

1130 23 1865 3672 51<br />

1155 pr 3281 3613 91<br />

1162 26 1906 3595 53<br />

1294 29 2081 3215 65


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Left neighbors of the full s<strong>to</strong>p 116<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Left neighbors<br />

of the full s<strong>to</strong>p<br />

Top 25 left neighbour co-occurrences of full s<strong>to</strong>p<br />

Rank Word Frequency before Full S<strong>to</strong>p Frequency overall Amount<br />

170 Kirke 1945 3380 58<br />

916 pga 640 671 95<br />

982 nr 592 635 93<br />

992 C 369 627 59<br />

1212 vækst 231 517 45<br />

1214 osv 490 516 95<br />

1400 Blvd 450 450 100<br />

1624 H 272 389 70<br />

1643 J 282 385 73<br />

1650 S 271 384 71<br />

1730 mio 327 367 89<br />

1929 hhv 319 325 98<br />

2230 F 197 282 70<br />

2392 rand 190 265 72<br />

2404 D 118 263 45<br />

2486 E 149 255 58<br />

2556 W 215 248 87<br />

2709 M 113 234 48<br />

2743 P 167 231 72<br />

2790 L 105 228 46<br />

2833 eng 180 224 80<br />

2837 krone 90 224 40<br />

3331 G 97 188 52<br />

3460 R 92 181 51<br />

3545 bla 167 177 94


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Left neighbors of the full s<strong>to</strong>p 117<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Left neighbors<br />

of the full s<strong>to</strong>p<br />

Top 25 left neighbour co-occurrences of full s<strong>to</strong>p<br />

Rank Word Frequency before Full S<strong>to</strong>p Frequency overall Amount<br />

439 Kirke 817 1989 41<br />

710 pga 1208 1298 93<br />

748 C 558 1231 45<br />

760 nr 1163 1216 96<br />

873 mio 962 1063 90<br />

914 vækst 465 1022 45<br />

1240 B 320 761 42<br />

1514 H 407 637 64<br />

1685 hhv 557 570 98<br />

1773 osv 501 542 92<br />

1833 S 352 522 67<br />

1917 D 302 496 61<br />

2029 J 380 467 81<br />

2065 E 322 460 70<br />

2151 P 340 443 77<br />

2197 ihjel 177 432 41<br />

2260 frø 170 420 40<br />

2410 M 260 396 66<br />

2458 F 275 387 71<br />

2559 G 203 373 54<br />

2861 W 281 334 84<br />

2870 N 134 333 40<br />

3299 ej 118 290 41<br />

3369 R 181 284 64<br />

3504 L 170 272 63


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Left neighbors of the full s<strong>to</strong>p 118<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Left neighbors of the<br />

full s<strong>to</strong>p<br />

Top 25 left neighbour co-occurrences of full s<strong>to</strong>p<br />

Rank Word Frequency before Full S<strong>to</strong>p Frequency overall Amount<br />

254 nr 51974 54636 95<br />

572 stk 23291 24766 94<br />

822 mio 16295 17293 94<br />

1061 tlf 12397 13628 91<br />

1079 osv 12415 13453 92<br />

1476 jf 9665 9764 99<br />

1499 S 4398 9646 46<br />

1515 mv 9174 9561 96<br />

1538 pga 8470 9452 90<br />

1558 vedr 9238 9327 99<br />

1660 K 4569 8746 52<br />

1763 pct 7998 8230 97<br />

1833 E 3269 7947 41<br />

1873 H 5414 7781 70<br />

1911 sst 3958 7657 52<br />

2030 F 3838 7203 53<br />

2255 P 4305 6382 67<br />

2346 M 3344 6117 55<br />

2519 L 2892 5633 51<br />

2546 J 4064 5582 73<br />

2608 2004 2412 5437 44<br />

2764 Tlf 4049 5083 80<br />

2810 eks 4384 5004 88<br />

2843 mdr 4550 4937 92<br />

3016 hhv 4388 4610 95


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Left neighbors of the full s<strong>to</strong>p 119<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Left neighbors of the<br />

full s<strong>to</strong>p<br />

Top 25 left neighbour co-occurrences of full s<strong>to</strong>p<br />

Rank Word Frequency before Full S<strong>to</strong>p Frequency overall Amount<br />

83 1 50278 107716 47<br />

150 kr 58248 63551 92<br />

159 ca 56652 61295 92<br />

171 kl 51005 54912 93<br />

261 pr 31505 36550 86<br />

271 d 32464 33769 96<br />

389 evt 22354 23455 95<br />

438 9 8663 20839 42<br />

464 nr 18525 19896 93<br />

508 11 7683 17970 43<br />

565 16 6804 16501 41<br />

583 mm 8170 15990 51<br />

608 m 6489 15420 42<br />

634 13 6531 14990 44<br />

658 17 7561 14370 53<br />

697 stk 11496 13697 84<br />

798 21 5954 11951 50<br />

810 19 6237 11810 53<br />

826 osv 10964 11620 94<br />

853 22 5501 11285 49<br />

939 tlf 9232 10113 91<br />

960 28 5675 9865 58<br />

963 23 5153 9848 52<br />

1000 kg 3964 9310 43<br />

1005 dvs 8512 9271 92


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Left neighbors of the full s<strong>to</strong>p 120<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Left neighbors of<br />

the full s<strong>to</strong>p<br />

Top 25 left neighbour co-occurrences of full s<strong>to</strong>p<br />

Rank Word Frequency before Full S<strong>to</strong>p Frequency overall Amount<br />

101 1 160103 329542 49<br />

164 kr 186730 198463 94<br />

190 ca 161054 172894 93<br />

240 kl 125807 134511 94<br />

358 pr 80694 89161 91<br />

416 d 73968 76805 96<br />

444 pct 70450 71070 99<br />

467 nr 65502 68850 95<br />

488 11 26966 66353 41<br />

521 9 26449 62819 42<br />

633 mio 50832 52859 96<br />

649 evt 49702 51884 96<br />

668 17 22437 50004 45<br />

775 21 20701 43043 48<br />

792 19 21199 42236 50<br />

845 22 18672 39569 47<br />

858 stk 35254 39059 90<br />

977 23 17056 34093 50<br />

979 28 18250 34077 54<br />

1031 mm 15828 32129 49<br />

1041 27 17252 31732 54<br />

1052 26 16715 31463 53<br />

1066 dvs 28730 31077 92<br />

1146 osv 27124 29199 93<br />

1169 29 17139 28693 60


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 121<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Left neighbors of the<br />

full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps<br />

Top 25 left neighbors of full s<strong>to</strong>p already containing full s<strong>to</strong>ps<br />

Rank Word Frequency<br />

499 bl.a 3413<br />

641 www.bt.dk 2701<br />

782 f.eks 2188<br />

1372 pct./kurs 1239<br />

1675 A.P 1012<br />

1980 borsen.dk 852<br />

4066 politiken.dk 393<br />

4098 B.T 389<br />

5674 pct./indeks 266<br />

5904 H.C 254<br />

5921 Business.dk 253<br />

7038 Bl.a 204<br />

8100 p.t 171<br />

10714 bt.dk 120<br />

10863 business.dk 118<br />

11012 epn.dk 116<br />

11284 Politiken.dk 112<br />

12546 dr.dk/esbjerg 97<br />

12574 m.m 97<br />

12967 p.g.a 93<br />

13042 dr.dk/syd 92<br />

13691 dr.dk 86<br />

13887 B.T.s 84<br />

16695 ph.d 66<br />

17034 m.v 64


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 122<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Left neighbors of the<br />

full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps<br />

Top 25 left neighbors of full s<strong>to</strong>p already containing full s<strong>to</strong>ps<br />

Rank Word Frequency<br />

498 bl.a 2850<br />

864 f.eks 1665<br />

1317 A.P 1113<br />

2107 B.T 676<br />

3684 borsen.dk 366<br />

5407 Business.dk 237<br />

6484 F.eks 189<br />

7465 bt.dk 158<br />

7752 bold.dk 151<br />

8082 Bl.a 143<br />

8102 piquet@bt.dk 143<br />

8354 politiken.dk 138<br />

8399 p.t 137<br />

8575 H.C 133<br />

9380 dr.dk/syd 119<br />

9490 dr.dk/esbjerg 117<br />

10223 epn.dk 106<br />

11661 B.T.s 89<br />

12544 m.m 82<br />

12706 JV.dk 80<br />

13464 business.dk 74<br />

13906 m.v 71<br />

14029 dr.dk 70<br />

14505 fred@bt.dk 67<br />

18091 ph.d 50


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 123<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Left neighbors of the<br />

full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps<br />

Top 25 left neighbors of full s<strong>to</strong>p already containing full s<strong>to</strong>ps<br />

Rank Word Frequency<br />

545 bl.a 2340<br />

698 f.eks 1846<br />

1073 Berlingske.dk 1204<br />

1414 JV.dk 915<br />

2390 A.P 526<br />

3725 B.T 322<br />

4776 BT.dk 240<br />

5226 F.eks 219<br />

6001 N.E 187<br />

7760 m.m 136<br />

8917 H.C 113<br />

9827 m.v 101<br />

10337 dr.dk/syd 94<br />

10438 dr.dk 93<br />

10613 Bl.a 91<br />

11248 Business.dk 84<br />

12727 p.t 72<br />

13265 m.fl 68<br />

13426 politiken.dk 67<br />

13443 sporten.dk 67<br />

13521 borsen.dk 66<br />

13577 ph.d 66<br />

14113 J.K 62<br />

14158 dr.dk/esbjerg 62<br />

15837 B.T.s 53


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 124<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Left neighbors of the<br />

full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps<br />

Top 25 left neighbors of full s<strong>to</strong>p already containing full s<strong>to</strong>ps<br />

Rank Word Frequency<br />

709 bl.a 2995<br />

928 f.eks 2268<br />

2692 A.P 754<br />

4706 B.T 405<br />

8146 F.eks 209<br />

9572 dr.dk 170<br />

10413 Bl.a 152<br />

10682 sporten.dk 148<br />

10935 m.m 143<br />

11053 L.A 141<br />

11366 H.C 136<br />

1<strong>2007</strong> job@dr.dk 127<br />

12197 U.S 124<br />

12280 p.t 123<br />

13563 politiken.dk 108<br />

13906 Sporten.dk 104<br />

13947 ph.d 104<br />

14297 Politiken.dk 100<br />

14573 m.v 98<br />

15511 p.g.a 90<br />

15992 N.E 86<br />

16168 m.fl 85<br />

18079 pct.point 73<br />

18726 L.O.C 69<br />

18896 B.dk 68


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 125<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Left neighbors<br />

of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps<br />

Top 25 left neighbors of full s<strong>to</strong>p already containing full s<strong>to</strong>ps<br />

Rank Word Frequency<br />

533 bl.a 7578<br />

649 f.eks 6388<br />

4028 B.T 956<br />

4682 m.m 794<br />

5298 F.eks 679<br />

5542 A.P 644<br />

6476 m.v 539<br />

7405 H.C 453<br />

8222 m.fl 397<br />

8288 p.t 393<br />

8864 folketidende.dk 362<br />

10140 dr.dk 303<br />

10861 Bl.a 277<br />

12194 Folketidende.dk 238<br />

12512 p.g.a 230<br />

12636 o.s.v 227<br />

13560 information.dk 207<br />

14413 jv.dk 191<br />

14667 B.T.s 186<br />

15566 ph.d 172<br />

16666 o.k 157<br />

18818 bt.dk 133<br />

22387 P.S 104<br />

22741 folketidende.dks 102<br />

22776 m.h.t 102


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 126<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Left neighbors<br />

of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps<br />

Top 25 left neighbors of full s<strong>to</strong>p already containing full s<strong>to</strong>ps<br />

Rank Word Frequency<br />

102 bl.a 5155<br />

135 f.eks 4113<br />

449 f.Kr 1308<br />

2402 m.m 264<br />

3398 H.C 184<br />

3655 e.Kr 172<br />

3750 m.v 168<br />

3845 m.fl 163<br />

4077 Bl.a 153<br />

4416 f.v.t 141<br />

4437 F.C 140<br />

5072 Tsca.bot 119<br />

6220 p.g.a 95<br />

8025 d.v.s 71<br />

8028 e.v.t 71<br />

8604 J.C 65<br />

9077 C.F 61<br />

9234 cand.mag 60<br />

9337 J.R.R 59<br />

9443 A.P 58<br />

9658 f.kr 57<br />

9964 dr.phil 55<br />

11173 cand.polit 48<br />

11421 p.t 47<br />

11794 cand.jur 45


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 127<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Left neighbors<br />

of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps<br />

Top 25 left neighbors of full s<strong>to</strong>p already containing full s<strong>to</strong>ps<br />

Rank Word Frequency<br />

144 bl.a 5717<br />

194 f.eks 4081<br />

1098 f.Kr 862<br />

2641 F.eks 362<br />

3808 Bl.a 247<br />

4372 H.C 211<br />

4648 m.m 197<br />

5219 F.C 174<br />

5989 U.S 148<br />

6301 m.v 140<br />

6387 e.Kr 138<br />

8071 m.fl 105<br />

8900 A.P 93<br />

9962 C.F 81<br />

10203 f.v.t 79<br />

10746 D.C 74<br />

11440 m.o.h 69<br />

12353 p.t 63<br />

12794 f.kr 60<br />

13285 J.C 57<br />

13740 e.v.t 55<br />

17960 o.l 40<br />

18250 cand.mag 39<br />

18924 H.P 37<br />

19911 dr.phil 35


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 128<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Left neighbors of the<br />

full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps<br />

Top 25 left neighbors of full s<strong>to</strong>p already containing full s<strong>to</strong>ps<br />

Rank Word Frequency<br />

185 bl.a 74907<br />

208 f.eks 68408<br />

764 m.m 18493<br />

834 m.v 17091<br />

2230 g.m 6479<br />

2723 p.t 5167<br />

2731 m.fl 5152<br />

3519 p.g.a 3840<br />

3769 Bl.a 3541<br />

3859 d.v.s 3445<br />

4395 o.s.v 2971<br />

5399 o.l 2350<br />

6284 o.lign 1970<br />

6685 H.C 1822<br />

8046 m.h.t 1438<br />

8468 ph.d 1340<br />

8765 ph.d.-studerende 1280<br />

11309 o.a 924<br />

12819 f.Kr 789<br />

13254 s.t 756<br />

13665 mio.kr 723<br />

13833 m.h.p 711<br />

15340 cand.mag 618<br />

16744 el.lign 551<br />

17191 Ph.D 533


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 129<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Left neighbors of the<br />

full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps<br />

Top 25 left neighbors of full s<strong>to</strong>p already containing full s<strong>to</strong>ps<br />

Rank Word Frequency<br />

202 bl.a 46782<br />

252 f.eks 37908<br />

675 m.m 14095<br />

975 m.v 9685<br />

3131 F.eks 2956<br />

3648 m.fl 2456<br />

4079 p.t 2169<br />

4259 H.C 2040<br />

4619 Bl.a 1859<br />

5467 o.s.v 1510<br />

5752 p.g.a 1419<br />

6356 d.v.s 1245<br />

6432 o.l 1230<br />

8125 o.lign 922<br />

10747 ph.d 652<br />

12428 F.C 536<br />

13833 m.h.t 465<br />

15006 o.a 417<br />

15018 d.d 416<br />

15517 f.Kr 396<br />

17338 P.S 341<br />

17454 cand.mag 338<br />

18460 reg.nr 315<br />

18475 D.v.s 314<br />

19686 el.lign 289


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Left neighbors of the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps 130<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Left neighbors of<br />

the full s<strong>to</strong>p with additional internal full s<strong>to</strong>ps<br />

Top 25 left neighbors of full s<strong>to</strong>p already containing full s<strong>to</strong>ps<br />

Rank Word Frequency<br />

220 bl.a 146831<br />

261 f.eks 123611<br />

996 m.m 33321<br />

1220 m.v 27531<br />

4009 p.t 7876<br />

4245 m.fl 7394<br />

4888 Bl.a 6249<br />

5293 p.g.a 5660<br />

5919 H.C 4906<br />

5975 F.eks 4854<br />

6104 d.v.s 4739<br />

6128 A.P 4722<br />

6138 o.s.v 4714<br />

7584 o.l 3651<br />

8680 B.T 3067<br />

8808 o.lign 3006<br />

9357 f.Kr 2790<br />

11344 ph.d 2185<br />

12009 m.h.t 2040<br />

12058 g.m 2031<br />

16043 o.a 1395<br />

16644 Berlingske.dk 1329<br />

17015 borsen.dk 1291<br />

17338 F.C 1258<br />

18250 ph.d.-studerende 1178


Sentences details<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Shortest <strong>sentences</strong><br />

The shortest <strong>sentences</strong> by string length<br />

Shortest declarative <strong>sentences</strong><br />

Shortest exclama<strong>to</strong>ry <strong>sentences</strong><br />

Length Sentence<br />

13 »Helt ærligt.<br />

13 Dér står hun.<br />

13 »Vi må vente.<br />

13 Jeg må træne.<br />

13 Stærkt såret.<br />

13 Den grønne ø.<br />

13 Tænke, tænke.<br />

13 Fra Brønshøj.<br />

13 « udbrød han.<br />

13 Så kan du få.<br />

Length Sentence<br />

13 Bøger: »WACK!<br />

13 Træner søges!<br />

13 Jo det kan !<br />

13 « og »Gefahr!<br />

14 Så læg det ud!<br />

14 Ægget s<strong>to</strong>d op!<br />

14 Først kom Osu!<br />

14 "så små pærer!<br />

14 Glimrende køb!<br />

14 Så er den her!<br />

131


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Shortest <strong>sentences</strong> 132<br />

Shortest interrogative <strong>sentences</strong><br />

Length Sentence<br />

13 Åbne netværk?<br />

13 »Kan du læse?<br />

13 Hva be har?<br />

14 Og hvad så nu?<br />

14 50 punds træk?<br />

14 »Fatter I det?<br />

14 Og Brøndby IF?<br />

14 Eller i målet?<br />

14 Eller gør det?<br />

14 Kun på nettet?<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Shortest <strong>sentences</strong><br />

The shortest <strong>sentences</strong> by string length<br />

Shortest declarative <strong>sentences</strong><br />

Shortest exclama<strong>to</strong>ry <strong>sentences</strong><br />

Length Sentence<br />

1 .<br />

14 rhus Ultimate.<br />

15 Og væk var han.<br />

15 AOK viser vej..<br />

15 "Vi vinder 2-1.<br />

15 "Vi vinder 2-0.<br />

15 Det vidste hun.<br />

15 Læs videre her.<br />

15 Gu’ var jeg ej.<br />

15 Der var engang.


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Shortest <strong>sentences</strong> 133<br />

Shortest interrogative <strong>sentences</strong><br />

Length Sentence<br />

15 Vi søger helte!<br />

15 Og hvilken tur!<br />

15 Forstå det dog!<br />

15 Vi er lige her!<br />

15 På Forhånd Tak!<br />

15 Det oplyser OK!<br />

15 IE5 længe leve!<br />

15 "Du har vundet!<br />

15 Tak for det DR!<br />

15 Det er umuligt!<br />

Length Sentence<br />

15 Og hvad samler?<br />

15 Så hvad har vi?<br />

15 24 hold ved EM?<br />

15 Vil man bo der?<br />

15 Re: Hvad er vi?<br />

15 Hvorfor nu det?<br />

15 « Hvad var det?<br />

15 Hvem vinder EM?<br />

15 Hvad vil Faldo?<br />

15 Hvad skete der?


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Shortest <strong>sentences</strong> 134<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Shortest <strong>sentences</strong><br />

The shortest <strong>sentences</strong> by string length<br />

Shortest declarative <strong>sentences</strong><br />

Shortest exclama<strong>to</strong>ry <strong>sentences</strong><br />

Shortest interrogative <strong>sentences</strong><br />

Length Sentence<br />

15 “Ja – så gerne.<br />

15 Så kører <strong>to</strong>get.<br />

15 Desværre måske.<br />

15 Og tænk engang.<br />

15 Holbæk 128 mio.<br />

15 En svær me<strong>to</strong>de.<br />

15 Alt var i bund.<br />

15 Der var engang.<br />

15 Se hvad de kan.<br />

15 Dog uden Luise.<br />

Length Sentence<br />

15 Og husk det nu!<br />

15 Forstå ham dog!<br />

15 Meget grundigt!<br />

15 Sæt skatten op!<br />

15 Tak på forhånd!<br />

15 Aalborg venter!<br />

15 Jeg korser mig!<br />

15 Tag jer sammen!<br />

15 Så gik den dag!<br />

15 Det gør I ikke!


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Shortest <strong>sentences</strong> 135<br />

Length Sentence<br />

15 Så hvad gør du?<br />

15 Og hvad er det?<br />

15 Nå, og hvad så?<br />

15 Hvorfor nu det?<br />

15 Gør den så det?<br />

15 Hvor<strong>dan</strong> tør de?<br />

15 Hvad vælger du?<br />

15 Hvad vi lavede?<br />

15 Hvad syntes du?<br />

15 Hvad spiser de?<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Shortest <strong>sentences</strong><br />

The shortest <strong>sentences</strong> by string length<br />

Shortest declarative <strong>sentences</strong><br />

Shortest exclama<strong>to</strong>ry <strong>sentences</strong><br />

Length Sentence<br />

15 Så læs mig dog.<br />

15 10 byer del<strong>to</strong>g.<br />

15 For vores børn.<br />

15 FCK vinder 1-0.<br />

15 0-0 ved pausen.<br />

15 Løb ved Nyborg.<br />

15 Det ved enhver.<br />

15 Det var tæt på.<br />

15 Det var en leg.<br />

15 Ja hvad ellers.


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Shortest <strong>sentences</strong> 136<br />

Shortest interrogative <strong>sentences</strong><br />

Length Sentence<br />

15 Så tæt var det!<br />

15 Det var tæt på!<br />

15 Start dit eget!<br />

15 Se os, brug os!<br />

15 Er træt af jer!<br />

15 Nu er det sagt!<br />

15 Så er der fest!<br />

15 Men pas på ham!<br />

15 »Knep dig selv!<br />

15 Men nok om dig!<br />

Length Sentence<br />

15 Vil I gøre det?<br />

15 Men hvor er de?<br />

15 Men gør du det?<br />

15 Hvorfor nu det?<br />

15 Hvorfor nu dét?<br />

15 Har du set dem?<br />

15 "Hvad sker der?<br />

15 Hvad vil Apple?<br />

15 Hvad syntes du?<br />

15 Hvad skete der?


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Shortest <strong>sentences</strong> 137<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Shortest<br />

<strong>sentences</strong><br />

The shortest <strong>sentences</strong> by string length<br />

Shortest declarative <strong>sentences</strong><br />

Shortest exclama<strong>to</strong>ry <strong>sentences</strong><br />

Shortest interrogative <strong>sentences</strong><br />

Length Sentence<br />

15 Nej – desværre.<br />

15 Og tøv nu lige.<br />

15 Nu kører <strong>to</strong>get.<br />

15 De gør sig til.<br />

15 Så gør jeg det.<br />

15 En køn samling.<br />

15 Indrøm det dog.<br />

15 Det økologiske.<br />

15 Så løber tiden.<br />

15 De løber rundt.<br />

Length Sentence<br />

15 Så læs med her!<br />

15 Og hvilket mål!<br />

15 Er du helt syg!<br />

15 Nej til EU-hær!<br />

15 Uretten er sat!<br />

15 Forstå mig ret!<br />

15 Forstå det dog!<br />

15 Svært at undgå!<br />

15 Her står sagen!<br />

15 Sæt skatten op!


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Shortest <strong>sentences</strong> 138<br />

Length Sentence<br />

15 Og hvorfor det?<br />

15 Og hvad med EU?<br />

15 Og hvad gør EU?<br />

15 Så hvad gør du?<br />

15 En hvad for en?<br />

15 Og hvad fik vi?<br />

15 Og hvad er det?<br />

15 Så du mit link?<br />

15 Det tabte land?<br />

15 At stå udenfor?<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Shortest<br />

<strong>sentences</strong><br />

The shortest <strong>sentences</strong> by string length<br />

Shortest declarative <strong>sentences</strong><br />

Shortest exclama<strong>to</strong>ry <strong>sentences</strong><br />

Length Sentence<br />

15 800 – 1,3 mill.<br />

15 Indført i 1965.<br />

15 Indført i 1941.<br />

15 Forsøg på snyd.<br />

15 De røde numser.<br />

15 På færøsk: Jól.<br />

15 Tidszone GMT-3.<br />

15 Mao Zedong dør.<br />

15 Hollywood Blvd.<br />

15 Malaysia 8 stk.


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Shortest <strong>sentences</strong> 139<br />

Shortest interrogative <strong>sentences</strong><br />

Length Sentence<br />

15 Tillykke unger!<br />

15 Efter 21. Sxf7!<br />

15 Roden i f'(x),!<br />

15 Berømt i U.S.A!<br />

15 04. Feuer Frei!<br />

15 05. Feuer Frei!<br />

15 Et Hello World!<br />

15 Lækre bamsefyr!<br />

15 Selve Asfolket!<br />

15 200 års lakune!<br />

Length Sentence<br />

15 Er Gud moralsk?<br />

15 Retsordfører (?<br />

15 Anden Paa Coke?<br />

15 Hvilket system?<br />

15 Nyt fra rummet?<br />

15 Hvorfor nu det?<br />

15 Men er det nok?<br />

15 Comment vas-tu?<br />

15 Oms eller moms?<br />

15 Hvad er Mossad?


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Shortest <strong>sentences</strong> 140<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Shortest<br />

<strong>sentences</strong><br />

The shortest <strong>sentences</strong> by string length<br />

Shortest declarative <strong>sentences</strong><br />

Shortest exclama<strong>to</strong>ry <strong>sentences</strong><br />

Shortest interrogative <strong>sentences</strong><br />

Length Sentence<br />

15 Og hvilke film.<br />

15 Hun træner (pr.<br />

15 Den står endnu.<br />

15 Ligesom med mk.<br />

15 Eller af andre.<br />

15 ”, spurgte hun.<br />

15 Vejen til Kina.<br />

15 Set mod sydøst.<br />

15 Antallet af ph.<br />

15 Med Kim Møller.<br />

Length Sentence<br />

15 "Hvad siger du!<br />

15 Du kan selv se!<br />

16 Farvel igen mor!<br />

16 Og jeg slog til!<br />

16 Altså DM før VM!<br />

17 Gud velsigne dig!<br />

17 Din tjener hører!<br />

17 Ja, selvfølgelig!<br />

17 Kom og hjælp mig!<br />

17 Gå ind til Ronja!


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Shortest <strong>sentences</strong> 141<br />

Length Sentence<br />

15 Er Gud moralsk?<br />

15 Hvad skete der?<br />

15 Hvem siger det?<br />

15 Hvad gør du nu?<br />

15 Hvad fandt man?<br />

15 Hvad er Mossad?<br />

15 Hvad er Luther?<br />

16 Hvad kan man se?<br />

16 Hvad er ondskab?<br />

17 Til at gøre hvad?<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Shortest <strong>sentences</strong><br />

The shortest <strong>sentences</strong> by string length<br />

Shortest declarative <strong>sentences</strong><br />

Shortest exclama<strong>to</strong>ry <strong>sentences</strong><br />

Length Sentence<br />

13 Så kørte han.<br />

13 Så kørte det.<br />

13 « spørger de.<br />

13 Så kører det.<br />

13 Du søger råd.<br />

13 Øh næsten da.<br />

13 At være åben.<br />

13 Og næppe før.<br />

13 Udtræk 3. år.<br />

13 På ny, måske.


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Shortest <strong>sentences</strong> 142<br />

Shortest interrogative <strong>sentences</strong><br />

Length Sentence<br />

12 Hør på ham!<br />

13 Spørg Bush!<br />

13 Ære være dig!<br />

13 Første besøg!<br />

13 Kom på besøg!<br />

13 . Godt så..!<br />

13 Så<strong>dan</strong> gør vi!<br />

13 Så<strong>dan</strong> gør du!<br />

13 Sådkn gør du!<br />

13 Så<strong>dan</strong> er dét!<br />

Length Sentence<br />

13 Så<strong>dan</strong> gør vi?<br />

13 Eller hva ?<br />

13 At slå søm i?<br />

13 47 på Caféen?<br />

14 Se næste side?<br />

14 Og hvorfor så?<br />

14 Og hvor<strong>dan</strong> sÂ?<br />

14 Og hvor<strong>dan</strong> så?<br />

14 Og hvor længe?<br />

14 På hvis vegne?


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Shortest <strong>sentences</strong> 143<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Shortest <strong>sentences</strong><br />

The shortest <strong>sentences</strong> by string length<br />

Shortest declarative <strong>sentences</strong><br />

Shortest exclama<strong>to</strong>ry <strong>sentences</strong><br />

Shortest interrogative <strong>sentences</strong><br />

Length Sentence<br />

1 .<br />

2 1.<br />

2 B.<br />

4 osv.<br />

5 Cand.<br />

7 venner.<br />

9 stærkere.<br />

10 -livet nu.<br />

10 erhvervet.<br />

11 samme sten.<br />

Length Sentence<br />

15 Du gør mig våd!<br />

15 Så hør ham dog!<br />

15 Vi gør det sgu!<br />

15 Så gør det dog!<br />

15 At læse himlen!<br />

15 Så læs med her!<br />

15 ”Gevær ved fod!<br />

15 Du vælger selv!<br />

15 Se nyheder her!<br />

15 En ny mulighed!


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Shortest <strong>sentences</strong> 144<br />

Length Sentence<br />

11 Værestedet?<br />

15 Så gør du ikke?<br />

15 Vil ældre lære?<br />

15 Er læger bedst?<br />

15 Og hvorfor det?<br />

15 Med vores milj?<br />

15 For vores indg?<br />

15 Og hvor er jeg?<br />

15 Og hvis det sl?<br />

15 Det virkede sp?<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Shortest <strong>sentences</strong><br />

The shortest <strong>sentences</strong> by string length<br />

Shortest declarative <strong>sentences</strong><br />

Shortest exclama<strong>to</strong>ry <strong>sentences</strong><br />

Length Sentence<br />

1 .<br />

2 ".<br />

2 '.<br />

2 ).<br />

2 ..<br />

2 ].<br />

2 m.<br />

2 .<br />

2 .<br />

2 «.


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Shortest <strong>sentences</strong> 145<br />

Shortest interrogative <strong>sentences</strong><br />

Length Sentence<br />

1 !<br />

2 )!<br />

2 .!<br />

3 ."!<br />

3 ..!<br />

3 HA!<br />

3 NB!<br />

3 øh!<br />

4 .. !<br />

4 .AV!<br />

Length Sentence<br />

1 ?<br />

2 )?<br />

2 .?<br />

2 ?<br />

3 ..?<br />

6 noget?<br />

7 fanget?<br />

7 - Hvad?<br />

8 bibelen?<br />

8 ..og ud?


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: <strong>Longest</strong> <strong>sentences</strong> 146<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: <strong>Longest</strong> <strong>sentences</strong><br />

The longest <strong>sentences</strong> by string length<br />

<strong>Longest</strong> declarative <strong>sentences</strong><br />

Length Sentence<br />

255 MBAen er et deltidsstudie, som ledere i shipping-industrien skal kunne tage samtidig med, at de passer et fuldtidsjob. 30 procent af de<br />

studerende er <strong>dan</strong>ske, mens resten kommer fra blandt andet Norge, Sverige, Saudi Arabien, Tyrkiet, USA, Rusland og Kina.<br />

254 Mens den engelske landsholdschef Steve McClaren er meget fortrøstningsfuld omkring midtbanegenera<strong>to</strong>r Steven Gerrards deltagelse i de<br />

kommende kampe mod henholdsvis Israel og Rusland, er der bekrymring at spore andre steder i Liverpool-spillerens bagland.<br />

254 Med den seneste tids svage boligtal fra USA i frisk erindring, en uventet s<strong>to</strong>r stigning i antallet af nytilmeldte ledige i USA og et skuffende<br />

kvartalsregnskab fra s<strong>to</strong>rbanken Bank of America flygtede inves<strong>to</strong>rerne <strong>to</strong>rsdag fra de mere risikofyldte aktiver.<br />

254 GT1 bilerne der denne weekend kun består af Corvette Racings <strong>to</strong> biler er et par omgange efter, her er det Oliver Gavin og Olivier Beretta<br />

foran Jan Magnusen og Johnny O'Connell, begge biler har tilbagelagt 20 omgange og de er nu adskildt af 6,011 sekund.<br />

254 Det blev nok en gang til rentefald <strong>to</strong>rsdag, og melodien, der spiller, er stadig den samme - nye meldinger om nedskrivninger i<br />

banksek<strong>to</strong>ren i fjerde kvartal får inves<strong>to</strong>rerne til at sende aktiverne i sikker havn i obligationer, hvilket sender renter nedad.<br />

254 Brancheanalytiker Josh Greenbaum, leder af Enterprise Applications Consulting, udtaler, at det at Microsoft tilbyder softwaresupport i<br />

yderligere fem år er en erkendelse af, hvor godt Oracles udvidede supportprogram fungerer for virksomhedens kundekreds.<br />

254 Astanas profiler Alexandre Vinokourov og Andrey Kashechkin er begge blevet testet positiv for bruf af bloddoping, mens tyske Matthias<br />

Kessler og Italiens Eddy Mazzoleni også har er blevet taget i brug af forbudte s<strong>to</strong>ffer og tvunget til at forlade holdet.<br />

254 Mens den Radikale parti<strong>to</strong>p og Folketingsgrupen enigt bakker op om Marianne Jelved og hendes strategi "Den anden Vej", er der stadig<br />

murren i baglandet: - Urealistisk, uforklarlig og uinspirerende, hedder det i medlemsbladet i et af flere kritiske indlæg.<br />

254 Andreas Kley, som tidligere var finanschef i Siemens energidivision samt konsulenten Horst Vigener blev i dag dømt ved den regionale<br />

doms<strong>to</strong>l i Darmstadt for at have betalt omkring 6 mio. euro til <strong>to</strong> chefer i Enel SpA for at vinde ordrer fra virksomheden.<br />

254 De <strong>dan</strong>ske aktier startede ugen i den negative ende, hvor <strong>to</strong>talindekset C All (uændret/indeks 444) klarede sig bedre end eliteindekset C20<br />

(-0,2 pct./indeks 466), hvor medicinalselskabet Lundbeck (-0,8 pct./kurs 129,50) fortsat tynger i den negative ende.<br />

<strong>Longest</strong> exclama<strong>to</strong>ry <strong>sentences</strong><br />

Length Sentence<br />

252 PBS, The Larry King Podcast, Democracy Now!<br />

250 På grund af din indsats i dette projekt er det det eneste projekt, jeg umiddelbart vil anbefale herinde på nuværende tidspunkt over for<br />

nogen, fordi installeren i dette projekt virker fejlfrit og er lige så nem at betjene som installeren i phpBB 3.0!<br />

250 En gang i 1970erne af selveste Dirch Passer, som en dag pludselig s<strong>to</strong>d ved siden af Gustava på pissoiret i Grøften i Tivoli, og idet han<br />

lynede ned, ganske stille sagde: »Jamen se, der står han jo og tisser, den vidt berømte digter, som ingen kender!<br />

249 "Jeg lavede en perfekt start, og havde fin speed løbet igennem, så alt i alt er jeg godt tilfreds med resultatet" - var Claus Christensens<br />

kommentar til løbet - "men jeg er ved at være lidt træt af de 4. pladser, nu er jeg landet der fem gange i år!<br />

249 Sidste uge bød på PM roundtables omhandlende MOF (i relation til Exchange), Exchange <strong>2007</strong> SP1 SCR, E14 high availability m.m. E14<br />

sessionen var super interessant men er desværre under NDA, så kan ikke sige så meget andet end forvent s<strong>to</strong>re ændringer!<br />

249 Jeg er ikke typen, der "tager mit arbejde med hjem", men jeg er helt sikkert en type, der sommetider mangler energien til at høre, hvor<strong>dan</strong><br />

det går mine omgivelser, hvor<strong>dan</strong> er deres dag gået, og hvilke ønsker/forventninger har de til mig og dem selv!<br />

248 Da kongen senere i operaen holder sin s<strong>to</strong>re tale, ledsages optrinnet af filmoptagelser af amerikanske præcisionsbombninger i Irak, og da<br />

Don Carlos fængsles, er det også USA, kritikken rettes mod, for kronprinsen havner i Guantanamo, of all places!<br />

248 Inden løbene på Sturup Raceway indtager Philip en delt 6. plads i det generelle mesterskab, mens det er team kollegerne Casper Elgaard<br />

og John Nielsen der indtager henholdsvis første og anden pladserne, så bedre testpartnere kan han ikke ønske sig!


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: <strong>Longest</strong> <strong>sentences</strong> 147<br />

248 James Thompson sluttede som nummer tre i World Touring Car Championship mesterskabet bag de <strong>to</strong> BMW kørere Andy Priaulx og<br />

Yvan Muller, og det endda i en Alfa Romeo 156 som der dårligt har været udviklet på, eller er blevet opdateret i næsten <strong>to</strong> år!<br />

247 FC Fyn har nu åbnet sæsonballet med ni point for tre kampe, og det er lige før nedturen fra oprykningsdramaet mod Hvidovre som<br />

afslutning på sidste sæson er glemt - og erstattet af sikker optimisme med hensyn til, at i denne sæson, dér lykkes det!<br />

<strong>Longest</strong> interrogative <strong>sentences</strong><br />

Length Sentence<br />

251 Hvor er lyden af gamle forfatterskole-elever som Hammann og Hesselholdt eller folkelige bestsellere som Christian Jungersen, Jette A.<br />

Kaarsbøl, Morten Ramsland, Sara Blædel og Elsebeth Egholm, når det ikke lige handler om dem selv og deres nyeste bog?<br />

250 Ifølge eksperter er det ne<strong>to</strong>p NATO-alliancens s<strong>to</strong>re problem: Hvor mange soldater er NATO-landenes regeringer og vælgere villige til at<br />

ofre i en krig, som, ifølge blandt andet den <strong>dan</strong>ske forsvarsminister Søren Gade (V), kan komme til at vare i ti år?<br />

250 Mange steder i USA er han stadig at betragte som en antikrist, en reinkarnation af Satan på jord, men er der ud over iscenesættelsen og de<br />

bevidste provokationer så noget at komme efter bag inspirationen fra Alice Cooper, bag effekterne og staffagen?<br />

249 Men hans drømme om at rejse ud i den s<strong>to</strong>re verden er aldrig blevet realiseret, og nu har han også fået økonomiske problemer, så i et<br />

deprimeret øjeblik vil George tage livet af sig ved at hoppe ud fra en bro.Lyder det som en socialrealistisk nedtur?<br />

249 Orientering har spurgt lek<strong>to</strong>r Johannes Dragsvæk Schmidt fra Aalborg Universitets Institut for His<strong>to</strong>rie, Internationale Studier og<br />

Samfundsforhold, om valget KAN betyde, at Thaksin igen får magt, som han havde FØR militærkuppet i September sidste år?<br />

249 Eller er der gået inflation i såvel stjernesystemet som modtagelsen af de nye film i det hele taget, fordi filmudlejerne selvfølgelig med<br />

ukritisk grådighed henter de mest fanfare-klingende hyldester til filmene, uanset hvor de er blevet publiceret?<br />

248 For det drejede sig endnu en gang om det evindelige spørgsmål: Hvornår var den tyske regering parat til at sige ja til den begærede faste<br />

forbindelse over Femern-bæltet, så den anden del af Danmark kunne blive landfast med det europæiske kontinent?<br />

248 Er den franske præsident Sarkozy således ægte interesseret i et frit og liberalt europæisk marked, eller er han mest optaget af, at det<br />

europæiske skal tage sig troskyldigt ud for befolkningen, mens han tager fat på sine reformer hjemme i Frankrig?<br />

247 Dog er Thorning-Schmidt allerede på bogmarkedet i ok<strong>to</strong>ber, hvor journalisten Jakob Nielsen i sin bog »Helle for magten« ved hjælp af<br />

alle mulige kilder i statskvindens bagland har sat sig for at besvare spørgsmålet: Hvem er Helle Thorning-Schmidt?<br />

247 Så har Peter og de andre eksperter ret i at i det cool at smide en halvdyr Lenovo subnote på bordet, din Ipod, den nyeste business-telefon i<br />

et aparte design eller diskret nævne sin velbesøgte blog eller sin level 70 Blood Elf i World of Warcraft?


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: <strong>Longest</strong> <strong>sentences</strong> 148<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: <strong>Longest</strong> <strong>sentences</strong><br />

The longest <strong>sentences</strong> by string length<br />

<strong>Longest</strong> declarative <strong>sentences</strong><br />

Length Sentence<br />

277 Fogh og Kjærsgaard Fo<strong>to</strong>: Bjarke Ørsted Mens Villy Søvndals triumf<strong>to</strong>g er løbet ind i problemer, er strateger i oppositionen begyndt at<br />

frygte, at Socialdemokraterne, SF og de Radikale styrer mod et nyt nederlag over for den stærke VKO-alliance med Anders Fogh<br />

Rasmussen i front.<br />

276 (18.02.08) Manden vi hader at elske (16.02.08) Kilder med kendskab til straffesagens forløb oplyser, at landsretten arbejder på at skære<br />

mindst en måned og måske halvanden ud af kalenderen, så Klaus Riskær Pedersens ankesag i givet fald kan afsluttes seks uger før<br />

planlagt.<br />

255 Det kan give os mere råderum i Europa, og samtidig er det bestemt et af de moderne selskaber, der har størst betydning," sagde<br />

Topotarget-direktøren til Business.dk. Der er ikke i artiklen fra Business.dk nævnt noget om opkøb, som Topotarget også afviser.<br />

255 Når vi går til kamp mod, at piger i 10-årsalderen er tilhyllede, eller når vi går til kamp mod opdelt svømmeundervisning, så er det så<strong>dan</strong>ne<br />

eksempler, jeg tænker på, når jeg siger, at vi er antimuslimsk,« sagde Thulesen Dahl onsdag til Berlingske Tidende.<br />

255 Kort efter klokken fem i morges forsøgte en patruljevogn at lave et rutinetjek af en Mazda 626 på Bellahøjvej i den vestlige del af byen,<br />

men føreren af bilen trykkede speederen i bund og drønede derefter gennem København med op til 160 kilometer i timen.<br />

255 Fo<strong>to</strong>: Arkiv Vestfynske landmænd positive overfor at levere bla. gylle til produktion af energi En undersøgelse blandt 125 landmænd i<br />

Assens-området viser s<strong>to</strong>r interesse for at levere gyllefiber til et nyt biogasanlæg og at dyrke energipil til fjernvarmen.<br />

255 Bokseren udeblev højst overraskende fra en kamp i Marseille i begyndelsen af maj, hvor han skulle have mødt marokkanske Abdelouahed<br />

Ben Lelly, men om afbuddet har ført til dybereliggende stridigheder med Team Palle, vil Thomas Povlsen absolut ikke ind på.<br />

255 Den tidligere landsholdsmålmand og Manchester United-keeper Peter Schmeichel og mellem- og langdistanceløberen Wilson Kipketer er<br />

blevet indlemmet i det fine selskab, der blandt andet også tæller Michael Laudrup, Anja Andersen, Tom Bogs og Allan Simonsen.<br />

255 Venskabet med de tre dømte kan ikke sig selv være et dømmende bevis, sagde dommer Tegldal, men hun bad nævningerne stille sig selv<br />

spørgsmålet, om det er troværdigt, at EiH ingen viden har haft om, at hans tre nu dømte venner forberedte en terrorhandling.<br />

255 Måske ligger forklaringen i, at præsidenten forsøger at rette fokus mod de sydøstasiatiske landes, og især Indonesiens, modvilje mod at<br />

optage Østtimor i ASEAN-organisationen Australien meddelte i weekenden, at det trak ca. 200 soldater hjem fra Østtimor.<br />

<strong>Longest</strong> exclama<strong>to</strong>ry <strong>sentences</strong><br />

Length Sentence<br />

255 Når det er sagt, er jeg da enig i at spørgsmåle er decideret dårligt formuleret og ekstremt ladede - og så er jeg faktisk ligeglad med hvilken<br />

baggrund "spørgerne" har - det gør det faktisk bare værre, såfremt de reelt skulle være kommunikationsud<strong>dan</strong>nede!<br />

255 De øvrige tre tiltalte, fodsoldater som TB, i sportssko, cowboybukser og træningstrøjer, ankommer nok en gang for sent, trasker mageligt<br />

op langs midtergulvet, sætter sig skramlende på forreste række og indkasserer et skarpt »retsmødet begyndte kl. 13.30!<br />

254 Rekord med <strong>to</strong> et halvt sekund Hans tid på 1.48,40 min. er godt nok tre sekunde fra hans egen <strong>dan</strong>ske rekord, men det var rigeligt til at<br />

overgå den tredobbelte OL-guldvinder fra 1984, amerikaneren Rowdy Gaines, der i 1989 svømmede på 1.50,91 min. Men hov!<br />

254 Installerer jeg et andet mediacenter fungerer alt som det skal - jeg synes bare vistas er pænest og nemmest at bruge for de ikke<br />

computerkyndige i huset - mine børn på 9 og 7 kan selv starte en tegnefilm fra video, det kniber lidt i de andre mediacentre!<br />

254 Det var fra start tydeligt, at vi ikke kunne matche franskmændene, så vi har udelukkende koncentreret os om at køre løbs-setup i dag,"<br />

sagde Audis Frank Biela efter den nye banererekord - en forbedring af sidste års Pole Position på næsten otte sekunder!<br />

253 Debut til Force India VJM01 Force India F1 teamet testede for første gang med deres nye VJM01 racer, her var det Adrian Sutil og<br />

Vitan<strong>to</strong>nio Liuzzi der var på banen, de sluttede på henholdsvis 11. og 13. pladserne - helt klart godkendt for en debut test!<br />

252 Da sagen om Muhammed-tegningerne kogte over og presset på Danmark kulminerede, blev Paulus hyppigt citeret for formaningen til<br />

galaterne, der også blev udsat for truslen fra en lovreligion: »Stå derfor fast, og lad jer ikke atter tvinge under trælleåg!


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: <strong>Longest</strong> <strong>sentences</strong> 149<br />

251 Axevalla, 16. februar I 1996 vandt Lars Lindberg fire af de syv V75-løb på Solänget-banen og satte dermed svensk rekord på dette område<br />

Lørdag eftermiddag har Bjørn Goop muligheden for at slå rekorden– Goop har nemlig <strong>to</strong>pchancer i alle syv afdelinger!<br />

251 WRC 24/01/08 Dagens program for FIA World Rally Championship´i forbindelse med 2008 sæsonens første løb - Rallye Monte Carlo -<br />

der denne weekend køres i og omkring Monaco, består at en 5,030 km. shakedown, samt <strong>to</strong> specialprøver der skal køres i mørke!<br />

250 Formiddagens frie træning forløb tilfredsstillende - uden dog på nogen måde at være prangende: Kennie blev 17. hurtigst - godt 3½ sekund<br />

fra hurtigste mand, Andreas Simonsen (Sverige), men dog stadig godt fem (!) sekunder hurtigere end de langsomste!<br />

<strong>Longest</strong> interrogative <strong>sentences</strong><br />

Length Sentence<br />

255 Men når politiet af hensyn til retssikkerheden er begrænset på alle mulige måder med krav om dommerkendelse m.v., hvor<strong>dan</strong> kan en avis<br />

eller en tv-station så være både politi, anklager og dommer - og ødelægge menneskeliv uden nogen som helst retsgarantier?<br />

255 Hvem har ikke købt en smart elektrisk ny ting til køkkenet, fordi en ekvilibristisk sælger i Føtex overbeviste os om, at vi ikke kan lave<br />

mad uden denne ting for så at opdage, at vi allerede har indtil flere lignende apparater, der kan nøjagtig det samme?<br />

255 10. comeback Men skal man virkelig tage det alvorligt, at mainframen nu for 10. gang får comeback, efter at så mange har erklæret den<br />

som fortidig på grund af manglende fleksibilitet eller afhængighed af en aldrende arbejdsstyrke af mainframe-kompetencer?<br />

254 For ikke nok med at hun er oldermandens datter - hun har også det s<strong>to</strong>re kørekort, og det er jo nødvendigt, når medlemmerne <strong>to</strong> gange om<br />

året skal transporteres til Tyskland for at tanke op. - Kunne I nogensinde forestille jer ikke at optage et nyt medlem?<br />

254 Tidligere landboformand Peter Høite Hansen beskylder kommunen for urimelig behandling i miljøsag REVNINGE: Kan en kommune<br />

tillade sig at rejse en miljøsag med <strong>to</strong> og et halvt års forsinkelse, når der er tale om en fejl, som der for længst er rettet op på?<br />

254 Ny kritik af skoleledelse efter forældremøde, hvor problemerne omkring en tidligere elev blev penslet ud GISLEV: Hvor meget kan man<br />

som skole tillade sig at fortælle om en enkelt elevs opførsel i klassen og om de møder, man har haft med barnets forældre?<br />

253 Alt foregår på engelsk, og bemærk at din browser også eksisterer i en engelsk version, og det er en overvejelse du bør gøre dig, inden du<br />

installerer denne betaversion: ønsker du at din <strong>dan</strong>ske Internet Explorer skal udskiftes med en engelsk betaversion?<br />

253 Jeg HAR forstået på dig, at det altså ikke var mig, der fik det til at virke, og så vil jeg selvfølgelig ikke tage æren, men gider du ikke<br />

forklare, hvad der fik det til at virke dagen efter, på tidspunktet omkring/før jeg bad mogensp slette sit indlæg?<br />

252 Da han i denne uge blev spurgt, hvor<strong>dan</strong> det kan være, at han er blevet udsat for dette pres fra amerikansk side, svarede han, at "de kan<br />

ikke lide min profet, de kan ikke lide Koranen, de bryder sig ikke om min Gud, så hvorfor skulle de kunne lide mig?<br />

252 At kvinderne sidder tungt på barselsorloven, så mændene ikke får lov til at komme til (enten fordi de ikke forventes at kunne tage sig godt<br />

nok af børnene eller fordi deres lønninger ikke kan undværes i familien på grund af dyrt købte samtalekøkkener)?


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: <strong>Longest</strong> <strong>sentences</strong> 150<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: <strong>Longest</strong> <strong>sentences</strong><br />

The longest <strong>sentences</strong> by string length<br />

<strong>Longest</strong> declarative <strong>sentences</strong><br />

Length Sentence<br />

255 En meningsmåling, som Epinion har lavet for P4 København og TV2 Lorry i forbindelse med vores tema For Døve Øren viser, at kun tre<br />

procent af de borgere, der har forsøgt at påvirke beslutningsprocessen i deres egen kommune, har gjort det i et høringssvar.<br />

255 Det gamle samfund blev afløst af ’kulturrevolutionen’ i tiden efter 1968, nu blev de klassiske dyder afløst af social bevidsthed og<br />

rundkredspædagogik – der senere blev overtaget af individualisme og noget i retning af ’mest mulig succes for den enkelte’.<br />

255 Det fremgår af dokumenter, som dagbladet Børsen har fået aktindsigt i. "Forsvareren har blandt andet anført, at et navneforbud er meget<br />

påkrævet, da de sigtede erklærer sig uskyldige og oplyser, at de på intet tidspunkt har begået nogen kriminel handling.<br />

255 Også A.P. Møller-Mærsk har en fin dag på børsen, hvor B-aktien stiger 2,2 pct. til 49.280 kr. Landets største selskab har hævet raterne i<br />

sin største forretning, containerrederiet Maersk Line, på ruter fra Mellemøsten og Indien til Central- og Sydamerika.<br />

255 Sastre tabte næsten 17 minutter på bjerget, og dumpede ud af <strong>to</strong>p 20. Her <strong>to</strong>g Team Saxo Bank over, hvor først Matti Breschel, så Fabian<br />

Cancellara og til sidst Chris Anker Sørensen og Jakob Fuglsang byggede en tempofyldt affyringsrampe for kaptajn Schleck.<br />

255 Altså et proportions-misforhold omkring en nægtelse af en grundig undersøgelse, med henvisning til Auditørkorpset (altså Forsvarets<br />

undersøgelse af sig selv, på trods af Forsvarets afhængighed af regerings-beslutninger omkring krigs-indsatsen som helhed).<br />

255 Læs også Blodpropper skal bremses med betalingsring På forsiden af P4 København lige nu Pårørende skal gøre rent hos ældre Pårørende<br />

skal gøre rent hos ældre 22. jun. 2010 06:00 I Hørsholm skal de ældre til næste år nøjes med rengøring en gang om måneden.<br />

255 Styrker frygten for double dip ”Man kan bruge det som et billede på at det amerikanske boligmarked har været kunstigt understøttet af de<br />

her rabatter, og det fald vi ser i dag sætter selvfølgelig spørgsmålstegn ved, styrken på det amerikanske boligmarked.<br />

255 Sony advarer børn mod 3D Først var det Hollywood, der så 3D som en oplagt mulighed for at lokke biografgængerne tilbage i salen, men<br />

så røg Sony med på bølgen og lige siden er det PlayStation 3-producenten, der har promoveret teknologien i spilindustrien.<br />

255 John Strand skrev:Der er INGEN overraskelser i de tal der kom til aften ud over at iPad salget skuffer fælt - og jeg kan konstatere at en del<br />

af de artikler der har været skrevet om hvor hurtigt salget af iPads gik nok har været fyldt med graverende fejl.<br />

<strong>Longest</strong> exclama<strong>to</strong>ry <strong>sentences</strong><br />

Length Sentence<br />

255 Læs også Skib fra 1700-tallet fundet på Ground Zero 0 Forrige Næste af Tags arkæologi ground zero Print Send Del Modtag nyhedsbreve<br />

Nyhedsbrev Modtag nyheder på e-mail hver morgen. 281bcd77730d221157f20cbd32345f54 Indtast mailadresse Tak for tilmeldingen!<br />

255 Optimismen forud for søndagens første løb var derfor fuldt berettiget, men desværre lykkedes det ikke for Anders Christensen at fastholde<br />

sin 2. plads gennem svinget for enden af langside, hvor kørerne i inderbanen havde en lille fordel og smuttede forbi!<br />

255 Jeg er da glad for, at jeg kan genkende dele af mit spørgsmål, men hvor er det altså ærgerligt, at Informations journalist ikke har valgt at<br />

stille opfølgende spørgsmål, men i stedet lader Bertel Haarder slippe af sted med at - venlig sagt - svare udenom!<br />

255 Forside Nyheder Kalender Deltagere Artikler Galleri Stillinger Tv-guide Mo<strong>to</strong>rsnak Shop Søg Quiz Rejser Tilføj denne side til dine<br />

favoritter Send link pr e-mail e-mail til mo<strong>to</strong>rsporten.dk Link til Referer links KF2 Nicolaj Møller Madsen Europamester 2010!<br />

255 Og ensemblet har i hvert fald moret sig under den succesfulde opførelse i efteråret og forberedelserne til de kommende<br />

midnatsforestillinger, forsikrer eventministeren Rikke Lylloff og garanterer ikke mindre end: »Skide sjove komiker-numre, strip og <strong>dan</strong>s!<br />

255 Da der den 18. januar 2010 ikke havde været afholdt møder i det nye Teknisk udvalg valgte den nye formand for Teknisk udvalg at<br />

orientere om, hvad han selv og hans parti s<strong>to</strong>d for omkring Materialegårdens fremtid hvilket jeg sjovt nok også finder positivt!<br />

255 Men for hendes eget vedkommende har der aldrig været dokumenteret nogen form for landsforræderi; der har aldrig fundet nogen<br />

rettergang sted før hun ved ankomsten til Københavns Havn blev ført direkte til Blåtårn, hvor hun brutalt blev buret inde i 22 år!<br />

254 Geek Culture - Professor Lay<strong>to</strong>n and Pandora's Box Kommentarer til Professor Lay<strong>to</strong>n and Pandora's Box Denne tråd er læst 796 gange<br />

Gå tilbage til artiklen Professor Lay<strong>to</strong>n and Pandora's Box Vælg side: 1 2 11: ljorg @10 7. jul 2010 22:27 Til alle: KØØØØØB!


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: <strong>Longest</strong> <strong>sentences</strong> 151<br />

254 Frygt ej at piloter på noget tidspunkt får stress - okay, det skulle som sagt lige være over at konen bliver <strong>to</strong>sset over at manden endnu<br />

engang har solgt sin fridag for at indkassere kassen, i stedet for at tage med ungerne en tur i skoven - ellers ikke!<br />

254 Læs også Alt kan outsources Find fordelene ved outsourcing Den nye outsourcingsbølge chefer job outsourcing Print Send Del<br />

Nyhedsbrev Modtag nyheder på e-mail hver morgen. 850795d98b73f8aed240d884516a9e45 Indtast mailadresse Tilmeld Tak for<br />

tilmeldingen!<br />

<strong>Longest</strong> interrogative <strong>sentences</strong><br />

Length Sentence<br />

255 Så kan det helt sikkert betale en ny løsningen om nogle år, hvor brugerne er blevet trygge ved diverse løsninger fra staten og kommunerne,<br />

men NemID måske (måske ikke) er blevet for dyr. Hvorfor kan jeg f.eks. ikke indskrive mit barn til skole via nettet?<br />

255 Få <strong>dan</strong>skere finder e-mærket vigtigst - ComON Mediaprovider ComON • GEAR • Zoom • Mobil • MediaMac • WebTV • JobWorld<br />

Forside Seneste nyheder Whitepaper Nyhedsarkiv Bøger Nettet: Jordens hemmelige tvilling Teknologi: Er iPhone 4 født med<br />

antenne-problemer?<br />

255 Sociale netværk som digitalt magasin - ComON Mediaprovider ComON • GEAR • Zoom • Mobil • MediaMac • WebTV • JobWorld<br />

Forside Seneste nyheder Whitepaper Nyhedsarkiv Bøger Nettet: Jordens hemmelige tvilling Teknologi: Er iPhone 4 født med<br />

antenne-problemer?<br />

255 Skat lancerer kæmpe SAP-projekt - ComON Mediaprovider ComON • GEAR • Zoom • Mobil • MediaMac • WebTV • JobWorld Forside<br />

Seneste nyheder Whitepaper Nyhedsarkiv Bøger Nettet: Få live fodbold på arbejdspc'en Teknologi: Er iPhone 4 født med<br />

antenne-problemer?<br />

255 Hvis den bliver udbetalt - hvor meget får du så ekstra pr. måned efter skat, når der er taget højde for den ekstra modregning i<br />

pensionstillægget, sammenholdt med hvor s<strong>to</strong>rt et net<strong>to</strong>beløb vil du modtage, hvis du ophæver indekskontrakterne engang for alle?<br />

255 ”Vil borgmesteren venligst redegøre for de saglige begrundelser for, at man godkendte investeringen i et pillefyr på skolen i Åkirkeby (en<br />

udgift på 0,8 mill. kr.), når man var vidende om, at skolen inden for ganske kort tid skulle tilsluttes fjernvarmen?<br />

254 Breaking <strong>news</strong> på mobilen Modtag gratis breaking <strong>news</strong> på sms. Send: BERLINGSKE BREAK til 1929 Se mere om tjenesten her Seneste<br />

nyt fra Kommentarer Lobbyisme i øjenhøjde (23:30) Hjælp de truede andelsforeninger (23:30) Det dumme internet (23:30) Hobbykniv?<br />

254 Men de samme mennesker ville måske føle, at deres forsøg på at kompensere en smule for den uretfærdige fordeling af goderne på Jorden<br />

gjorde en mere reel forskel, hvis den samlede skat og dermed samfundets fællesbistand i udgangspunktet var langt større?<br />

254 Forretningsfordele ved Oracle WebLogic Suite 11g Data Loss Preventions kritiske rolle i it-governance, compliance og risikohåndtering<br />

Fuldendt projektudførelse: Vejen til succes for videnservicevirksomheder Alle whitepapers » Shop Hvad ville Google gøre?<br />

254 Må man i det henseende, med smil på læben, tilspørge, om hvilket arkitek<strong>to</strong>niskt udtryk det er man, fra kommunens side, bifalder på<br />

Buddingevej 73, hvor ramponerede rustvogne står i første parket til vejen, omgivet af gennemført misligholdelse på grunden?


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: <strong>Longest</strong> <strong>sentences</strong> 152<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: <strong>Longest</strong> <strong>sentences</strong><br />

The longest <strong>sentences</strong> by string length<br />

<strong>Longest</strong> declarative <strong>sentences</strong><br />

Length Sentence<br />

255 Asus har i denne uge lanceret blandt andet Asus Zenbook UX31 med en smuk skærm på 13,3 <strong>to</strong>mmer med en opløsning på hele 1600<br />

gange 900 pixel, hvilket er højere end skærmopløsningen på både Apples MacBook Air og Acers konkurrerende ultrabook, Aspire<br />

S3-951.<br />

255 Der er ganske enkelt ikke nogen nævneværdig finger at sætte på det her spil, der ikke bare undlader at gøre ting forkert, men også sørger<br />

for at tilvælge så meget som muligt, samtidig med at personer, stemmeskuespil, landskaber, plot og gameplay er i <strong>to</strong>p.<br />

255 Der er for eksempel indtil videre kun registreret tre <strong>dan</strong>ske brugere af websiden rentafriend.com. Men ifølge ejeren er der et<br />

reklamefremstød på vej, og det vil så vise sig, om fænomenet med at leje venner på timebasis også kan finde udbredelse herhjemme.<br />

255 Blandt andet er der indført grundige gennemgange af journaler på alle døde patienter, månedlige læringsmøder med læger med<br />

gennemgang af cases af dødsfald og indførelsen af et varslingssystem, der kan identificere en akut forværring i patientens tilstand.<br />

255 Der er dog fortsat en række faremomenter, som truer aktiemarkedets optur, og særligt problemerne i det gældsplagede Grækenland i<br />

kombination med skuffende økonomiske nøgletal kan være med til at bremse opturen – og måske endda vende opturen til en nedtur.<br />

255 En af delene i projektet er blandt andet, at man vil ansætte sygeplejersker, som skal følge de kronisk syge hjem efter indlæggelse for<br />

eksempelvis at tjekke op på, at de får den medicin, de skal have, og at familien er opmærksom på de behov, den syge har.<br />

255 Selvom jeg ikke direkte vil sige, at Jussi Adler-Olsen har en ondskabsknap, han skruer op for med hver ny roman i serien om Afdeling Q,<br />

så virker det alligevel som om, der er mere på spil for hver his<strong>to</strong>rie, der kommer ud om Carl Mørck og hans særlige job.<br />

255 Arbejdstid bliver aftalt i overenskomsterne, så hvis arbejdsgivere og lønmodtagere bliver enige med en ny regering om at øge arbejdstiden,<br />

skal de indgå i forhandlingerne om nye overenskomster på det private arbejdsmarked i foråret 2012, skrive Politiken.<br />

255 Snarere måtte de finde sig i at få violinistens knyttede hænder og opflammende, voldsomt udfarende armbevægelser smækket i synet,<br />

mens de, der hvor en dirigent skulle have hjulpet med at holde sammen på vanskelige passager i musikken, blev ladt i stikken.<br />

255 For øjnene af knap 10.000 tilskuere på Centre Court - heriblandt tidligere sportsstjerner som Martina Navratilova, Steve Redgrave, Roger<br />

Bannister, Geoff Hurst og Jonathan Edwards - vandt hun 6-3, 6-2 over den slovakisk fødte australier Jarmila Gajdosova.<br />

<strong>Longest</strong> exclama<strong>to</strong>ry <strong>sentences</strong><br />

Length Sentence<br />

255 Inden for få sekunder havde hele salen rejst sig op, og samtlige 28.000 kubikmeter summede af simultan popekstase, alt imens aftenens<br />

hovedperson spænede rundt på den ovale scene som Mick Jagger i fri dressur, inden han satte i signaturhylet »uuuhuuuuuuu!<br />

255 Hvis opdager en video i dårlig kvalitet med dårlig fokusering og mellemlang buffertid, samtidig med den i bedre kvalitet med skarpere<br />

billeder og som buffer hurtigere og som begge er fra samme kilde, må du da være helt væk hvis du vælger den første video!<br />

254 Nu er vi jo godt nok i Danmark, angiveligt et af verdens mindst korrupte lande, men man kunne jo godt have en mistanke om at nogle får<br />

penge under bordet, - siden man bliver ved med at benytte et firma, som nu adskillige gange, har bevist sin uduelighed!<br />

254 Jeg håber på hendes vegne, at hun på et tidspunkt kommer til at tjene kr. 250.000.000 om året og så tak til hende for den gratis reklame,<br />

som hun giver Danmark hver uge med sin indstilling til sport og livet - det er skønt næsten altid at se hende smile!<br />

254 Det er jo en anelse lettere, fx. at hente poderne i diverse institutioner og købe ind i bil, på vej hjem fra arbejde i København, end hvis man<br />

pga. økonomi skal tvinges over i offentlig transport (som pt. lader meget tilbage at ønske (fix lige dèt først!<br />

253 Hvad du efterspørger og anklager er fuldt forsvarligt, dog ville jeg ønske at du ville lægge lige så meget energi i at efterlyse god<br />

journalistik, når det ikke er LA's politikere der er i søgelyset, men måske endda - tør jeg sige det - nogen af de røde!<br />

252 Ved Grand AM seriens første løb i år, 24-timers løbet på Day<strong>to</strong>na International Speedway, placerede Magnus Racing kørerne teamet<br />

Porsche racer på fjerde pladsen i GT klassen, samt på en generel sekstende plads, og nu venter helt nye udfordringer forude!


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: <strong>Longest</strong> <strong>sentences</strong> 153<br />

252 Så er du interesseret i at køre i den ene af Sally Racing's Renault Sport Clio III racere til 24-timers løbet på Circuit de Catalunya ved<br />

Barcelona den 23. til 25. september, så er det NU du skal tilmelde dig, hvis du vil have det til den rigtige pris!<br />

252 Compare Support var ikke det første firma indenfor servicebranchen som han ødelagde, håber de smider nøglen væk og lader ham rådne<br />

op i fængsel for det har han fortjent for alle de medarbejdere, lærlinge og kunder hvis liv han har gjort til et helvede!<br />

252 En mindre kørefejl fra Nicolai udløste en overhalingsmulighed til Mikkel, som han <strong>to</strong>g sig kærligt af - Mikkel vandt bogstavelig talt på<br />

stregen, selv om begge kørere måtte holde speederen i bund så længe, at de kørte af banen i svinget efter målflaget!<br />

<strong>Longest</strong> interrogative <strong>sentences</strong><br />

Length Sentence<br />

255 Hvad med at lade The New Yorkers korrespondent Jon Lee Anderson, hvis gigantiske værk om Che Guevara er på vej i en opdateret<br />

<strong>dan</strong>sk udgave, samtale med den cubanske, skønlitterære forfatter Leonardo Padura, aktuel på <strong>dan</strong>sk med ’Manden, der elskede hunde’?<br />

255 Måske er den banale forklaring på møderne, at Skat København selv ville sikre sig opad i systemet, at man for<strong>to</strong>lkede reglerne korrekt i<br />

den stærkt ømtålelige sag, hvor ingen ville bryde sig om beskyldninger om at have truffet en politisk farvet afgørelse?<br />

255 Bliv dog jord naer, og taenk paa den lidende <strong>dan</strong>ske industri, og handelsbalancen for en gangs skyld; - DK har $4 milliarder minus til Kina<br />

paa handelsbalancen, fattigdom i DK er voksende - ikke i Kina - og I vil kaefte op omkring, hvor<strong>dan</strong> kineserne lever?<br />

255 Men hvor<strong>dan</strong> kan det være ondsindet at forsøge at reducere forsørgerbyrden for det mindretal af befolkningen, der går på arbejde hver dag,<br />

men berøves mindst halvdelen af sin indtægt, bl.a. fordi de også skal forsørge alle dem, der holder ferie året rundt?<br />

255 Hvad siger du til 25.000 kr. i den ene hånd, din kæmpe pokal i den anden, en proff testdag i en formelracer med et superteam, hvor din far<br />

kan tage tid med guldbelagt tidtagningsudstyr, og slutte sæsonen af med VIP-status ved X30-finalen med entré betalt?<br />

254 Og hvem tror på at politikerne rent faktisk har tænkt sig at sætte nogensomhelst skatter ned i en tid, hvor man over hele Europa har gjort<br />

befolkningerne til gældsslaver af de banker, som man bliver ved med at forære penge, fordi de er "Too big <strong>to</strong> fail"?<br />

254 Det var noget med at en nøglefil og nogens tasteaflæsningsmalware på samme pc gjorde den sårbar, og at papkortet ikke så nemt ville<br />

kunne blive stjålet - men med en app på sin telefon vil man da være lige vidt hvis telefonen bliver stjålet, vil man ikke?<br />

254 »Det er så<strong>dan</strong> et sted, man går rundt med en gummihammer og en dum hat og drikker en dum 'Flodhest' eller, hvad de hedder, og spørger<br />

hinanden om så<strong>dan</strong> noget som: 'Hvis du kunne vælge mellem alverdens supermodeller, hvem ville du så helst skide i munden«?<br />

253 Lokations-informationerne kan også anvendes til at undgå fejlopkald og til at vælge den bedste kommunikationsform i et givent tilfælde,<br />

både hvad angår samtalepriser og kommunikationskanal - skal det være per mail, chat, IP-telefoni eller mobiltelefoni?<br />

253 Men selvom det skulle lykkes at overbevise virksomhederne, vil I stadigt være oppe mod folks personlige præferencer – det ses jo ofte, at<br />

folk ikke bruger deres arbejdstelefon men hellere anskaffer deres egen smartphone og bruger den som arbejdstelefon?


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: <strong>Longest</strong> <strong>sentences</strong> 154<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: <strong>Longest</strong><br />

<strong>sentences</strong><br />

The longest <strong>sentences</strong> by string length<br />

<strong>Longest</strong> declarative <strong>sentences</strong><br />

Length Sentence<br />

255 Mange ledere snakker desuden om, at de nu når ned på folkeskolens minimumskrav til timer, og at de må støvsuge kon<strong>to</strong>en for<br />

dobbelttimer, som man især bruger i de mindste klasser, siger formanden for skolelederne, Thorkil Andersen, til Århus Stiftstidende.<br />

255 En uhyggelig s<strong>to</strong>r del af dem - omkring 23 procent af alle mænd og syv procent af kvinderne - er arbejdsløse, og generelt ligger områderne<br />

i bunden af s<strong>to</strong>rt set hver eneste opgørelse over de mest underprivilegerede og ekskluderede områder i S<strong>to</strong>rbritannien.<br />

255 Lederskribenten i Jyllands-Posten er mindst lige så oprørt og skriver 1. maj om Anker Jørgensens “hovedløse og forhastede kommentar,<br />

der forhåbentlig har sin væsentligste baggrund i elementær uvidenhed og svigtende indsigt suppleret af dårlig rådgivning”.<br />

255 Hermed har den sjakret med landets sikkerhed og omdømme, sendt unge <strong>dan</strong>ske mænd og kvinder i en meningsløs død og smadret et helt<br />

land som aktiv deltager i en røverisk oliekrig, der har kostet over en million irakere livet og sendt fem millioner på flugt.<br />

255 LO-Randers og nedenstående politiske partier og lister har aftalt, at følgende forhold vil blive gennemført, såfremt det politisk er muligt at<br />

skaffe flertal herfor efter det kommende valg til kommunalbestyrelse i Ny Randers Kommune den 15. november 2005.<br />

255 For det er jo dyrt at have folk siddende i fængsel, så kunne vi sænke kriminaliteten, Det ville skabe større tryghed og nogle penge, så jeg er<br />

bestemt positivt indstillet over for at se på alternative behandlingsmåder, hvis det fører til bedre resultater.<br />

255 Ib Spang Olsen fortæller blandt andet om faderens gartneri-arbejde, Familie Journalens uundværlige håndbøger, som gav en god ide til<br />

senere tiders foldebøger, ægteskabelige intimiteter i en 2-værelses lejlighed og andre billeder fra tyverne og trediverne.<br />

255 Efter korruptionsskandalen i Salt Lake City, hvor ti medlemmer af IOC blev smidt ud for korruption, forbød IOC sine menige medlemmer<br />

at besigtige olympiske kandidatbyer, som i årtier havde bestukket besøgende medlemmer med penge, gaver og tjenesteydelser.<br />

255 Vi er gæstfrie, det er i alt fald, hvad der står i mine replikker, men det giver jo ingen mening, hvis gæster ligesom glemmer, at de er gæster<br />

og ligesom tror, de bare kan blive boende i det velfærdssamfund som vi andre har bygget op i mange generationer.<br />

255 En ny meningsmåling lavet for fire vestlige nyhedsbureauer i USA, S<strong>to</strong>rbritannien og Tyskland viser, at næsten 60 procent af 1691<br />

adspurgte i Afghanistan ønsker de fremmede soldater ud så hurtigt som muligt, og at tilbagetrækningen starter i sommeren 2011.<br />

<strong>Longest</strong> exclama<strong>to</strong>ry <strong>sentences</strong><br />

Length Sentence<br />

255 Derfor har Regeringen fremlagt "faglighed og frihed", hvor vi ønsker, at kommunerne selv er mere herre over, hvor<strong>dan</strong> de tilrettelægger<br />

undervisningen, og så følges det op via de nationale test, så der ses på resultaterne, men ikke hvor<strong>dan</strong> man når til dem!<br />

255 For at guiderne kan blive en succes, er det vigtigt at disse afspejler bredden i NGO Forum S<strong>to</strong>p Volden: Unionstilhængere,<br />

unionsmodstandere, revolutionære socialister, u-landsfolk, både mænd og kvinder i alle aldre, sort og hvid m.v. Der er brug for alle!<br />

255 Senest tirsdag 28.12. fra Kolding mod Østerport: 2 vogne (det er ikke ret s<strong>to</strong>rt!) Samtidig aflyser man <strong>to</strong>get mod Fredericia - alle<br />

passagerer "tilbydes" at tage med <strong>to</strong>get mod Østerport og så skifte i Middelfart og tage et andet <strong>to</strong>g tilbage til Fredericia!<br />

255 Uden at ville stille mig til doms over andre menneskers lyster kunne jeg godt finde på at synes at tendensen i sig selv sagde noget om<br />

kvinders generelle seksuelle selvopfattelse som jeg personligt finder - om ikke problematisk så med plads til udvidelse!<br />

255 Med hensyn til det kommende valg, og til foreningen SIAD (S<strong>to</strong>p Islamiseringen af Danmark), der nu igen vil demonstrere lige her oppe i<br />

Gellerup og siger, at det drejer sig om den hvide races ytringsfrihed i den sorte ghet<strong>to</strong>, vil jeg bare sige: Vælg ingen!<br />

255 BRH, som engang var et anstaendigt menneske, er nu <strong>to</strong>talt oedelagt…politisk, og sikkert ogsaa menneskeligt…regeringen er <strong>to</strong>talt<br />

ligeglad med alt og alle, baade i og udenfor Danmark og, de eneste der taeller i det lille fascistiske land er efterhaanden DF!<br />

255 Sure gamle menneksker brokker sig over Harley Davidson mo<strong>to</strong>rcykler, knallerter, skateboardbaner, basketballbaner, unge mennesker der<br />

mødes om aftenen i byen, flyvemaskiner og anden trafikstøj e.t.c. e.t.c. Der skal nok også komme klager over rockmusikken!


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: <strong>Longest</strong> <strong>sentences</strong> 155<br />

255 Hvis man krydser grænsen mellem amatør og det, man kunne kalde forpligtet kunstner, og henvender sig med ord, lyd, optræden, billeder<br />

og så videre til omverdenen har man en forpligtelse til, at denne henvendelse er artikuleret så godt man overhovedet kan!<br />

255 Og apropo den aktuelle tvist - igen igen,om at der ikke må opsættes skilte / plakater langs landeveje og mo<strong>to</strong>rveje af hensyn til<br />

trafiksikkerheden, så undrer det mig at hensynet til trafiksikkerheden, i den forbindelse, åbenbart ikke er gældende i byerne!<br />

255 Om I er hysteriske, kan jeg ikke vide noget om, men jeg kan godt forstå jeres usikkerhed overfor naboens hunde - især da I har en rigtig<br />

dårlig oplevelse med, at hundene har overfaldet jeres lille hund så voldsomt, at den måtte til dyrlægen og blive syet!<br />

<strong>Longest</strong> interrogative <strong>sentences</strong><br />

Length Sentence<br />

255 Mon Forsvaret forstår, at tilbuddet ikke skal få Kommandoen til at forsøge flere eksempler på at sætte auditør-institutionen i spil overfor<br />

en <strong>dan</strong>sk offentlighed, som med sine analytiske kompetencer i orden, har forstået at <strong>to</strong>lke materialet fra Wikileaks?<br />

255 Forsanger med guitar Ot<strong>to</strong> Carlsen indbyder i samarbejde med smuktsprogs-websitet www.otx<strong>to</strong>.blogspot.com til melodi-GANG-prix på<br />

stranden på Limfjords-øen Egholm lørdag den 21. april, hvor GANG-prix`ets vinder kåres: Hvilken melodi er bedst at gå og synge?<br />

255 Man kan spørge, om ikke der her er tale om samme arbejdsområde, der blot flytter fra et sted til et andet, og om det i det hele taget er<br />

rimeligt, at byrådsmedlemmer også efter 1. januar 2010 skal honoreres for noget, de hidtil har haft som ansvarsområde?<br />

255 Hvis hverken kommunen, de sociale myndigheder eller politiet har kunnet leve op til deres ansvar og pligt til at finde en løsning til at<br />

bekæmpe kriminalitet blandt disse børn, hvad hjælper det så at straffe børnenes forældre og små søskende i stedet for?<br />

255 Det er dog en frygtelig his<strong>to</strong>rie, det er helt utroligt så mange ting der sker for øjeblikket -Så er der svinet i Østrig, så er der bandekrig på<br />

Nørrebro, så er der de mange hjemmerøverier og nu en kvinde der forgiver sine ofre - hvad mon bliver det næste?<br />

255 Som det først gradvist er blevet erkendt, er de amoralske tilstande i denne by ubeskrivelige (…) Er den påfaldende forøgelse af<br />

naturkatastrofer blot en følge af menneskers besmudsning af miljøet eller i højere grad en følge af en åndlig miljøbesmudsning?<br />

255 Og vil den åh, så smukke og idealistiske journalist, Katrine Fønsmark, efter at have opsagt sit job i protest mod nyheds-chefens forræderi<br />

blive den graver-journalist, der til sidst fælder statsminister Nyborg og hendes helt uvirkelige koalitionsregering?<br />

255 Eller at der stadig ingen ud<strong>dan</strong>nelseskrav er til <strong>to</strong>lke, der benyttes af Udlændingeservice eller nævnet, og at der, som bare et eksempel på<br />

en sandsynlig konsekvens af dette, er blevet udgivet misvisende avisartikler med falske oversættelser af udtalelser?<br />

255 Ud over at man kan stille et væsentlig spørgsmålstegn ved, hvorfor de <strong>dan</strong>ske el-forbrugere havde en filantropisk interesse i at medvirke til<br />

at styrke disse nye el-aktieselskabers likvide beholdninger, så<strong>dan</strong> at de kunne begynde en række opkøb af hinanden?<br />

255 Det er Mungo Parks adelsmærke at gå nye dramatiske veje, og hvilket andet <strong>dan</strong>sk teater end ensemblet i Allerød kunne finde på at<br />

dramatisere en fagbog som "Kvinde kend din krop", hvori kvinder siden 1975 har kunnet blive klogere på deres egen seksualitet?


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: <strong>Longest</strong> <strong>sentences</strong> 156<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: <strong>Longest</strong><br />

<strong>sentences</strong><br />

The longest <strong>sentences</strong> by string length<br />

<strong>Longest</strong> declarative <strong>sentences</strong><br />

Length Sentence<br />

255 Taganrog er en rig kulturby med mange museer og kunstgallerier, attraktioner og aktiviteter, blandt dem Tjekhov Dramatisk Teater,<br />

Tjekhovs Hus, Litteraturmuseum, Durov Museum, Kunstmuseum, Lokalhis<strong>to</strong>risk Museum, Arkitek<strong>to</strong>nisk Museum og Alferakis Paladset.<br />

255 Georg Friedrich Bernhard Riemann (17. september, 1826 - 20. juli, 1866) var en tysk matematiker, der udarbejdede flere vigtige bidrag til<br />

analyse og differentialgeometri, af hvilke nogle banede vej for den videre udvikling af den almene relativitetsteori.<br />

255 The Open Door er det andet studiealbum fra det amerikanske rock band Evanescence. det blev udgivet den 25. september 2006 i Polen, 27.<br />

september i Japan, 29. september i Irland, 30. september i Australien og Italien samt den 2. ok<strong>to</strong>ber i resten af Europa.<br />

254 Microsoft Windows er et udbredt styresystem, som er grafisk orienteret med vinduer, der enten viser indholdet af f.eks. tekstdokumenter,<br />

eller et hierarkisk overblik over "mapper" med indhold: derfor også ordet Windows, som er engelsk og betyder vinduer.<br />

254 Mens paradigme tidligere alene blev brugt i videnskabelig sammenhæng, hvor det betegner den helt overordnede ramme for gyldighed af<br />

omverdens-for<strong>to</strong>lkninger, ses udtrykket i dag ofte at blive brugt synonymt med 'verdensanskuelse' eller endog 'synsvinkel'.<br />

254 Evolutionsbiologen Richard Dawkins benytter konceptet med de skrivende aber i sin bog The Blind Watchmaker (Den blinde urmager) fra<br />

1986 til at demonstrere den naturlige selektions evne til at producere biologisk kompleksitet ud af tilfældige mutationer.<br />

254 Da bladets navn let i udlandet kunne mistydes, som om regeringen var den virkelige udgiver, forandredes 1833 atter vignetten til den nu<br />

gældende Den til Forsendelse med de kongelige Brevposter privilegerede Berlingske politiske og Avertissements Tidende.<br />

254 Thorium findes i mange mineraler, hvo det mest almindelige er monazit, som indeholder op til 12% thorium. 232Th henfalder langsomt<br />

(dets halveringstid er ca. tre gange jordens alder) men andre thoriumiso<strong>to</strong>per forekommer i thoriums og urans henfaldskæder.<br />

254 Cerium(IV)oxid anvendes i stigende grad som katalysa<strong>to</strong>r i selvrensende ovne og indenfor olieraffinering, og som tilsætningss<strong>to</strong>f i<br />

glassorter hvor det, sammen med andre ceriumforbindelser, blandt andet regulerer glassets farve og ultraviolette egenskaber.<br />

254 Matthew Paris inkluderede denne passage fra Roger af Wendover i sin egen his<strong>to</strong>rie; og andre armenere kom i 1252 til Abbey of St Albans<br />

og gen<strong>to</strong>g den samme his<strong>to</strong>rie, som der blev betragtet som et s<strong>to</strong>rt bevis på den kristne religion (Matthew Paris, "Chron.<br />

<strong>Longest</strong> exclama<strong>to</strong>ry <strong>sentences</strong><br />

Length Sentence<br />

251 Minor tabte altså sagen, men den fokus på kvindernes rettigheder, som sagen rejse, var en medvirkende årsag, til at man begyndte at<br />

interessere for de valglove, der blev vedtaget i de enkelte stater, og til sidst gav kvinderne deres stemmeret tilbage!<br />

247 Et bevis herpå er de mange breve, der ved forårs-og efterårstider indløber til redaktionen fra alle de små backfische, som beder "Hjemmet"<br />

om at bringe afbildninger af de allernyeste frisyrer for unge damer helst noget "voldsomt fikst og elegant"!<br />

246 Vojens Ishockey Klub er en ishockeyklub i Vojens, som blev grundlagt 5. januar 1963 - da den lokale køleskabsfabrik Gram skulle bruge<br />

en hal for at demonstrere deres apparater for kunderne, kunne man jo lige så godt oprette en klub med det samme!<br />

244 Han kendes muligvis bedst fra rollen som Bimmer i både Wulffmorgenthaler og Dolph & Wulff: Den småperverse levemand, der ikke har<br />

andet end tropelivet og sig selv i tankerne, når han begynder på sin lille vise "Simsalabim, Bimmer han er dejlig!<br />

241 Af den kuriøse slags finder vi fra <strong>dan</strong>sk<strong>to</strong>ppen i 1971, hvor John Mogensen udgav sangen Der er noget galt i Danmark, hvilket fik Erhard<br />

Jakobsen til at udsende et modsvar, sangen Dybbøl Mølle maler stadig - dette svar var også politisk musik!<br />

240 Et betegnende eksempel på denne skræk anfører en forfatter fra omkring 1700, idet han fortæller om en bondekone, der, da hendes pige før<br />

Hellig tre konger ville røre ved rokken, fór til og sagde: "For Guds hellige Døds skyld, spind ikke nu!<br />

238 Han havde jo trods alt reddet præsidentens liv og i modsætning til John Ross fik Junaluska faktisk bevilget en audiens, men da han havde<br />

fremført sine (og stammens) ønsker meddelte Jackson ham efter sigende: ”Sir, Your audience has ended!


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: <strong>Longest</strong> <strong>sentences</strong> 157<br />

237 Det burde ikke kunne gå galt, men en enkelt skrue, der ikke var skriet fast, blokerede for, at Schumacher kunne drje sin bil, så i barcelonas<br />

første sving, røg WM-favoritten lige ind i væggen med over 200km/t - drømmene var knuste, igen!<br />

236 Lige fra åbningsdagen og frem til nedlæggelsen s<strong>to</strong>d der, hvor sporene sluttede mod vest på Slangerup Station, et indkørselssignal for <strong>to</strong>g<br />

fra vest mod København – altså <strong>to</strong>g fra Frederikssund, Frederiksværk eller Hundested til København!<br />

232 Rammes piloten af denne illusion, vil han/hun styre lidt mere nedad i den tro at flyet er på vej op i den orangegule zone over den ideelle<br />

vinkel, selv om det i virkeligheden ligger i underkanten af det tilsigtede område i forvejen!<br />

<strong>Longest</strong> interrogative <strong>sentences</strong><br />

Length Sentence<br />

245 Disse teknologier er spillets primære udviklingkilde, og generel genstand for videnskapløb mellem civilizationerne, hvem opfinder f.eks.<br />

først Religion og bliver i stand til at bygge vigtige "vidundere", (Wonders of the World - se næste afsnit)?<br />

233 Trillian og Zaphod tager derefter til det sted hvor universets hersker skulle være: et lille faldefærdigt skur med en kat og en mand som ikke<br />

tager noget for givet - hvem ved om alt det uden for huset findes, når man ikke kan se det?<br />

230 Af samme grund er fundet af ældre tømmerkonstruktioner altid spændende: får man derved føjet en manglende årringsserie til det<br />

his<strong>to</strong>riske forløb, eller giver fundet mulighed for at strække kronologien endnu nogle år bagud i tiden?<br />

229 Hvis man kan forestille sig at et levende væsen kan blive til en sten eller en træstub ved lysets ankomst, hvorfor så ikke også gå den anden<br />

vej og sige, at de første mennesker oprindelig var et par opskyllede stykker drivtømmer?<br />

227 Hans teori bygger på følgende: Når et lille barn allerede i en alder af <strong>to</strong> til tre år kan lære noget så kompliceret som sprog, hvorfor skulle<br />

det så ikke også med daglige gentagelser kunne lære et spille på et strygeinstrument?<br />

226 Så efter nogle øvelser i Atlanterhavet stævner u-båden ind i Middelhavet og angriber den israelske flåde og udraderer den, hvorefter<br />

dilemmaet opstår: Er der tale om terrorisme, når det er en regulær krigsmaskine der opererer?<br />

224 En personlig beretning om, hvad der skete for Maria Marcus efter Den frygtelige sandhed, der kom til at fungere som en slags<br />

kontaktannonce: Hvad skete der med seksualiteten, da hun begyndte at realisere sine egne fantasier?<br />

216 Topmødet skulle bringe en løsning på stridsspørgsmålet som truede med at splitte kirken; skulle nye kristne fra den ikke-jødiske verden<br />

lade sig omskære og overholde de jødiske leveregler for at være rigtige kristne?<br />

216 Der er delte meninger om hvor bredt man skal definere spin: er spin al strategisk kommunikation, eller er det udelukkende den del af<br />

kommunikationen der går ud på at få en selv, eller ens budskab til at se pænere ud?<br />

215 Måske har også eftertidens helt naturlige og rimelige fordømmelse af den fascistiske epoke også spille ind, når man i efterkrigstiden skulle<br />

vurdere nogle af de blivende og bestandige materielle følger af fascismen?


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: <strong>Longest</strong> <strong>sentences</strong> 158<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: <strong>Longest</strong><br />

<strong>sentences</strong><br />

The longest <strong>sentences</strong> by string length<br />

<strong>Longest</strong> declarative <strong>sentences</strong><br />

Length Sentence<br />

255 Vurdering af Halls politik Carl Christian Hall i 1860'erne I tidsrummet 1857-63 bar Hall altså på de afgørende områder både det formelle<br />

og det moralske ansvar for ledelsen af den <strong>dan</strong>ske politik, og denne ledelse er jo blevet overordentlig strengt bedømt.<br />

255 Ved fra- og tilkørslen til Bilka på den relativt smalle, <strong>to</strong>sporede hovedvej Århus-Viborg-landevej ( primærrute 26 ) ops<strong>to</strong>d der snart<br />

kaotiske tilstande, og det blev omgående nødvendigt at lysregulere krydset mellem Viborgvej, Tilst Skolevej og Anelystvej.<br />

255 Denne hypotese forudsætter imidlertid, at opdelingen mellem asernes og vanernes slægter i den nordiske my<strong>to</strong>logi er resultatet af en<br />

sammensmeltning mellem <strong>to</strong> forskellige my<strong>to</strong>logier i forhis<strong>to</strong>risk tid, det er der dog langt fra enighed indenfor forskningen.<br />

255 Den gennem rostjenesten opståede adel blev nu et glimrende ridderskab, der ikke alene fors<strong>to</strong>d at bruge sværdet, men var i besiddelse af<br />

tidens fineste <strong>dan</strong>nelse og gennem Minnesangen har sat sit stempel på en ejendommelig side af tysk middelalderlig poesi.<br />

255 Roosevelt var fast besluttet på at overvinde de konservative Demokraters modstand i Kongressen (fortrinsvis fra sydstaterne) og del<strong>to</strong>g<br />

selv i de demokratiske primærvalg i 1938 til fordel for kandidater som i højere grad gik ind for hans New Deal reformer.<br />

255 En simpel 3-faset genera<strong>to</strong>r kan opbygges som vist her: : Det ses at de tre spoler er placeret med samme vinkelafstand (120°) omkring den<br />

roterende magnet, og det bemærkes at den ene ledning fra hver spole er sluttet sammen til én fælles ledning (lyseblå).<br />

255 Retten til undergrunden tilhører rigsfællesskabet og spørgsmålet er særlig relevant i forbindelse med udvinding af rås<strong>to</strong>ffer (olie, gas,<br />

mineraler, m.v.). Der er indgået en aftale om at et eventuelt overskud fra udvinding deles mellem Danmark og Grønland.<br />

255 Traditionelt blev de monumentale runesten brugt demonstrerende og fastholdende, men i sidste halvdel af vikingetiden fik de også en<br />

kommunikativ funktion, fx i forbindelse med arvesager, hvor en sten rejses med information om slægtskabsforhold og ejendom.<br />

255 Bogen Kommer Jammerbugt Bibliotekerne kan som en del af sin virksomhed tilbyde en Biblioteket Kommer-service, som indebærer, at<br />

ældre og handicappede lånere, som ikke selv kan komme på biblioteket, kan få bragt bøger og andre materialer hjem til sig selv.<br />

255 Den kom til udtryk gennem samarbejdet med bl.a. Gerry Mulligan på de indspilninger, der senere blev udgivet samlet som " Birth of the<br />

Cool " (1949-50), og med Gil Evans f.eks. på "Miles Ahead"(1957), "Porgy and Bess"(1958) og "Sketches of Spain"(1959-60).<br />

<strong>Longest</strong> exclama<strong>to</strong>ry <strong>sentences</strong><br />

Length Sentence<br />

255 Med udsolgt til s<strong>to</strong>rt set alle kampe slap man for første gang for det triste syn af næsten <strong>to</strong>mme haller til mindre betydende kampe –<br />

eksempelvis var der 7.500 tilskuere til gruppekampen mellem Grønland og Australien i placeringsrunden om 19. - 24.pladsen!<br />

255 På vej ud af sit studie møder han for første gang Bebe Glasier, der med sine djævelske tricks får overtalt Frasier til at læse reklamer op.<br />

Det hele går som det skal, lige indtil han bliver bedt om at anbefale noget han går imod, da de er usunde - nødder!<br />

254 Dette er i militær henseende ensbetydende med en høj, strategisk værdi kræver derfor et stærkt meget forsvar, idet et militært <strong>to</strong>mrum på et<br />

så<strong>dan</strong>t sted altid vil udfyldes, og hvis landet selv ikke kan eller vil sørge herfor, vil det blive gjort af andre!<br />

254 Advarslen imod at drive entydig propaganda og undertrykke meningsforskelle var langt senere - den 19. februar 2009 - hovedemnet for<br />

den tjekkiske præsident, Václav Klaus tale til EU-parlamentet - hvorefter s<strong>to</strong>re dele af parlamentets medlemmer udvandrede!<br />

252 Han gør en overordentlig indsats for sine lektier, og holder sig ikke fra at kæle for detaljerne, og det kan ses, for i et afsnit får vi faktisk at<br />

vide at han har en IQ på 216. Når han skal præsentere hans hjemmearbejde, citeres han ofte for: "Behold!<br />

251 Minor tabte altså sagen, men den fokus på kvindernes rettigheder, som sagen rejse, var en medvirkende årsag, til at man begyndte at<br />

interessere for de valglove, der blev vedtaget i de enkelte stater, og til sidst gav kvinderne deres stemmeret tilbage!<br />

251 Et bevis herpå er de mange breve, der ved forårs-og efterårstider indløber til redaktionen fra alle de små backfische, som beder " Hjemmet<br />

" om at bringe afbildninger af de allernyeste frisurer for unge damer - helst noget "voldsomt fikst og elegant"!


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: <strong>Longest</strong> <strong>sentences</strong> 159<br />

249 På månen er den lokale tyngdeacceleration ca. 1,6 m/s², eller omkring 1/6 af jordens, og på meget små himmellegemer som fx småplaneter<br />

er den lokale tyngdeacceleration så lille, at en astronaut kan være i fare for at svæve bort, hvis han gør et hop!<br />

248 Kort efter går han endnu videre: Selv om man definerer, ville de mange kuns<strong>to</strong>rd dog let kunne forvirre og gøre tænkningen usikker; jo<br />

mere de kunne undgås, og jo nærmere man kan holde sig til det sædvanlige, naturlige sprog, des<strong>to</strong> sikrere og bedre!<br />

247 Han afslører da den fjerde brik, lægger den frem på bordet til de andre tre, og tager sin ekstrabrik. 2. Hvis en spiller sidder med tre ens<br />

(men uafslørede) brikker på hånden, og en anden spiller afsmider den fjerde brik, kan spilleren råbe "Kong!<br />

<strong>Longest</strong> interrogative <strong>sentences</strong><br />

Length Sentence<br />

253 Som udgangspunkt for handlingen stillede han spørgsmålet: "Givet dette menneske, stedet, hvor han opholder sig, hvor han bor, det klima,<br />

han befinder sig i, hans stilling, hans familie etc. – hvad kan der ske med ham, der tvinger ham til at gå linen ud?<br />

247 Alexi Laiho udtalte allerede inden udgivelsen af Blooddrunk, at han følte sig meget aggressiv under sangskrivningen, og at numrene<br />

derfor ville blive hurtigere og mere thrash metal-agtige end sangene på bandets forrige udgivelse, Are You Dead Yet?<br />

244 Nevil Maskelyne spurgte ham, hvad der lå til grund for den opfattelse, og Herschel svarede i et brev: "Hvem kan sige, at det ikke er højst<br />

sandsynligt, nej, faktisk hævet over tvivl, at der må findes indbyggere på Månen af en eller anden slags?<br />

244 Den vigtigste sag, han fik fremmet under sit ophold i Lübeck, var udgivelsen af en ny katekismus, hvis ukirkelige, eudæmonistiske prægn<br />

straks falder i øjnene ved dens første spørgsmål: "Ønske vi Mennesker ikke altid at være fornøjede og glade?<br />

242 Forfatteren var Steenstrup, og han fandt tydeligvis afvisningen af Huitfeldts tabte kilder for bastant, den syntes ham "lidt for vidtgaaende"<br />

og fik ham til at spørge, om "ikke Erslev tildeler den nyere Kildekritik alt for s<strong>to</strong>re Fortjenester?<br />

241 Solveig Schult Ulriksen: "Fransk språk i unionstider", Gobelin Europa (s. 90 og 94) Fransk som klarhedens sprog Videnskabsakademiet i<br />

Berlin udskrev i 1783 en præmiekonkurrence med spørgsmålet: "Hvad gør fransk til Europas universelle sprog?<br />

241 Dertil benytter Joey ofte følgende scoretrick til hyppigt at få damer på slæb: Først et såkaldt eleva<strong>to</strong>rblik (Hvor man betragter kvinden<br />

først oppe og siden nede, som en eleva<strong>to</strong>r går op og ned) efterfulgt af scorereplikken "Hey, how u doin'?<br />

239 “ * New Catholic Encyclopedia: „Der er kun få lærere som underviser i treenighedsteologien på romersk-ka<strong>to</strong>lske præsteseminarier der<br />

ikke på et eller andet tidspunkt er blevet plaget med spørgsmålet: ’Men hvor<strong>dan</strong> forkynder man treenigheden?<br />

239 Senere på aftenen sagde han; "Ville det ikke være vidunderligt hvis folket i Frankrig gav USA et s<strong>to</strong>rt monument, som et mindesmærke for<br />

uafhængighed og derved viste, at den franske regering også tilsluttede sig ideen om menneskelig frihed?<br />

239 " Johannes Møllehave: Replikker og pointer (s. 113-14), forlaget Lindhardt og Ringhof, 1984, ISBN 87-7560-679-8 Imod dødsstraf Efter<br />

anden verdenskrig gik Koch imod henrettelserne ved retsopgøret i en artikel, han kaldte Plager Fanden jer?


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: <strong>Longest</strong> <strong>sentences</strong> 160<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: <strong>Longest</strong> <strong>sentences</strong><br />

The longest <strong>sentences</strong> by string length<br />

<strong>Longest</strong> declarative <strong>sentences</strong><br />

Length Sentence<br />

255 Indenfor Radio produktion, CD Mastering og lyd restaurering, lyd effekt design til spil udviklere, DVD lydspor forberedelse, eller<br />

integreret med et non-linear video redigerings system til optagelse eller editering af nye speaks, musik og lyd effekt spor.<br />

255 Efter det videnskabelige 19. århundredes oprettelse af discipliner som antropologien (Morgan), lingvistikken (Rask, Humboldt),<br />

psykologien (Fechner), biologien (Darwin) osv. tager det humanistiske 20. århundrede sig egentlig ikke imponerende ud.<br />

255 Klovneshow: Klovnen Aha vil trylle for publikum og hans show som bliver hele tiden afbrudt af Sofie som vil spille harpe eller omvendt<br />

at Sofie vil spille for publikum med sin harpe men bliver hele tiden afbrudt af Klovnen Aha som vil lave sit trylleshow.<br />

255 Samtidig vil en så<strong>dan</strong> indretning af et mediefag i høj grad tale til elevernes nuværende hverdag og virkelighed og med den praktisk<br />

kommunikative dimension skabe en forbindelse mellem kreativ viden og teoretisk, analytisk og his<strong>to</strong>risk viden.<br />

255 Startline R 33 kbit/s 596 kroner M Powerline 56 kbit/s 716 kroner M Speedline R 64 kbit/s 956 kroner H Turboline T1 512 kbit/s 1.840<br />

kroner H Turboline V1 128 kbit/s 1.996 kroner H Turboline E 256 kbit/s 6.000 kroner K M: modem er ikke medregnet i prisen.<br />

255 Det kunne også være hensigtsmæssigt at styrke muligheden for at tilknytte forfattere til universitetsud<strong>dan</strong>nelserne som adjungerede<br />

professorer og gæsteforelæsere og at sikre et samarbejde mellem universiteterne og Forfatterskolen.<br />

255 Der er her et behov for en holdningsbearbejdning eller for at udbrede kendskabet til synshandicappedes muligheder, for det viser sig ofte,<br />

at der med et minimum af hensyntagen og tilretning kan etableres en erhvervspraktik, som eleven kan have udbytte af.<br />

255 Det maa paa det kraftigeste anbefales, at man besidder et vist niveau spansk.Det kan lade sig goere at starte fra bunden, men det kraever<br />

mange penge til gode sprogskoler og man kan ikke forvendte at forstaa ret meget af undevisningen de foerste maaneder.<br />

255 Projektet Transport i det kompetente og innovative Danmark er et bud på, hvor<strong>dan</strong> godstransportens stadigt vigtigere rolle som<br />

rammebetingelse for erhvervsudvikling bør afspejles i planlægningen på lokalt, regionalt og nationalt niveau.<br />

255 Stationen tilbyder desuden: vejledning til andre grupper af borgere, f.eks. unge mellem 16 og 19 (ungdomsvejledning), sygemeldte som<br />

ikke umiddelbart har udsigt til at vende tilbage til arbejde, og handicappede med problemer i forhold til arbejdsmarkedet.<br />

<strong>Longest</strong> exclama<strong>to</strong>ry <strong>sentences</strong><br />

Length Sentence<br />

254 B-VM i Ungarn Dansk Ishockey Supporter Union arrangerer i samarbejde med FAKKENOR BUSSER og UNGARN EKSPERTEN tur til<br />

B-VM i Ungarn, hvor Det Danske Ishockeylandshold deltager i B-gruppen om at kvalificere sig til A-gruppen fra den 13. til 21. april<br />

2002!<br />

254 Personligt har jeg tidligere set en ZIP kodegenera<strong>to</strong>r foruden adskillige RAR genera<strong>to</strong>rer, og har faktisk ikke tiltro til, at nogen af<br />

markedets pakkeprogrammer med envelope er 100% sikre mod hackning og/eller duplikering af av-koderne for denne funktion!<br />

253 Der herskede en fantastisk stemning, alle var enige om, at lejren havde været en succes, og specielt de udenlandske deltagere, hvor flere<br />

havde rejst over 900 kilometer for at deltage, var tydeligvis imponerede over kvaliteten af <strong>dan</strong>sk Kyokushin-karate!<br />

253 Tag skridtet, City Fitness har det hele; Personlig kostvejledning + Professionel vejledning + Personlig Træningsprogram samt alt i<br />

kosttilskud, vitaminer, mineraler, protein shakes plus meget mere, alt i alt kan det ikke gå galt, tag skridtet kig forbi!<br />

253 Men ja, ikke des<strong>to</strong> mindre: Jeg ville bare lige sige alle Jer DKG-ski'ere rigtig rigtig mange gange tak for den sidste uges tid i den hvideste<br />

sne og den sorteste "humor" - jeg har virkelig nydt det - selv om søvnunderskuddet efterhånden hober sig op...!<br />

253 Dystre molakkorder i harmonikaen, og ovenover græder klarinetten i lange fortvivlede improvisa tioner, en splintret forrevet klang, et tæt<br />

vibrerende forsiringsspil med alle karakteristika for sorg og fortvivlelse bygget ind i musikken....Og det virker!<br />

253 Konkurrencen med at skrive det sødeste fanbrev til en af bandets medlemmer er slut: Jeg har modtaget 59 fanbreve, -rigtig mange, meget<br />

meget søde opmuntringer og tilkendegivelser til bandet og backstagefolkene, om hvor godt et stykke arbejde de leverer!


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: <strong>Longest</strong> <strong>sentences</strong> 161<br />

253 Det sker altså på internettet den 9. marts fra kl. 18.00: www.vapensieroday.itFor yderligere information: Segretaria VapensieroDay, Strada<br />

Repubblica 45, Parma(tlf. 0521-508062; e-mail: info@vapensieroday.it)***Saba<strong>to</strong> 9 marzo 2002 riparte VapensieroDay!<br />

253 I dag har klubben ca. 50 medlemmer fra ca. 15-85 år, og en medlemsskare i styrke fra 1000 i rating (1000 er begynder) op til international<br />

mester Lars Borbjerggaard med ca. 2400 i rating (verdensmesteren Kasparov har ca. 2800), så vi har plads til alle!<br />

252 Pen's kylling med basilikum eller cashewnødder er ganske enkelt genial - hendes sur-søde sovse er milde og hendes karry med kylling i<br />

kokosmælk er noget helt for sig selv - for ikke at tale om den helt vidunderlig kage med bananer og eksotiske frugter!<br />

<strong>Longest</strong> interrogative <strong>sentences</strong><br />

Length Sentence<br />

253 Hvad er konsekvenserne af overgangen fra et samfund, der har brug for hver eneste voksen som en produktiv arbejdsressource, til et<br />

samfund, der sagtens kan producere alt hvad der behøves og mere til uden deltagelse af en betydelig del af sine medlemmer?<br />

253 Mon COPY-DAN vil begynde at sende penge til Bill Gates & Co? Og hvor forsvindende lille en procentdel bliver egentlig brugt til disse<br />

formål i forhold til hvor mange, der helt lovligt bliver brugt til at backe up, sende filer, opbevare billeder osv. på?<br />

253 Et saa<strong>dan</strong>t Foretagende vilde jo vistnok ovenpaa Casinos sidste Fænomen vidne om nogen Inconsekvens, men da det siden 1848 mere og<br />

mere er blevet Mode blandt vore s<strong>to</strong>re Politikere at "slaa om", hvorfor skulde saa vore Digtere ikke have Lov til det Samme?<br />

253 Efter realiseringen af projekterne har der været en del polemik, hvor formanden for Dansk Cyklist Forbund blandt andet har skrevet<br />

direkte til Miljøminister Svend Auken og klaget over de seks projekter under parolen "Er det brostenslobbyen, der regerer?<br />

253 Jeg vil slutte, med ønsket om at Guds fred og gode gaver må komme oven ned.Til gavn for mig selv og mine omgivelser tager dette brev<br />

sin ende, jeg bliver virkelig selvcentreret af det, gad vide, hvor<strong>dan</strong> man er, efter at have skrevet en hel selvbiografi?<br />

253 Ham, der laver en s<strong>to</strong>r afhandling hvert tredje år, som bliver kendt og refereret over den ganske verden, laver han mere eller mindre<br />

forskning end den, som publicerer et papir hver 14. dag, og som s<strong>to</strong>rt set aldrig bliver refereret af andre end ham selv?<br />

253 Jeg elsker Jacques som mit barn; jeg har modtaget tjenester fra ham, som jeg aldrig vil glemme; men hvis jeg har gjort mig en smule fri<br />

over for ham, er det ved at forhindre ham i at gøre denne skønne letsindighed. - Hvor<strong>dan</strong> har De forhindret ham i det?<br />

252 VEJLEFJORDsystemet er udviklet ud fra filosofien: Hvor<strong>dan</strong> kan vi reducere det mylder af overflødigheder skærmen er fyldt med og<br />

dermed minimere den kognitive forvirring, der ofte får den hjerneskadede person til at afholde sig fra at bruge internettet?<br />

252 Vil vi et decentraliseret, interaktivt demokrati, der udfolder sig i en verden af åbne kulturer, hvor der fortælles his<strong>to</strong>rier, leveres<br />

undeholdning og cybersnilde frit over grænserne og mange af ens daglige bekendtskaber kommer fra helt andre kulturer?<br />

252 Eventuelt opdelt på land-, vand- og byomkostninger for de enkelte emissionskomponenter, jf. problemerne med hvilket transportalternativ<br />

til Finland, der er det miljømæssigt bedste, det med mindst CO2-emission eller det med mindst NOx, SO2 og partikler?


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: <strong>Longest</strong> <strong>sentences</strong> 162<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: <strong>Longest</strong> <strong>sentences</strong><br />

The longest <strong>sentences</strong> by string length<br />

<strong>Longest</strong> declarative <strong>sentences</strong><br />

Length Sentence<br />

255 Det skriver pressen om miXte " At et ensemble kan lyde så godt og homogent må der være en forklaring på … musikerne har bevidst valgt<br />

ikke at homogenisere ensembleklangen, men har tværtimod bibeholdt hver deres klanglige særpræg og stemme på instrumentet.<br />

255 Humor er således virksom i sociale inklusions- og eksklusionsprocesser: ’Practical jokes’ bruges til at ’teste’ gruppens medlemmer, og vi<br />

kender alle eksempler på, at humor bruges til stereotypifisering: Indvandrer-jokes, Århus-his<strong>to</strong>rier, blondinevitser..<br />

255 Fire forskellige typer giver en s<strong>to</strong>r frihed til at vælge den rigtige fancoil til den specifikke opgaver – om den skal monteres usynlig over<br />

loft, usynlig bag væg, synlig i loft eller synlig på væg, så kan man altid finde den rette fancoil i vores program.<br />

255 Og selv om Reesen og Mogens Dams operette forholder sig frit og fiktivt til den virkelige Carlo Broschi – kastratsangeren med<br />

kunstnernavnet Farinelli – aner man i Jakob Næslund Madsens for<strong>to</strong>lkning en figur, der ikke rigtig giver sig til kende som person.<br />

255 Hvalpene bliver født og vokser op under familiære forhold og har derfor været udsat for både tv-støj, støvsuger, gæster, børn, og andre<br />

hunde (vores egne) De er vænnet til, at blive stillet på et bord, få efterset tænder og ører, samt at få klippet negle.<br />

255 Til skulpturer i naturen bestræber jeg mig på, hvor det er muligt, at bruge naturvenlige produkter, miljøtilpasset benzin, bionedbrydelig<br />

kædesavsolie, ren rå linolie, etc. Skulpturerne skal ikke være en forurening af stedet, heller ikke materialemæssigt.<br />

255 Gårdvagten bruger sin sunde fornuft og s<strong>to</strong>pper uhensigtsmæssig adfærd med sne (kaste mod ruder osv.) POPøst, gamle bibliotek og<br />

Palægården De enkelte team (0 - 3) laver deres egne regler P.g.a. det nye legestativ må der ikke mere kastes med sne i området.<br />

255 Dette er en hjælp til alle nye spillere til at lede dem forbi de sider, det er vigtigt at læse før det første scenarie. 1.Læs om spillets koncept<br />

2.Læs om verdenen og om spillets regler 3.Tilmeld en karakter 4.Sørg for at have et kostume til din karakter.<br />

255 Alle - eller næsten alle, mener at vi skal have nogle 35" i stedet, men inden vi investerer i så<strong>dan</strong>ne størrelser, vil vi godt have mulighed for<br />

at prøve et så<strong>dan</strong>t sæt her til det førstkommende Eastcoast Challenge, for ligesom at se hvor<strong>dan</strong> de opfører sig.<br />

255 Børnene kan bruge lommepengene til køb af is, lidt legetøj, CD'er og lign. Hvis børnene har sparet et større beløb op, kan der aftales køb<br />

af TV, computer eller lign. Lommepengene skal bruges til køb af ting, som børnene kan have glæde af i deres hverdag.<br />

<strong>Longest</strong> exclama<strong>to</strong>ry <strong>sentences</strong><br />

Length Sentence<br />

255 Begrundelsen for udpegningen af Tim Pedersen til Årets Tawøl’er 2008 er, at Tim siden laugets start har været en engageret laugsbroder,<br />

der gennem sin altid positive indstilling er med til styrke et godt og muntert socialt samvær mellem laugets medlemmer!<br />

255 Godbidder Fakturabetaling Tilbud Nyheder Information Så<strong>dan</strong> handler du Forsendelse & Retur Betingelser & Vilkår Fortrolighed Kontakt<br />

os Nyhedsbrev Topsælgere Apportering til jagtbrug - Taastrup Fortsætterhold - UDSOLGT Hverdagslydighed og tricks - UDSOLGT!<br />

255 Det er ikke noget problem Modtag nyheder på e-mail hver dag Basim besejrede børn og unge i Trige Derfor vil vi skilles i januar VIDEO:<br />

Basim besejrede Bakkegårdsskolen Godt gemte guldklumper fejrer fødselsdag Spareplan: En menneskelig og økonomisk brøler!<br />

255 Læs mere på www.aalf.info Modtag nyheder på e-mail hver dag Basim besejrede børn og unge i Trige Derfor vil vi skilles i januar<br />

VIDEO: Basim besejrede Bakkegårdsskolen Godt gemte guldklumper fejrer fødselsdag Spareplan: En menneskelig og økonomisk brøler!<br />

255 Skidt start for Kystbanen Modtag nyheder på e-mail hver dag Basim besejrede børn og unge i Trige Derfor vil vi skilles i januar VIDEO:<br />

Basim besejrede Bakkegårdsskolen Godt gemte guldklumper fejrer fødselsdag Spareplan: En menneskelig og økonomisk brøler!<br />

255 Bussen og chaufføren prustede lige meget, og vi bevægede os i en fart, selv et muldyr ville kunne have overgået, og fra tid til anden<br />

tvivlede vi på, om bussen overhovedet ville klare turen til Vagliagli (landsbyen uden for hvilken Dievole er beliggende)!<br />

255 Elendigt jobkursus hos JK-Proces i Fredericia @ Dagpengesats Inger Støjberg bånd Adolf Hitler Bank bailouts Forklart Gratis<br />

prøveversion member Miljø u23 Demonstration mod dagpengereform i København d.08.06.2010 Pia Kjærsgård & Adolf Hitler tager en<br />

<strong>dan</strong>s!


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: <strong>Longest</strong> <strong>sentences</strong> 163<br />

255 Selvfølgelig er nogle af folkene her stadig meget traumatiserede, men det er heldigvis ved at vende sig til det bedre, og så er det jo kun<br />

godt, at nye folk som dig begynder at komme til byen igen, så vi kan få noget frisk, ny, positiv energi til Glasgow!<br />

255 Huskøbere har hidtil set huset med følelser på baggrund af fremlagt salgsmateriale: (salgsopstilling, internet-video, mægler-rapporter etc.)<br />

Med teknisk gennemgang tilsigtes, at køber lærer huset at kende, som det fremstår, når den grå hverdag melder sig!<br />

255 Action: Bungyjump i regnskoven, faldskærmsudspring over Great Barrier Reef, og fester hele vejen op af Østkysten, krydret med <strong>to</strong>nsvis<br />

af slanger, edderkopper, krokodiller, gopler og hajer gør alt sammen Australien til et ret spændende sted at opholde sig!<br />

<strong>Longest</strong> interrogative <strong>sentences</strong><br />

Length Sentence<br />

255 Har du allerede på nuværende tidspunkt flirtet med tanken om på et tidspunkt i en nærmere fremtid at blive leder, men samtidig er du<br />

usikker på, hvad lederjobbet indeholder, hvad kræves der, og er det overhovedet noget for dig, når det kommer til stykket?<br />

255 Det er fuldstændigt indarbejdet at man lige checker efter: Er den bluse jeg overvejer at købe fremstillet på en moralsk forsvarlig måde,<br />

hvad kan jeg finde om den jobansøger vi overvejer at ansætte - eller den potentielle partner, jeg skal ud med i aften?<br />

255 Håber jeg får nogen tilbagemeldinger - blev nysgerrig og lidt provokeret herinde ;) Muttis Füße - skrevet af Polly i Grønne Børn Måske et<br />

lidt off<strong>to</strong>pic spørgsmål, men jeg tror mine fødder er blvet større efter jeg har fået børn, nogen der har oplevet det?<br />

255 Jeg skal afholde mig at diskutere sandhedsværdien i påstanden og i stedet bruge den som springbræt til et af mine yndlingstemaer:<br />

Hvor<strong>dan</strong> skal vores børn og unge opdrages og (ud)<strong>dan</strong>nes til at klare sig i et hyperkomplekst samfund i en globaliseret verden?<br />

255 Foruden en <strong>dan</strong>sk uropførelse skulle man præsenteres for en nærmest ukendt musik af ellers kendte komponister - thi har man nogensinde<br />

herhjemme opført Paul Hindemiths koncert for orgel og kammerorkester eller Dvoráks Serenade for blæsere og dybe strygere?<br />

255 Der var problemet med at tale hen over hovedet på gæsterne, og når den ene gæst har bestilt aftenens seksretters-menu og den anden fra<br />

kortet, er det slet ikke god stil at komme svansende med tallerknerne og deklamere: Hvem var det, der skulle have rejer?<br />

255 Er videndeling bare et af de ord, der sammen med for eksempel "kompetenceudvikling", "værdibaseret ledelse", "forretningsstrategi" mv.,<br />

får nogle mennesker til at synes, at når man har brugt ordet tilstrækkeligt mange gange, så er indholdet godt og klogt?<br />

255 Mangler du at give dig selv og dine softwareudviklere et løft indenfor software arkitektur, design patterns, frameworks,<br />

responsibility-driven design, objekt-orienteret design, systematisk test, eXtreme Programming og/eller test-dreven software udvikling?<br />

255 Rapporten "Udsatte grønlændere i Århus" Grønlænderprojektet under Center Basen i Socialforvaltningen i Århus Kommune har i perioden<br />

marts 2005 til marts 2008 haft som mål at udrede de socialt udsatte grønlænderes forhold i Århus Kommune: Hvor mange er de?<br />

255 1. Medvirk i film, tv, musicals, modeshows mm. 2. Bliv kontaktet af instruktører og producenter 3. Få direkte besked om nye castings 4.<br />

Få en professionel præsentationsside Har du drømmen og talenterne til at blive model, skuespiller, sanger eller <strong>dan</strong>ser?


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: <strong>Longest</strong> <strong>sentences</strong> 164<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: <strong>Longest</strong> <strong>sentences</strong><br />

The longest <strong>sentences</strong> by string length<br />

<strong>Longest</strong> declarative <strong>sentences</strong><br />

Length Sentence<br />

277 Fogh og Kjærsgaard Fo<strong>to</strong>: Bjarke Ørsted Mens Villy Søvndals triumf<strong>to</strong>g er løbet ind i problemer, er strateger i oppositionen begyndt at<br />

frygte, at Socialdemokraterne, SF og de Radikale styrer mod et nyt nederlag over for den stærke VKO-alliance med Anders Fogh<br />

Rasmussen i front.<br />

276 (18.02.08) Manden vi hader at elske (16.02.08) Kilder med kendskab til straffesagens forløb oplyser, at landsretten arbejder på at skære<br />

mindst en måned og måske halvanden ud af kalenderen, så Klaus Riskær Pedersens ankesag i givet fald kan afsluttes seks uger før<br />

planlagt.<br />

255 Det skriver pressen om miXte " At et ensemble kan lyde så godt og homogent må der være en forklaring på … musikerne har bevidst valgt<br />

ikke at homogenisere ensembleklangen, men har tværtimod bibeholdt hver deres klanglige særpræg og stemme på instrumentet.<br />

255 Humor er således virksom i sociale inklusions- og eksklusionsprocesser: ’Practical jokes’ bruges til at ’teste’ gruppens medlemmer, og vi<br />

kender alle eksempler på, at humor bruges til stereotypifisering: Indvandrer-jokes, Århus-his<strong>to</strong>rier, blondinevitser..<br />

255 Fire forskellige typer giver en s<strong>to</strong>r frihed til at vælge den rigtige fancoil til den specifikke opgaver – om den skal monteres usynlig over<br />

loft, usynlig bag væg, synlig i loft eller synlig på væg, så kan man altid finde den rette fancoil i vores program.<br />

255 Og selv om Reesen og Mogens Dams operette forholder sig frit og fiktivt til den virkelige Carlo Broschi – kastratsangeren med<br />

kunstnernavnet Farinelli – aner man i Jakob Næslund Madsens for<strong>to</strong>lkning en figur, der ikke rigtig giver sig til kende som person.<br />

255 Hvalpene bliver født og vokser op under familiære forhold og har derfor været udsat for både tv-støj, støvsuger, gæster, børn, og andre<br />

hunde (vores egne) De er vænnet til, at blive stillet på et bord, få efterset tænder og ører, samt at få klippet negle.<br />

255 Mange ledere snakker desuden om, at de nu når ned på folkeskolens minimumskrav til timer, og at de må støvsuge kon<strong>to</strong>en for<br />

dobbelttimer, som man især bruger i de mindste klasser, siger formanden for skolelederne, Thorkil Andersen, til Århus Stiftstidende.<br />

255 En meningsmåling, som Epinion har lavet for P4 København og TV2 Lorry i forbindelse med vores tema For Døve Øren viser, at kun tre<br />

procent af de borgere, der har forsøgt at påvirke beslutningsprocessen i deres egen kommune, har gjort det i et høringssvar.<br />

255 Til skulpturer i naturen bestræber jeg mig på, hvor det er muligt, at bruge naturvenlige produkter, miljøtilpasset benzin, bionedbrydelig<br />

kædesavsolie, ren rå linolie, etc. Skulpturerne skal ikke være en forurening af stedet, heller ikke materialemæssigt.<br />

<strong>Longest</strong> exclama<strong>to</strong>ry <strong>sentences</strong><br />

Length Sentence<br />

255 Begrundelsen for udpegningen af Tim Pedersen til Årets Tawøl’er 2008 er, at Tim siden laugets start har været en engageret laugsbroder,<br />

der gennem sin altid positive indstilling er med til styrke et godt og muntert socialt samvær mellem laugets medlemmer!<br />

255 Godbidder Fakturabetaling Tilbud Nyheder Information Så<strong>dan</strong> handler du Forsendelse & Retur Betingelser & Vilkår Fortrolighed Kontakt<br />

os Nyhedsbrev Topsælgere Apportering til jagtbrug - Taastrup Fortsætterhold - UDSOLGT Hverdagslydighed og tricks - UDSOLGT!<br />

255 Det er ikke noget problem Modtag nyheder på e-mail hver dag Basim besejrede børn og unge i Trige Derfor vil vi skilles i januar VIDEO:<br />

Basim besejrede Bakkegårdsskolen Godt gemte guldklumper fejrer fødselsdag Spareplan: En menneskelig og økonomisk brøler!<br />

255 Læs mere på www.aalf.info Modtag nyheder på e-mail hver dag Basim besejrede børn og unge i Trige Derfor vil vi skilles i januar<br />

VIDEO: Basim besejrede Bakkegårdsskolen Godt gemte guldklumper fejrer fødselsdag Spareplan: En menneskelig og økonomisk brøler!<br />

255 Skidt start for Kystbanen Modtag nyheder på e-mail hver dag Basim besejrede børn og unge i Trige Derfor vil vi skilles i januar VIDEO:<br />

Basim besejrede Bakkegårdsskolen Godt gemte guldklumper fejrer fødselsdag Spareplan: En menneskelig og økonomisk brøler!<br />

255 Bussen og chaufføren prustede lige meget, og vi bevægede os i en fart, selv et muldyr ville kunne have overgået, og fra tid til anden<br />

tvivlede vi på, om bussen overhovedet ville klare turen til Vagliagli (landsbyen uden for hvilken Dievole er beliggende)!<br />

255 Derfor har Regeringen fremlagt "faglighed og frihed", hvor vi ønsker, at kommunerne selv er mere herre over, hvor<strong>dan</strong> de tilrettelægger<br />

undervisningen, og så følges det op via de nationale test, så der ses på resultaterne, men ikke hvor<strong>dan</strong> man når til dem!


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: <strong>Longest</strong> <strong>sentences</strong> 165<br />

255 Elendigt jobkursus hos JK-Proces i Fredericia @ Dagpengesats Inger Støjberg bånd Adolf Hitler Bank bailouts Forklart Gratis<br />

prøveversion member Miljø u23 Demonstration mod dagpengereform i København d.08.06.2010 Pia Kjærsgård & Adolf Hitler tager en<br />

<strong>dan</strong>s!<br />

255 For at guiderne kan blive en succes, er det vigtigt at disse afspejler bredden i NGO Forum S<strong>to</strong>p Volden: Unionstilhængere,<br />

unionsmodstandere, revolutionære socialister, u-landsfolk, både mænd og kvinder i alle aldre, sort og hvid m.v. Der er brug for alle!<br />

255 Med udsolgt til s<strong>to</strong>rt set alle kampe slap man for første gang for det triste syn af næsten <strong>to</strong>mme haller til mindre betydende kampe –<br />

eksempelvis var der 7.500 tilskuere til gruppekampen mellem Grønland og Australien i placeringsrunden om 19. - 24.pladsen!<br />

<strong>Longest</strong> interrogative <strong>sentences</strong><br />

Length Sentence<br />

255 Så kan det helt sikkert betale en ny løsningen om nogle år, hvor brugerne er blevet trygge ved diverse løsninger fra staten og kommunerne,<br />

men NemID måske (måske ikke) er blevet for dyr. Hvorfor kan jeg f.eks. ikke indskrive mit barn til skole via nettet?<br />

255 Har du allerede på nuværende tidspunkt flirtet med tanken om på et tidspunkt i en nærmere fremtid at blive leder, men samtidig er du<br />

usikker på, hvad lederjobbet indeholder, hvad kræves der, og er det overhovedet noget for dig, når det kommer til stykket?<br />

255 Få <strong>dan</strong>skere finder e-mærket vigtigst - ComON Mediaprovider ComON • GEAR • Zoom • Mobil • MediaMac • WebTV • JobWorld<br />

Forside Seneste nyheder Whitepaper Nyhedsarkiv Bøger Nettet: Jordens hemmelige tvilling Teknologi: Er iPhone 4 født med<br />

antenne-problemer?<br />

255 Sociale netværk som digitalt magasin - ComON Mediaprovider ComON • GEAR • Zoom • Mobil • MediaMac • WebTV • JobWorld<br />

Forside Seneste nyheder Whitepaper Nyhedsarkiv Bøger Nettet: Jordens hemmelige tvilling Teknologi: Er iPhone 4 født med<br />

antenne-problemer?<br />

255 Mon Forsvaret forstår, at tilbuddet ikke skal få Kommandoen til at forsøge flere eksempler på at sætte auditør-institutionen i spil overfor<br />

en <strong>dan</strong>sk offentlighed, som med sine analytiske kompetencer i orden, har forstået at <strong>to</strong>lke materialet fra Wikileaks?<br />

255 Forsanger med guitar Ot<strong>to</strong> Carlsen indbyder i samarbejde med smuktsprogs-websitet www.otx<strong>to</strong>.blogspot.com til melodi-GANG-prix på<br />

stranden på Limfjords-øen Egholm lørdag den 21. april, hvor GANG-prix`ets vinder kåres: Hvilken melodi er bedst at gå og synge?<br />

255 Man kan spørge, om ikke der her er tale om samme arbejdsområde, der blot flytter fra et sted til et andet, og om det i det hele taget er<br />

rimeligt, at byrådsmedlemmer også efter 1. januar 2010 skal honoreres for noget, de hidtil har haft som ansvarsområde?<br />

255 Hvis hverken kommunen, de sociale myndigheder eller politiet har kunnet leve op til deres ansvar og pligt til at finde en løsning til at<br />

bekæmpe kriminalitet blandt disse børn, hvad hjælper det så at straffe børnenes forældre og små søskende i stedet for?<br />

255 Det er fuldstændigt indarbejdet at man lige checker efter: Er den bluse jeg overvejer at købe fremstillet på en moralsk forsvarlig måde,<br />

hvad kan jeg finde om den jobansøger vi overvejer at ansætte - eller den potentielle partner, jeg skal ud med i aften?<br />

255 Håber jeg får nogen tilbagemeldinger - blev nysgerrig og lidt provokeret herinde ;) Muttis Füße - skrevet af Polly i Grønne Børn Måske et<br />

lidt off<strong>to</strong>pic spørgsmål, men jeg tror mine fødder er blvet større efter jeg har fået børn, nogen der har oplevet det?


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Length of <strong>sentences</strong> in characters 166<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Length of <strong>sentences</strong><br />

in characters<br />

Sentence length in characters: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

108.0761<br />

Standard deviation<br />

50.9915


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Length of <strong>sentences</strong> in characters 167<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Length of <strong>sentences</strong><br />

in characters<br />

Sentence length in characters: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

118.3195<br />

Standard deviation<br />

52.6655


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Length of <strong>sentences</strong> in characters 168<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Length of <strong>sentences</strong><br />

in characters<br />

Sentence length in characters: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

110.9592<br />

Standard deviation<br />

51.0337


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Length of <strong>sentences</strong> in characters 169<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Length of <strong>sentences</strong><br />

in characters<br />

Sentence length in characters: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

109.0276<br />

Standard deviation<br />

49.3836


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Length of <strong>sentences</strong> in characters 170<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Length of<br />

<strong>sentences</strong> in characters<br />

Sentence length in characters: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

107.2384<br />

Standard deviation<br />

50.5073


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Length of <strong>sentences</strong> in characters 171<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Length of<br />

<strong>sentences</strong> in characters<br />

Sentence length in characters: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

102.3460<br />

Standard deviation<br />

49.2195


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Length of <strong>sentences</strong> in characters 172<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Length of<br />

<strong>sentences</strong> in characters<br />

Sentence length in characters: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

113.2385<br />

Standard deviation<br />

49.8530


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Length of <strong>sentences</strong> in characters 173<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Length of <strong>sentences</strong><br />

in characters<br />

Sentence length in characters: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

102.1387<br />

Standard deviation<br />

52.0791


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Length of <strong>sentences</strong> in characters 174<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Length of <strong>sentences</strong><br />

in characters<br />

Sentence length in characters: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

102.6543<br />

Standard deviation<br />

51.1754


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Length of <strong>sentences</strong> in characters 175<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Length of <strong>sentences</strong><br />

in characters<br />

Sentence length in characters: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

106.5369<br />

Standard deviation<br />

51.1776


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Length of <strong>sentences</strong> in words 176<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Length of <strong>sentences</strong><br />

in words<br />

Sentence length in words: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

17.6979<br />

Standard deviation<br />

8.3344


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Length of <strong>sentences</strong> in words 177<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Length of <strong>sentences</strong><br />

in words<br />

Sentence length in words: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

19.3246<br />

Standard deviation<br />

8.5188


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Length of <strong>sentences</strong> in words 178<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Length of <strong>sentences</strong><br />

in words<br />

Sentence length in words: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

18.2254<br />

Standard deviation<br />

8.2945


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Length of <strong>sentences</strong> in words 179<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Length of <strong>sentences</strong><br />

in words<br />

Sentence length in words: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

17.9277<br />

Standard deviation<br />

8.0536


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Length of <strong>sentences</strong> in words 180<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Length of<br />

<strong>sentences</strong> in words<br />

Sentence length in words: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

17.6082<br />

Standard deviation<br />

8.1958


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Length of <strong>sentences</strong> in words 181<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Length of<br />

<strong>sentences</strong> in words<br />

Sentence length in words: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

16.2212<br />

Standard deviation<br />

7.9366


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Length of <strong>sentences</strong> in words 182<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Length of<br />

<strong>sentences</strong> in words<br />

Sentence length in words: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

18.0430<br />

Standard deviation<br />

8.0236


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Length of <strong>sentences</strong> in words 183<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Length of <strong>sentences</strong><br />

in words<br />

Sentence length in words: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

16.3804<br />

Standard deviation<br />

8.3300


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Length of <strong>sentences</strong> in words 184<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Length of <strong>sentences</strong><br />

in words<br />

Sentence length in words: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

16.8093<br />

Standard deviation<br />

8.3483


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Length of <strong>sentences</strong> in words 185<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Length of <strong>sentences</strong><br />

in words<br />

Sentence length in words: Distribution, average, and standard diviation<br />

Percentage of <strong>sentences</strong> for fixed sentence length<br />

Average sentence length<br />

17.2935<br />

Standard deviation<br />

8.2706


Oddities details<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: <strong>Longest</strong> words<br />

The 10 longest words with frequency>1, ordered by length<br />

Length Frequency Word<br />

72 2 action=<strong>to</strong>plist&list=downloads//language/lang_english/lang_main_album.php<br />

46 2 hvis-du-elsker-mig-elsker-jeg-dig-tilbage-smil<br />

44 4 http://www.phpbb.com/community/view<strong>to</strong>pic.php<br />

40 4 http://www.phpbb2.dk/forum/view<strong>to</strong>pic.php<br />

37 4 Amagerbrogade-Englandsvej-Øresundsvej<br />

36 2 http://www.freewordexcelpassword.com<br />

36 3 http://phpbb2.dk/forum/view<strong>to</strong>pic.php<br />

35 4 netværksansvarlige/driftsansvarlige<br />

34 2 menneskerettighedsorganisationerne<br />

33 2 menneskerettigheds-organisationen<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: <strong>Longest</strong> words<br />

The 10 longest words with frequency>1, ordered by length<br />

Length Frequency Word<br />

34 6 menneskerettighedsorganisationerne<br />

33 5 obligationsforsikringsselskaberne<br />

32 5 ejendomsadministrationsselskabet<br />

32 27 menneskerettighedsorganisationer<br />

32 20 menneskerettighedsorganisationen<br />

32 2 direktionssekretariatsfunktionen<br />

32 9 Menneskerettighedsorganisationer<br />

32 3 Menneskerettighedsorganisationen<br />

31 3 Obligationsforsikringsselskabet<br />

31 2 Nydelsesmiddelarbejderforbundet<br />

186


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: <strong>Longest</strong> words 187<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: <strong>Longest</strong> words<br />

The 10 longest words with frequency>1, ordered by length<br />

Length Frequency Word<br />

36 3 www.fdm-travel.dk/forlystelsesparker<br />

34 2 Tirstrup-Fuglslev-Hyllested-Rosmus<br />

33 3 maskine-til-maskine-kommunikation<br />

33 2 server-applikationsvirtualisering<br />

32 6 menneskerettighedsorganisationer<br />

32 2 andengenerations-bioethanolanlæg<br />

32 2 dobbeltbeskatningsoverenskomster<br />

32 5 Menneskerettighedsorganisationer<br />

32 162 281bcd77730d221157f20cbd32345f54<br />

32 81 850795d98b73f8aed240d884516a9e45<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: <strong>Longest</strong> words<br />

The 10 longest words with frequency>1, ordered by length<br />

Length Frequency Word<br />

36 2 Skatteministeren/skattedepartementet<br />

36 2 skatteministeren/skattedepartementes<br />

36 2 virtualiserings-management-værktøjer<br />

34 2 satellitkommunikationsvirksomheden<br />

34 2 stemme-identificerings-teknologien<br />

33 2 Helsingør-Helsingborg-forbindelse<br />

32 2 professionsbachelorud<strong>dan</strong>nelserne<br />

32 2 sikkerhedsopdaterings-mekanismen<br />

32 3 landbrugsrådgivningsvirksomheden<br />

32 3 virksomhedsobligationsanalytiker


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: <strong>Longest</strong> words 188<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: <strong>Longest</strong> words<br />

The 10 longest words with frequency>1, ordered by length<br />

Length Frequency Word<br />

44 2 det-er-ligegyldigt-hvad-jeg-gør-mentaliteten<br />

38 2 www.furesoe-staar-sammen.skrivunder.dk<br />

37 2 borgmesterlønninger,byrådsmedlemmerne<br />

37 2 Materialecentralen/Religonspædagogisk<br />

35 2 vi-er-bedre-end-de-andre-holdningen<br />

34 2 SAMARITEN,ingenKVALITET,ingenPenge<br />

34 3 menneskerettighedsorganisationerne<br />

33 3 menneskerettighedsorganisationers<br />

33 10 menneskerettigheds-organisationer<br />

33 2 Menneskerettigheds-organisationen<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: <strong>Longest</strong> words<br />

The 10 longest words with frequency>1, ordered by length<br />

Length Frequency Word<br />

74 3 http://www.information.dk/InfWebsite/FremvisningPHP/Common/Information.php<br />

58 4 Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch<br />

53 3 http://www.mountainretrea<strong>to</strong>rg.net/reading/article.cgi<br />

48 2 pensionsselskab/forsikringsselskab/pengeinstitut<br />

42 2 http://www.smartcms.dk/user/haaest/vis.php<br />

38 6 http://ekstrabladet.dk/VisArtikel.iasp<br />

37 3 Slesvig-Holsten-Sønderborg-Glücksborg<br />

36 2 http://www.piratgruppen.org/spip.php<br />

35 2 Slesvig-Holsten-Sønderborg-Lyksborg<br />

35 15 http://nyhederne.tv2.dk/article.php


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: <strong>Longest</strong> words 189<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: <strong>Longest</strong> words<br />

The 10 longest words with frequency>1, ordered by length<br />

Length Frequency Word<br />

64 2 http://www.blavatsky.net/blavatsky/arts/IsTheosophyAReligion.htm<br />

48 2 pensionsselskab/forsikringsselskab/pengeinstitut<br />

37 3 Slesvig-Holsten-Sønderborg-Glücksborg<br />

33 2 feltartilleriobservationsbataljon<br />

32 2 røntgendiffraktionseksperimenter<br />

32 2 varmekraftmaskine-kredsprocesser<br />

32 3 Hillerød-Frederiksværk-Hundested<br />

32 4 menneskerettighedsorganisationer<br />

31 2 menneskerettighedsovertrædelser<br />

31 3 Arbejdsmarkedspensionsordninger<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: <strong>Longest</strong> words<br />

The 10 longest words with frequency>1, ordered by length<br />

Length Frequency Word<br />

123 2 SverigeAustralienBahreinBelgienBosnien/HerzegovinaBulgarienCanadaCypernEstlandFinlandFrankrigGibraltar<br />

113 2<br />

GrækenlandHollandHong<br />

101 8 _____________________________________________________________________________________________________<br />

98 5 __________________________________________________________________________________________________<br />

95 3 _______________________________________________________________________________________________<br />

94 5 ______________________________________________________________________________________________<br />

93 2 _____________________________________________________________________________________________<br />

89 2 TOP______________________________________________________________________________________<br />

89 3 _________________________________________________________________________________________<br />

86 6


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: <strong>Longest</strong> words 190<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: <strong>Longest</strong> words<br />

The 10 longest words with frequency>1, ordered by length<br />

Length Frequency Word<br />

146 4 ForsideKertemindeSeværdighederRestaurantKonferencerSelskaberMiniferieWeekendopholdSøndagsopholdGolfferie<br />

VærelserKørselsvejledningKontaktKerteminde<br />

108 2 rådVaskemaskinerKøl/frysEmhætterKomfurerMicroovneTørretumblereOpvaskemaskinerIndbygningsovneKogepladerBestil<br />

100 10 fjerkræNyheder/KalenderKostvejledningForhandlereHøstmarkedKyllingerJulestueReklamefilmOpskrifterFind<br />

98 4 fjerkræNyheder/KalenderKostvejledningForhandlereHøstmarkedKyllingerJulestueInfo-filmOpskrifterFind<br />

90 4 ydelserGadelysLinksHis<strong>to</strong>rieStrukturOrganisationBrugerindflydelseRepræsentantskabBestyrelse<br />

89 7 rådVaskKomfurOpvaskKøl/frysTørretumblerIndbygningsovnEmhætteMikroovnKogepladeKontaktLogin<br />

84 2 ····················································································<br />

84 3 KnivSikkerhedsknivHastigheds-reduktionssætOliesugerTændrørsnøgleJernhjulPlovOpsamler<br />

84 9 fjerkræLokalerNyheder/KalenderKostvejledningForhandlereHøstmarkedKyllingerJulestueSe<br />

78 9 fyringKatalogerBrugermanualerMiljøbillederPrøvningsattesterLuftstrømsbehovDAPO<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: <strong>Longest</strong> words<br />

The 10 longest words with frequency>1, ordered by length<br />

Length Frequency Word<br />

146 4 ForsideKertemindeSeværdighederRestaurantKonferencerSelskaberMiniferieWeekendopholdSøndagsopholdGolfferie<br />

VærelserKørselsvejledningKontaktKerteminde<br />

108 2 rådVaskemaskinerKøl/frysEmhætterKomfurerMicroovneTørretumblereOpvaskemaskinerIndbygningsovneKogepladerBestil<br />

101 8 _____________________________________________________________________________________________________<br />

100 10 fjerkræNyheder/KalenderKostvejledningForhandlereHøstmarkedKyllingerJulestueReklamefilmOpskrifterFind<br />

98 4 fjerkræNyheder/KalenderKostvejledningForhandlereHøstmarkedKyllingerJulestueInfo-filmOpskrifterFind<br />

98 3 __________________________________________________________________________________________________<br />

94 4 ______________________________________________________________________________________________<br />

90 4 ydelserGadelysLinksHis<strong>to</strong>rieStrukturOrganisationBrugerindflydelseRepræsentantskabBestyrelse<br />

89 2 TOP______________________________________________________________________________________<br />

89 2 _________________________________________________________________________________________


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Sentences with high average word length 191<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Sentences with high<br />

average word length<br />

25 <strong>sentences</strong> with highest average word length<br />

avg. word<br />

length<br />

sentence<br />

37.5000 Session("DB") "DBQ="&Request.ServerVariables("APPL_PHYSICAL_PATH")&"xxx/yyy.mdb;" &_<br />

37.0000 » http://www.information.dk/Indgang.php?<br />

30.5000 Response.Redirect Server.Mappath("/ditbibliotek/asp/dinfil.zip")<br />

29.6667 Det viser[url= http://www.microsoft.com/presspass/features/<strong>2007</strong>/aug07/08-14onlinesurvey.mspx?<br />

28.5000 Se .<br />

27.0000 Response.Write Request.ServerVariables("Path_Translated")<br />

26.0000 Flere» 09-f9-11-02-9d-74-e3-5b-d8-41-56-c5-63-56-88-c0.<br />

25.2500 LINKS: http://www.fanoebryghus.expositus.com http://www.fredericiabryghus.dk http://www.troldhedemikro.dk/<br />

25.0000 05.11.<strong>2007</strong>, 00:39 62.75.202.243 action=<strong>to</strong>plist&list=downloads//language/lang_english/lang_main_album.php?<br />

25.0000 05.11.<strong>2007</strong>, 00:30 62.75.202.243 action=<strong>to</strong>plist&list=downloads//language/lang_english/lang_main_album.php?<br />

24.0000 Response.Write Request.ServerVariables("Path_Info")<br />

22.5000 Se : http://www.phpbb.com/bugs/phpbb3/ticket.php?<br />

21.5000 Se http://beijingvikings.com/team/stats/0708/.<br />

21.5000 JMail.AddRecipientBCC "webmaster@mitdomæne.dk"<br />

20.8333 $corrado_dk = mysql_pconnect($hostname_corrado_dk, $username_corrado_dk, $password_corrado_dk) or<br />

trigger_error(mysql_error(),E_USER_ERROR);<br />

20.5000 Fo<strong>to</strong>: http://www.worldpoolchampionships.com/<br />

20.3333 Letvægts-dame-dobbeltsculleren og Dame-letvægts-singlesculleren.«<br />

19.7500 »Hvem-er-jeg-forklaringen«, »Sig-mig-hvem-du-omgåes-forklaringen« og »Fører-forklaringen«.<br />

19.7500 KatId=109&SubId=&id=3300&text=Manglende+sikkerhed+i+styresystemerne (Read timed out).<br />

19.6667 Download Link : http://www.microsoft.com/downloads/details.aspx?<br />

19.5000 Response.Redirect "http://mygoodstart.com"<br />

19.5000 JMail.AddRecipientBCC "admin@mitdomæne.dk"<br />

19.3333 > > Response.Redirect "http://www.ny_adresse_på_din_hjemmeside"<br />

19.2500 KatId=104&SubId=&id=3311&text=Command+%26+Conquer+3+Tiberium+Wars (Read timed out).<br />

19.0000 Smilende sit hvis-du-elsker-mig-elsker-jeg-dig-tilbage-smil.


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Sentences with high average word length 192<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Sentences with high<br />

average word length<br />

25 <strong>sentences</strong> with highest average word length<br />

avg. word<br />

length<br />

sentence<br />

15.5000 Ingeniørforeningen forlader Akademikernes Centralorganisation (AC).<br />

14.6667 Narko-færdselskontroller Samtidig gennemfører Færdselspolitiet flere narko-færdselskontroller.<br />

14.2500 'Vind-eller-forsvind-turnering' NFL-slutspillet afvikles som simpel knockout-turnering efter vind-eller-forsvind-princippet.<br />

13.6000 Dansk Arbejdsgiverforening genkender billedet.<br />

13.3750 Danmark har tilsluttet sig Den Europæiske Menneskerettighedskonvention.<br />

13.3333 Fremmedsprogskompetencerne falder generelt.<br />

13.1429 Universitets lærerud<strong>dan</strong>nelse mangler undervisningsministerens og videnskabsministerens godkendelse.<br />

13.0000 Det oplyser Danmarks Sports<strong>dan</strong>serforbund.<br />

12.8000 Det erkender Odense Universitetshospital.<br />

12.5000 Virksomhedsobligationerne falder, fordi virksomhedernes kreditværdighed forringes.<br />

12.2500 Genoptællingen bekræfter dermed parlamentsresultatet.<br />

12.2000 Danmarks Lærerforening støtter anmeldelsen.<br />

12.1667 Socialdemokraternes formand har kritiseret finansministerens forhandlingsevner.<br />

12.0000 Alligevel vejrer brancheforeningen Telekommunikationsindustrien nu morgenluft.<br />

12.0000 Blandt Chris<strong>to</strong>ffer Green-Pedersens forskningsområder er dagsordenfastsættelse.<br />

12.0000 Byhaveskolen underviser intelligensretarderede børn med generelle indlæringsvanskeligheder.<br />

12.0000 Internet-navigationskontrollen sidder under skærmen.<br />

12.0000 Koncernledelsen kalder resultatet tilfredsstillende.<br />

12.0000 Menneskerettighedsorganisationer advarer kraftigt mod muligheden.<br />

12.0000 Respira<strong>to</strong>rpatienterne måtte herefter håndventileres.<br />

11.9091 Seniorværkstederne tilbyder it-undervisning, musik-grupper, blomsterbinding, smykke-fremstilling, møbelpolstring,<br />

snedkerværksteder og meget andet.<br />

11.7143 Medvirkende: Arbejdsmarkedsforsker Flemming Ibsen, Aalborg Universitet.<br />

11.6667 Kosovo-spørgsmålet formentlig årsagen.<br />

11.6667 Medvirkende: forskningsprofessor Michael Skou Andersen fra Danmarks Miljøundersøgelser.<br />

11.6364 Efterforskningen gennemføres i tæt samarbejde med Forsvarets Efterretningstjeneste og Udenrigsministeriet.


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Sentences with high average word length 193<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Sentences with high<br />

average word length<br />

25 <strong>sentences</strong> with highest average word length<br />

avg. word length sentence<br />

14.4000 Middelaldermarked på Bornholms Middelaldercenter.<br />

13.5000 Kommunalbestyrelsesmedlem Jørgen Hvidemose forlader Socialdemokratiet.<br />

13.4000 Herunder netværks-tilslutninger, server-systemer og hardware-komponenter.<br />

13.2500 Knallert-Mo<strong>to</strong>rlæreundervisning og Good-Shape gennemføres.<br />

13.0000 Begrænsninger, begrænsninger, begrænsninger.<br />

13.0000 CEO udtalelser, markedsberetninger, fondsbørsmeddelelser, profitwarnings, aktieanbefalinger og regnskabsmeddelelser.<br />

12.5000 281bcd77730d221157f20cbd32345f54 Tak for tilmeldingen!<br />

12.5000 850795d98b73f8aed240d884516a9e45 Tak for tilmeldingen!<br />

12.4000 Fortegningsretsemissionen hos forsikringsselskabet blev fuldtegnet.<br />

12.3750 En alarmerende bekræftelse Danmarks Naturfredningsforening kræver handling.<br />

12.3333 Det oplyser FN's Flygtningehøjkommissariat (UNHCR).<br />

12.3333 Socialdemokraternes forbrugerordfører, Benny Engelbrecht kalder teleområdet fuldstændigt uoverskueligt.<br />

12.2500 Restaurationernes Brancheforening bekræfter billedet.<br />

12.2000 Ligeberettigelsen mellem nationaliteterne kendetegner Afghanistan.<br />

12.1250 Nationalpark Vadehavet Nationalpark Vadehavet åbner lørdag.<br />

12.0000 Berlingske Tidende har gennemgået revisionspro<strong>to</strong>kollaterne.<br />

12.0000 Det siger Socialdemokraternes forebyggelsesordfører, Flemming Møller Mortensen.<br />

12.0000 Midt- og Vestsjællands Politi har krænket Den Europæiske Menneskerettighedskonvention.<br />

11.8571 Danmarks Naturfredningsforening i Nordjylland er skeptisk.<br />

11.8571 Men Danmarks Naturfredningsforening maner til besindighed.<br />

11.8000 Huseftersynsordningen er skabt efter forbrugerbeskyttelsesloven.<br />

11.6667 Det mener Institut for Menneskerettigheder.<br />

11.6667 ForbrugerombudsmandenForbrugerombudsmanden har fået udvidet sine beføjelser.<br />

11.6250 Tallene stammer fra ulykkesanalysegruppen på Odense Universitetshospital.<br />

11.6000 Alligevel lader Sundhedsstyrelsen privathospitalerne fortsætte.


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Sentences with high average word length 194<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Sentences with high<br />

average word length<br />

25 <strong>sentences</strong> with highest average word length<br />

avg. word<br />

length<br />

sentence<br />

15.4444 Skrumpelever,epilepsi,forgiftninger,trafikulykker,vold,ogfleretyperafkræft,herunderkræft ibryst,strube oglever, kan sættes i<br />

forbindelse med alkohol.<br />

13.7778 Andelsboligforeningernes Fællesrepræsentation, ABF, følger udviklingen med største alvor.<br />

13.5000 Eksempelvis bliver menneskrettighedsorganisationer lukket.<br />

13.3333 MKUserLocationBreadCrumb lyder interessant.<br />

12.8571 Selv Arbejderbevægelsens Erhvervsråd erkender situationens alvor.<br />

12.5000 281bcd77730d221157f20cbd32345f54 Tak for tilmeldingen!<br />

12.5000 850795d98b73f8aed240d884516a9e45 Tak for tilmeldingen!<br />

12.3333 Billedgalleri: Sundhedsdebatten har brug for “alt-andet-end-Bent-Hansen-løsningen.<br />

12.2500 Ligesom organisationen efterlyser overgangsordninger.<br />

12.1250 Kommunens miljøorganisation og Danmarks Naturfredningsforening er uenige.<br />

12.1000 Grænseopdelingen mellem landene er aldrig blevet endegyldigt fastlagt,dels fordiområdeterfyldt<br />

medlandminerfraårtierskrigiCambodja.<br />

11.8889 Hverken Kystdirek<strong>to</strong>ratet eller Danmarks Naturfredningsforening vil s<strong>to</strong>ppe erosionen.<br />

11.8750 " Ifølge arrangørerne (Berlingske Nyhedsmagasin, HerbertNathan & Co., Erhvervsbladet.<br />

11.8182 Dvs. lader folkets ikke-elitære, ikke-intellektuelle, ikke-priviligerede, ikke-kamaratrænede, ikke-netværkende repræsentanter indtage<br />

Folketinget.<br />

11.8000 Under ekspeditionen gennemføres forskellige forskningsprojekter.<br />

11.7500 Danske udviklingsaktiviteter s<strong>to</strong>pper øjeblikkeligt.<br />

11.6000 Hvad med kvindehåndboldlandsholdet og mandefodbold-landsholdet.<br />

11.5000 Forsikringsselskaber hilser ud<strong>dan</strong>nelse af bestyrelsesmedlemmerne velkommen.<br />

11.4286 Common Criteria er telekommunikationsindustriens mest krævende sikkerhedscertificering.<br />

11.4286 " IKEA: "Testet af hverdagen: Onkel-Arne-låner-lige-overkøjen-testen" "Hej-skat-onkel-Arne-låner-lige-overkøjen-testen" er ekstremt<br />

relevant for produktet og vidunderligt eksekveret.<br />

11.4000 Brevmodellen medfører også retssikkerhedsmæssige udfordringer.<br />

11.3750 Også landmændene er utilfredse med Danmarks Naturfredningsforening.<br />

11.2857 Så<strong>dan</strong> beskriver Danske Handikaporganisationer Brønderslev Kommunens handikappolitiker.<br />

11.2632 Udenrigsordfører, udviklingsordfører, fødevareordfører, videnskabsordfører, kirkeordfører (Mette Bock) forsvarsordfører,<br />

miljøordfører, energiordfører, ordfører vedrørende Grønland og Færøerne (Villum Christensen).<br />

11.2500 Desuden indføres en seniorførtidspensionsordning.


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Sentences with high average word length 195<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Sentences with<br />

high average word length<br />

25 <strong>sentences</strong> with highest average word length<br />

avg.<br />

word<br />

length<br />

sentence<br />

17.0833 ArgentinaAustralienBrasilienCanadaKinaFrankrigTysklandIndienIndonesienItalienJapanMexicoRuslandSaudi-<br />

ArabienSydafrikaSydkoreaTyrkietS<strong>to</strong>rbritannienUSAEU Fallujas børn er ofre for a<strong>to</strong>mkrig BREAKING: Bush anklages for..<br />

15.4286 Investeringsforeningernes <strong>dan</strong>ske brancheorganisation (tidligere Danske Investeringsforeningers Fællesrepræsentation).<br />

15.0000 Forårs/sommer-kollektionerne bliver præsenteret.<br />

14.1429 Specielt brandvæsen,vandforsyning,madudbringning,gartner/veligeholdelses området er nogle af mulighederne.<br />

14.0000 Et positivt budskab i disse <strong>dan</strong>sk-folkeparti-sætter-dagsordenen-vi lukker-øjnene- og-dørene-og siger-nej-til-de-andres-problemer-tider.<br />

13.8000 Det mener Danmarks Naturfredningsforening.<br />

13.8000 Det siger Arbejderbevægelsens Erhvervsråd.<br />

13.7778 Oluf Jørgensen, forvaltningsretsekspert, afdelingsforstander på Danmarks Journalisthøjskole.<br />

13.6667 Desuden fortsætter underskriftsindsamlingen.<br />

13.6000 Lufthavnsudvalget repræsenterer Danmarks største skifteholdsarbejdsplads.<br />

13.5714 Den Europæiske Menneskerettighedsdoms<strong>to</strong>l ligger i Strasbourg.<br />

13.5000 Bush-besøget kræver omfattende sikkerhedsforanstaltninger.<br />

13.5000 Et opgør med 'det-er-ligegyldigt-hvad-jeg-gør-mentaliteten'.<br />

13.4286 Den Europæiske Menneskerettighedskonvention fylder 60 år.<br />

13.3889 De <strong>dan</strong>ske medlemmer tæller Lærerstuderendes Landskreds, Danske Gymnasieelevers Sammenslutning, Pædagogstuderendes<br />

LandsSammenslutning og Danske Studerendes Fællesråd.<br />

13.3750 Industrialiseringsfonden for Udviklingslandene blev oprettet i 1967.<br />

13.2857 Det fastholder Socialdemokraterne i Københavns Borgerrepræsentation.<br />

13.2857 Turleder: Christian Glahder, Danmarks Naturfredningsforening, Slagelse.<br />

13.2500 Bag demonstrationen <strong>to</strong>rsdag står: Gymnasieelever, handelsskoleelever, erhvervsskoleelever, pædagogstuderende,<br />

socialrådgiverstuderende, sygeplejerstuderende, lærerstuderende og Danske Studerendes Fællesråd.<br />

13.2500 Konkurrencehindrende elementer og konkurrenceforvridende.<br />

13.2500 Midtbornholmsrideklub afholder ordinær generalforsamling.<br />

13.1667 Det såkaldte “så-s<strong>to</strong>pper-legen-her-yeankees”-signalet, hvorefter “flådeøvelsen” s<strong>to</strong>ppede.<br />

13.1667 Fra journalistud<strong>dan</strong>nelsen på Danmarks Journalisthøjskole.<br />

13.1111 Helsingør Bycenter, Prøvestenscentret (pladskrævende produkter), Gefionscentret, Borupgaardcentret, Meretecentret.<br />

13.0000 1990-1998 medlem af Københavns Borgerrepræsentation.


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Sentences with high average word length 196<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Sentences with<br />

high average word length<br />

25 <strong>sentences</strong> with highest average word length<br />

avg. word<br />

length<br />

sentence<br />

15.0000 Eventuelle tvivlsspørgsmål afgøres af Generaldirektøren/Direktionssekretariatet.<br />

15.0000 Klassisksproglig studentereksamen kaldes også gammelsproglig studentereksamen.<br />

14.5556 Navnet er også blevet skrevet som<br />

Taumatawhakatangihangakoauauotamateaurehaeaturipukakapikimaungahoronukupokaiwhenuakitanatahu, 92 bogstaver.<br />

14.0000 Stærkstrømsreglementet hedder nu Stærkstrømsbekendtgørelsen.<br />

13.7000 Missionprofiler Ligesom Apollo-programmet vil Constellation-programmet involvere nærjordskredsløb, månekredsløbsflyvninger og<br />

månelandingsmissioner.<br />

13.6667 Københavns Forstadsklubbers Boldspil Union (K.<br />

13.4000 Forskellige forskningsfelter udvikler forskellige casestudietraditioner.<br />

13.3333 Gennem ægteskab har navnet fået variationer som D'Almaforte-Hardenberg-Reventlow, Gersdorff-Hardenberg-Reventlow,<br />

Holck-Hardenberg-Reventlow og Haugwitz-Hardenberg-Reventlow.<br />

13.2500 Derudover nedsættes ejendomsværdiskatten forholdsmæssigt.<br />

13.2500 Lærerstuderendes Landskreds' formålsparagraf Lærerstuderendes Landskreds er en partipolitisk uafhængig organisation.<br />

13.0000 Formand for GLO (Gymnasieelevernes Landsorganisation) 1978-1979.<br />

13.0000 Generalforsamlingen vælger bestyrelsesmedlemmerne, bortset fra eventuelle medarbejdervalgte bestyrelsesmedlemmer.<br />

12.8889 FN's Verdenserklæring om Menneskerettighederne indeholder ingen lignende krav.<br />

12.8571 Socialistisk Folkeoplysningsforbund har 24 lokale afdelinger.<br />

12.8000 Internationale organisationer * - Europa-Kommissionen fordømmer angrebet.<br />

12.7500 Partiets ungdomsorganisation hedder Danmarks Socialdemokratiske Ungdom (DSU).<br />

12.7273 Fra Den Europæiske Menneskerettighedskonvention Fravigelse af forpligtelser under offentlige faretilstande.<br />

12.7143 Statens Byggeforskningsinstitut hørte desuden under ministeriet.<br />

12.6667 Herefter overtager nationalrådspræsidiet.<br />

12.6667 Medlem af Københavns Borgerrepræsentation 1974-84.<br />

12.6250 Fo<strong>to</strong>journalister ud<strong>dan</strong>nes på Danmarks Journalisthøjskole på Fo<strong>to</strong>journalistlinjen.<br />

12.6000 Kommunalbestyrelsesmedlem Gen<strong>to</strong>fte Kommune 1986-90.<br />

12.6000 Wintera-familien (Winteraceae) indeholder aluminiumopsamlende planter.<br />

12.5000 Matematisk studentereksamen fra Gladsaxe Gymnasium 1991-1994.<br />

12.5000 Århushis<strong>to</strong>rierne følger typisk spørgsmål/svar-skemaet.


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Problems with sentence segmentation - words ending in a s<strong>to</strong>pword 197<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> <strong>2007</strong>: Problems with<br />

sentence segmentation - words ending in a<br />

s<strong>to</strong>pword<br />

Most frequent words ending in a s<strong>to</strong>pword. They usually contain uppercase letters as result<br />

form missing blanks.<br />

S<strong>to</strong>pword Concatenated word Frequency of s<strong>to</strong>pword Frequency of concatenated word<br />

Danmark PostDanmark 17310 33<br />

Danmark BaneDanmark 17310 21<br />

Danmark PensionDanmark 17310 19<br />

Danmark TopDanmark 17310 13<br />

Danmark BoxDanmark 17310 11<br />

Danmark HedeDanmark 17310 8<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2008: Problems with<br />

sentence segmentation - words ending in a<br />

s<strong>to</strong>pword<br />

Most frequent words ending in a s<strong>to</strong>pword. They usually contain uppercase letters as result<br />

form missing blanks.<br />

S<strong>to</strong>pword Concatenated word Frequency of s<strong>to</strong>pword Frequency of concatenated word<br />

Danmark PostDanmark 14684 27<br />

Danmark BaneDanmark 14684 14<br />

Den RaiDen 27391 13<br />

Danmark HedeDanmark 14684 9<br />

Danmark TopDanmark 14684 7<br />

Danmark VækstDanmark 14684 7<br />

For TreFor 9131 5


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Problems with sentence segmentation - words ending in a s<strong>to</strong>pword 198<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2010: Problems with<br />

sentence segmentation - words ending in a<br />

s<strong>to</strong>pword<br />

Most frequent words ending in a s<strong>to</strong>pword. They usually contain uppercase letters as result<br />

form missing blanks.<br />

S<strong>to</strong>pword Concatenated word Frequency of s<strong>to</strong>pword Frequency of concatenated word<br />

Danmark BaneDanmark 15963 19<br />

Danmark TopDanmark 15963 18<br />

Danmark PostDanmark 15963 16<br />

Det AnnonceDet 79442 12<br />

Det 19:01Det 79442 10<br />

Danmark PensionDanmark 15963 10<br />

Men AnnonceMen 31138 7<br />

Han AnnonceHan 15908 5<br />

Og AnnonceOg 22535 5<br />

Danmark OGSÅDanmark 15963 5<br />

De AnnonceDe 21269 4<br />

Det FacebookDet 79442 4<br />

Vi Pava:»Vi 14080 4<br />

Den SkaldyrsknækkerDen 23489 4<br />

Her 23:15Her 6102 3<br />

Der AnnonceDer 17073 3<br />

Jeg AnnonceJeg 16131 3<br />

Den Nekrolog:»Den 23489 3<br />

Danmark RealkreditDanmark 15963 3<br />

Danmark TeleDanmark 15963 3


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Problems with sentence segmentation - words ending in a s<strong>to</strong>pword 199<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong> 2011: Problems with<br />

sentence segmentation - words ending in a<br />

s<strong>to</strong>pword<br />

Most frequent words ending in a s<strong>to</strong>pword. They usually contain uppercase letters as result<br />

form missing blanks.<br />

S<strong>to</strong>pword Concatenated word Frequency of s<strong>to</strong>pword Frequency of concatenated word<br />

Danmark PensionDanmark 25210 56<br />

Danmark BaneDanmark 25210 46<br />

Danmark PostDanmark 25210 27<br />

Det 05:00Det 131087 13<br />

En 06:00En 25258 11<br />

Der InSSIDer 28588 9<br />

Den 06:00Den 40209 8<br />

Det 22:30Det 131087 8<br />

Danmark TopDanmark 25210 8<br />

En 14:30En 25258 6<br />

Den 22:30Den 40209 6<br />

Den 07:00Den 40209 5<br />

Vi 22:30Vi 24269 5<br />

For TreFor 13029 5<br />

De 05:00De 35870 4<br />

En 05:00En 25258 4<br />

Den 05:01Den 40209 4<br />

De 06:01De 35870 4<br />

Det 10:04Det 131087 4<br />

De 10:20De 35870 4


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Problems with sentence segmentation - words ending in a s<strong>to</strong>pword 200<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> <strong>news</strong>crawl 2011: Problems with<br />

sentence segmentation - words ending in a<br />

s<strong>to</strong>pword<br />

Most frequent words ending in a s<strong>to</strong>pword. They usually contain uppercase letters as result<br />

form missing blanks.<br />

S<strong>to</strong>pword Concatenated word Frequency of s<strong>to</strong>pword Frequency of concatenated word<br />

Danmark PensionDanmark 46620 81<br />

Danmark BaneDanmark 46620 77<br />

Danmark PostDanmark 46620 57<br />

Danmark HedeDanmark 46620 13<br />

Danmark TopDanmark 46620 13<br />

Og …Og 75081 11<br />

Den RaiDen 80396 9<br />

Danmark udkantsDanmark 46620 9<br />

Nu FredNu 19753 8<br />

Nu Her&Nu 19753 7<br />

En NyhederEn 51600 7<br />

Danmark OverDanmark 46620 7<br />

Den KendteDen 80396 6<br />

Danmark TeleDanmark 46620 6<br />

Jeg …Jeg 66059 6<br />

Danmark UdkantsDanmark 46620 5<br />

Det op.Det 257926 5<br />

Der •Der 63824 5<br />

Det …Det 257926 5<br />

Men …Men 99712 5


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Problems with sentence segmentation - words ending in a s<strong>to</strong>pword 201<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia <strong>2007</strong>: Problems with<br />

sentence segmentation - words ending in a<br />

s<strong>to</strong>pword<br />

Most frequent words ending in a s<strong>to</strong>pword. They usually contain uppercase letters as result<br />

form missing blanks.<br />

S<strong>to</strong>pword Concatenated word Frequency of s<strong>to</strong>pword Frequency of concatenated word<br />

Men HotMen 3399 5<br />

Danmark RealDanmark 7319 3<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> wikipedia 2012: Problems with<br />

sentence segmentation - words ending in a<br />

s<strong>to</strong>pword<br />

Most frequent words ending in a s<strong>to</strong>pword. They usually contain uppercase letters as result<br />

form missing blanks.<br />

S<strong>to</strong>pword Concatenated word Frequency of s<strong>to</strong>pword Frequency of concatenated word<br />

Der NOTE:Der 12334 27<br />

Men HotMen 6068 5<br />

Danmark RealDanmark 9064 5<br />

Danmark PensionDanmark 9064 4


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Problems with sentence segmentation - words ending in a s<strong>to</strong>pword 202<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2002: Problems with<br />

sentence segmentation - words ending in a<br />

s<strong>to</strong>pword<br />

Most frequent words ending in a s<strong>to</strong>pword. They usually contain uppercase letters as result<br />

form missing blanks.<br />

S<strong>to</strong>pword Concatenated word Frequency of s<strong>to</strong>pword Frequency of concatenated word<br />

Danmark TeleDanmark 113994 388<br />

Det 8221;Det 668967 67<br />

Danmark PostDanmark 113994 57<br />

Det x201D;Det 668967 54<br />

Jeg 8221;Jeg 206097 44<br />

Jeg 8222;Jeg 206097 35<br />

Vi 8221;Vi 274288 33<br />

Danmark RealDanmark 113994 33<br />

Vi x201D;Vi 274288 32<br />

Det 8222;Det 668967 31<br />

En (En 172429 30<br />

Vi 8222;Vi 274288 29<br />

Danmark TopDanmark 113994 29<br />

Den 8221;Den 247976 22<br />

En 8221;En 172429 20<br />

Danmark UniqueDanmark 113994 19<br />

Den x201D;Den 247976 19<br />

Jeg x201D;Jeg 206097 19<br />

Danmark YES‑Danmark 113994 18<br />

Danmark MiniDanmark 113994 17


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Problems with sentence segmentation - words ending in a s<strong>to</strong>pword 203<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> web 2011: Problems with<br />

sentence segmentation - words ending in a<br />

s<strong>to</strong>pword<br />

Most frequent words ending in a s<strong>to</strong>pword. They usually contain uppercase letters as result<br />

form missing blanks.<br />

S<strong>to</strong>pword Concatenated word Frequency of s<strong>to</strong>pword Frequency of concatenated word<br />

Danmark PostDanmark 76879 329<br />

En guideEn 117042 58<br />

Danmark BaneDanmark 76879 50<br />

Der KommuneDer 189354 36<br />

Danmark TeleDanmark 76879 34<br />

Danmark PensionDanmark 76879 23<br />

Vi CeLaVi 261719 22<br />

Danmark ITSDanmark 76879 21<br />

Danmark UniqueDanmark 76879 19<br />

Danmark TopDanmark 76879 17<br />

En VASEn 117042 17<br />

Danmark EnergiDanmark 76879 11<br />

Den ProDen 152290 10<br />

Der byttesDer 189354 9<br />

Danmark SikkerDanmark 76879 8<br />

Jeg …Jeg 160450 8<br />

Danmark HedeDanmark 76879 7<br />

Danmark JazzDanmark 76879 7<br />

Den kropDen 152290 6<br />

Danmark HelpcareDanmark 76879 5


<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Problems with sentence segmentation - words ending in a s<strong>to</strong>pword 204<br />

<strong>Appendix</strong> <strong>to</strong> <strong>dan</strong> mixed 2012: Problems with<br />

sentence segmentation - words ending in a<br />

s<strong>to</strong>pword<br />

Most frequent words ending in a s<strong>to</strong>pword. They usually contain uppercase letters as result<br />

form missing blanks.<br />

S<strong>to</strong>pword Concatenated word Frequency of s<strong>to</strong>pword Frequency of concatenated word<br />

Danmark PostDanmark 312713 516<br />

Danmark TeleDanmark 312713 416<br />

Danmark BaneDanmark 312713 214<br />

Danmark PensionDanmark 312713 193<br />

Danmark TopDanmark 312713 97<br />

Det 8221;Det 1701066 67<br />

En guideEn 418271 58<br />

Det x201D;Det 1701066 51<br />

Danmark RealDanmark 312713 44<br />

Jeg 8221;Jeg 493676 43<br />

Danmark HedeDanmark 312713 42<br />

Der KommuneDer 655797 36<br />

Vi 8221;Vi 648196 32<br />

Jeg 8222;Jeg 493676 32<br />

Vi x201D;Vi 648196 31<br />

Det 8222;Det 1701066 30<br />

En (En 418271 30<br />

Vi 8222;Vi 648196 27<br />

Der NOTE:Der 655797 27<br />

Danmark UniqueDanmark 312713 27

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!