31.07.2013 Aufrufe

Einführung in die Informationswissenschaft

Einführung in die Informationswissenschaft

Einführung in die Informationswissenschaft

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

N-Gramme<br />

Informationsl<strong>in</strong>guistik<br />

• Zerlegung von Buchstabenfolgen <strong>in</strong>nerhalb e<strong>in</strong>es Textes<br />

(e<strong>in</strong>schl. Leerzeichen) <strong>in</strong> Folgen von n Zeichen<br />

• Anzahl der N-Gramme ist begrenzt: |Alphabet| n<br />

Bsp.: deutsches Alphabet: 26 Zeichen plus Leerzeichen<br />

bei n=3 27 3 = 19.683 3-Gramme<br />

bei n=4 27 4 = 531.441 4-Gramme<br />

bei n=5 27 5 = 14.348.907 5-Gramme<br />

• Vergleich: arbeitet man mit Worten, so ist deren Anzahl<br />

(zum<strong>in</strong>dest pr<strong>in</strong>zipiell) unendlich groß<br />

HHU Düsseldorf, WS 2004/05 <strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Informationswissenschaft</strong> 155

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!