31.07.2013 Aufrufe

Einführung in die Informationswissenschaft

Einführung in die Informationswissenschaft

Einführung in die Informationswissenschaft

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

N-Gramme<br />

Informationsl<strong>in</strong>guistik<br />

• alle Zeichen <strong>in</strong>nerhalb e<strong>in</strong>es Satzes werden <strong>in</strong> N-Gramme<br />

zerlegt (<strong>die</strong>s wird für alle Sätze e<strong>in</strong>es Textes wiederholt)<br />

• Probleme:<br />

– Überzerlegung (wie „Reihe“ bei „Widerspruchsfreiheitsbeweis“<br />

<strong>in</strong> e<strong>in</strong>em 5-Gramm)<br />

– Zeichenfolge mit n-2 Zeichen (und weniger) werden durch e<strong>in</strong><br />

n-Gramm nicht erkannt (wie „IBM“ bei e<strong>in</strong>em 6-Gramm)<br />

– Entstehung von Mehrdeutigkeiten durch <strong>die</strong> n-Gramm-<br />

Zerlegung (Bsp.: Treffer „prime m<strong>in</strong>ister“ für den Satz „The<br />

foreign m<strong>in</strong>ister ate prime rib for lunch“: Such-4-Gramme<br />

„prim“, „rime“, „m<strong>in</strong>i“, „<strong>in</strong>is“, „nist“, „iste“, „ster“ kommen<br />

alle im Satz vor. Lösung: E<strong>in</strong>beziehen von Leerzeichen:<br />

„me_m“, „e_mi“ – <strong>die</strong>se kommen im Satz nicht vor)<br />

HHU Düsseldorf, WS 2004/05 <strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Informationswissenschaft</strong> 158

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!