31.07.2013 Aufrufe

Einführung in die Informationswissenschaft

Einführung in die Informationswissenschaft

Einführung in die Informationswissenschaft

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Informationsl<strong>in</strong>guistik<br />

Grundansatz: Worte vs. N-Gramme<br />

– Zerlegen der Dokumente / Suchanfragen <strong>in</strong> Worte<br />

und/oder N-Gramme<br />

– Wortidentifikation: e<strong>in</strong> Wort ist e<strong>in</strong>e Zeichenfolge<br />

zwischen zwei Leerstellen oder Satzzeichen bzw. dem<br />

Anfang e<strong>in</strong>es Felde<strong>in</strong>trags und e<strong>in</strong>er Leerstelle/e<strong>in</strong>em<br />

Satzzeichen<br />

– N-Gramm: Zerlegung e<strong>in</strong>es Textes <strong>in</strong> Zeichenfolgen mit<br />

n Zeichen (etwa: n=3 oder n=5).<br />

– Zuordnung e<strong>in</strong>er Wort- bzw. N-Gramm-Position (und ggf.<br />

weiterer Merkmale) <strong>in</strong> der <strong>in</strong>vertierten Datei<br />

– bei nicht-zeichensensitiven Systemen: Übertragung aller<br />

Buchstaben <strong>in</strong> e<strong>in</strong>e Form (etwa: alles Großschreibung)<br />

HHU Düsseldorf, WS 2004/05 <strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Informationswissenschaft</strong> 153

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!