31.07.2013 Aufrufe

Einführung in die Informationswissenschaft

Einführung in die Informationswissenschaft

Einführung in die Informationswissenschaft

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

N-Gramme<br />

• Geschichte<br />

Informationsl<strong>in</strong>guistik<br />

– geht auf Claude Shannon (1948) zurück<br />

– für das Information Retrieval nutzbar gemacht u.a. von Norbert<br />

Henrichs (1975) und M.Damashek (1995)<br />

– es gibt diverse IR-Systeme auf N-Gramm-Basis; z.B. HAIRCUT<br />

(Hopk<strong>in</strong>s Automated Information Retriever for Comb<strong>in</strong>g<br />

Unstructured Text) von James Mayfield et al. 2000<br />

– besonders stark bei asiatischen Sprachen (wegen der nicht<br />

e<strong>in</strong>deutigen Leerzeichen)<br />

Claude Shannon: A mathematical theory of communication.- In: Bell System Technical Journal 27 (1948),<br />

379-423 und 623-656.<br />

M. Damashek: Gaug<strong>in</strong>g similarity with n-grams. Language-<strong>in</strong>dependent categorization of text. – In: Science<br />

267 (1995), 843-848.<br />

J. Mayfield; P. McNamee; C. Piatko: The JHU/APL HAIRCUT system at TREC-8. – In: E.M. Voorhees;<br />

D.K. Harman (Hrsg.): Proceed<strong>in</strong>gs of the 8th Text REtrieval Conference. – Gaithersbury: NTIS, 2000, 445-452.<br />

HHU Düsseldorf, WS 2004/05 <strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Informationswissenschaft</strong> 154

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!