07.03.2014 Aufrufe

Handout und Notizen vom Kick-Off

Handout und Notizen vom Kick-Off

Handout und Notizen vom Kick-Off

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Vasari: <strong>Kick</strong>-<strong>Off</strong><br />

Norbert Gövert<br />

Norbert Fuhr<br />

7. Februar 2002<br />

Inhaltsverzeichnis<br />

1 Vorstellungsr<strong>und</strong>e 2<br />

2 Seminar (Organisatorisches) 2<br />

3 Verteilung von Seminarthemen 3<br />

3.1 Zeitplan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3<br />

3.2 Themen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3<br />

4 Spezialisten gesucht 6<br />

5 Verschiedenes 7<br />

5.1 Accounts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />

5.2 Vasari-Homepage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />

5.3 PG-Treffen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />

5.4 Fragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />

6 Tipps für den Vortrag 8<br />

7 Hinweise zur Ausarbeitung 9<br />

Literatur 9<br />

1


1 Vorstellungsr<strong>und</strong>e<br />

Enyi Ai<br />

Tariq Doukkali Attar<br />

Daniel Chernuchin<br />

Andrea Ernst<br />

Oliver Gendera<br />

Michael Günnewig<br />

Sascha Hennig<br />

Thao Ho<br />

Peter Hüsken<br />

Nebil Nouri<br />

Hoi-Ming Wong<br />

enyi_ai@yahoo.com<br />

ai@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />

Attar@gmx.de<br />

doukkali@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />

daniel.chernuchin@gmx.de<br />

chernuch@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />

zora@johalla.de<br />

ernst@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />

ollige@gmx.de<br />

gendera@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />

guennewi@ls6.cs.uni-dortm<strong>und</strong>.de<br />

guennewi@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />

sh@cm-edv.de<br />

hennig@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />

thao.ho@gmx.de<br />

ho@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />

p.huesken@gmx.net<br />

huesken2@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />

nebil@gmx.de<br />

nouri@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />

Hoi-Ming.Wong@web.de<br />

wong@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />

Norbert Fuhr fuhr@ls6.cs.uni-dortm<strong>und</strong>.de Tel. 02 31 / 7 55 - 20 45<br />

Norbert Gövert goevert@ls6.cs.uni-dortm<strong>und</strong>.de Tel. 02 31 / 7 55 - 30 32<br />

2 Seminar (Organisatorisches)<br />

• Termin (Vorschlag: Freitag, 19. April bis Sonntag, 21. April)<br />

• Ort (bewährt haben sich die JHs in Mülheim / Ruhr 1 <strong>und</strong> Hagen 2 )<br />

• Nebil Nouri übernimmt die Organisation.<br />

1 http://www.djh.de/02_jh/JHData.asp?ID_JH=458<br />

2 http://www.djh.de/02_jh/JHData.asp?ID_JH=363<br />

2


3 Verteilung von Seminarthemen<br />

Jeder bereitet einen Vortrag zu einem der „wissenschaftlichen“ Themen für das Seminar vor.<br />

Umfang etwa 45 Minuten, plus Fragen / Diskussion.<br />

3.1 Zeitplan<br />

• Jetzt: Themenvergabe<br />

• 12. <strong>und</strong> 14. Februar: Vorbesprechung<br />

• 18.–22. März (Halbzeit!): Präsentation eines ein- bis zweiseitigen „extended Abstract“<br />

• vor der Seminarfahrt: Abgabe der Ausarbeitung<br />

3.2 Themen<br />

3.2.1 Extensible Markup Language (XML)<br />

Vortragender: Tariq Doukkali Attar; Vorbesprechung: Di, 13:00<br />

• XML 3<br />

• Mario Jeckle: XML Script 4<br />

• XML-Syntax (Wohlgeformtheit)<br />

• DTDs (Gültigkeit)<br />

• Namespaces<br />

3.2.2 XML Schema<br />

Vortragende: Enyi Ai; Vorbesprechung: Di, 13:00<br />

• XML Schema 5<br />

• Mario Jeckle: XML Script 6<br />

3 http://www.w3.org/XML/<br />

4 http://www.jeckle.de/vorlesung/xml/index.html<br />

5 http://www.w3.org/XML/Schema<br />

6 http://www.jeckle.de/vorlesung/xml/index.html<br />

3


3.2.3 Resource Description Framework (RDF)<br />

Vortragender: Peter Hüsken; Vorbesprechung: Di, 13:30<br />

• RDF 7<br />

• Semantic Web 8<br />

• RDF Schema 9<br />

• RDF <strong>und</strong> XML 10<br />

3.2.4 RDF-Anfragesprachen<br />

Vortragender: Michael Günnewig; Vorbesprechung: Di, 13:30<br />

• RDF Query Specification 11<br />

• RDF Query Languages: A state-of-the-art 12<br />

• A Query and Inference Service for RDF 13<br />

• The RDF Query Language (RQL) 14<br />

3.2.5 Einführung: Wissensrepräsentation für Texte, Freitextsuche<br />

Vortragende: Andrea Ernst; Vorbesprechung: Di, 14:30<br />

• [Fuhr 96]<br />

• syntaktische Verfahren<br />

3.2.6 Einführung: Information Extraction (× 2)<br />

Vortragende: Hoi-Ming Wong <strong>und</strong> Oliver Gendera; Vorbesprechung: Di, 15:00<br />

• Appelt/Israel: Introduction to Information Extraction Technology 15<br />

7 http://www.w3.org/RDF/<br />

8 http://www.w3.org/2001/sw/<br />

9 http://www.w3.org/TR/2000/CR-rdf-schema-20000327/<br />

10 http://www.w3.org/TR/2001/WD-rdf-syntax-grammar-20011218/<br />

11 http://www.w3.org/TandS/QL/QL98/pp/rdfquery.html<br />

12 http://139.91.183.30:9090/RDF/publications/state.html<br />

13 http://www.w3.org/TandS/QL/QL98/pp/queryservice.html<br />

14 http://139.91.183.30:9090/RDF/RQL/<br />

15 http://www.ai.sri.com/~appelt/ie-tutorial/<br />

4


• Message Understanding Conference MUC 6 16 and MUC 7 17<br />

• Ralph Grishman: Information Extraction: Techniques and Challenges 18<br />

• Baluja et al.: Applying Machine Learning for high Performance Named-Entity Extraction<br />

19<br />

• Seminar über Maschinelle Lernverfahren für Informationsextraktion <strong>und</strong> Text Mining. 20<br />

Insbesondere zu empfehlen sind die Kompakteinführungen sowie die Einführungsvorträge<br />

(Text- / Data-Mining-Beträge können vernachlässigt werden). Der Einführungsvortrag<br />

zu Text-Mining enthält noch eine Beschreibung der MUC-Konferenzen.<br />

3.2.7 Wissensextraktion, informatischer Ansatz<br />

Vortragende: Thao Ho; Vorbesprechung: Di, 14:00<br />

• Jedi [Huck et al. 98]<br />

• MarkitUp! [Fankhauser & Xu 94]<br />

3.2.8 Wissensextraktion für die deutsche Sprache<br />

Daniel Chernuchin; Vorbesprechung: Do, 15:30<br />

• Rostek et al.: TATOE - Text Analysis Tool with Object Encoding 21 ; Lothar Rostek:<br />

Marking up in TATOE and exporting to SGML - Rule development for identifying NITF<br />

categories 22<br />

• Neumann et al.: An Information Extraction Core System for Real World German Text<br />

Processing 23<br />

• W. Lezius: Das Morphologiesystem Morphy 24<br />

16 http://www.cs.nyu.edu/cs/faculty/grishman/muc6.html<br />

17 http://www.itl.nist.gov/iad/894.02/related_projects/muc/proceedings/muc_<br />

7_toc.html<br />

18 http://www.cs.nyu.edu/cs/projects/proteus/muc/ie-survey-frascati-97.ps<br />

19 http://www.ri.cmu.edu/pubs/pub_3004.html<br />

20 http://www.dfki.de/~neumann/ml-seminar.html<br />

21 http://www.darmstadt.gmd.de/~rostek/tatoe.htm<br />

22 http://www.cs.queensu.ca/achallc97/papers/p029.html<br />

23 http://www.dfki.de/~neumann/publications/new-ps/smes-anlp97.ps.gz<br />

24 http://www-psycho.uni-paderborn.de/lezius/<br />

5


3.2.9 LaSIE–A system for Large Scale Information Extraction<br />

Vortragender: Sascha Hennig; Vorbesprechung: Do, 11:00<br />

• Wissensextraktion, Computer-linguistischer Ansatz<br />

• [Gaizauskas et al. 95]<br />

• University of Sheffield: Description of the LaSIE-II System as Used for MUC-7 25<br />

• University of Sheffield TREC-9 QA System 26<br />

3.2.10 Information Extraction with LTG Tools<br />

Vortragender: Nebil Nouri; Vorbesprechung: Do, 11:30<br />

• Wissensextraktion, Computer-linguistischer Ansatz<br />

• The Language Technology Group 27 (University of Edinburgh)<br />

• Description of the LTG System Used for MUC-7 28<br />

4 Spezialisten gesucht<br />

Für die verschiedenen Werkzeuge, die während der PG-Laufzeit eingesetzt werden sollen (<strong>und</strong><br />

die ihr auch schon bei der Vorbereitung des Seminars einsetzen sollt), suchen wir Spezialisten,<br />

die bereit sind, sich tiefergehend mit dem jeweiligen Werkzeug auseinandersetzen <strong>und</strong> dann<br />

als Ansprechpartner für die anderen zur Verfügung stehen.<br />

Perl XML / RDF-Tools<br />

Java XML / RDF-Tools<br />

CVS<br />

Emacs Programmieren, XML <strong>und</strong> L A TEX mit Emacs<br />

Unix, KDE, SW Kontakt zur IRB<br />

L A T E X<br />

25 http://www.itl.nist.gov/iad/894.02/related_projects/muc/proceedings/muc_<br />

7_proceedings/sheffield_muc7.pdf<br />

26 http://trec.nist.gov/pubs/trec9/papers/shef-trec9-qa-final.pdf<br />

27 http://www.ltg.ed.ac.uk/<br />

28 http://www.itl.nist.gov/iad/894.02/related_projects/muc/proceedings/muc_<br />

7_proceedings/ltg_muc7.pdf<br />

6


5 Verschiedenes<br />

5.1 Accounts<br />

• Die (initialen kryptischen) Passwörter bestehen aus Groß- <strong>und</strong> Kleinbuchstaben sowie<br />

Ziffern, es sind keine Sonderzeichen ent- halten. Wegen der Ähnlichkeit gewisser Zeichen<br />

zueinander sind auch keine [iloILO01] enthalten.<br />

• Die Passwörter sollten sofort nach Erhalt geändert werden (mit passwd).<br />

• Bei der Gelegenheit sollte auch gleich die Login-Shell ausgetauscht werden:<br />

goevert2@kreuz(/home/pg408/goevert2) {8}: passwd -r nis -e<br />

Enter login(NIS) password:<br />

Old shell: /bin/csh<br />

New shell: /usr/local/bin/bash<br />

NIS passwd/attributes changed on plisch<br />

• Um eine Standard-Benutzungsumgebung mit KDE zu erhalten, kopiere man sich die<br />

Benutzungsumgebung von mir. Folgende Kommandos sind dazu notwendig:<br />

cd ~goevert2<br />

cp .bashrc .dtprofile .emacs .emacs.custom .inputrc ~<br />

cd<br />

ln -s .bashrc .bash_profile<br />

Beim nächsten Einloggen erscheint dann das KDE, welches man dann nach eigenen<br />

Gutdünken konfigurieren kann.<br />

• Jeder einzelne ist unter der Adresse @kellergb5.cs.uni-dortm<strong>und</strong>.<br />

de erreichbar. Kommunikation unsererseits erfolgt ab jetzt gr<strong>und</strong>sätzlich über diese<br />

Adressen. Wer sich die Mails an andere Accounts weiterleiten lassen möchte, legt dazu<br />

in seinem Home-Verzeichnis eine .forward-Datei an. Hier der Inhalt meiner .forward-<br />

Datei:<br />

goevert2@kellergb5<br />

vasari@ls6.cs.uni-dortm<strong>und</strong>.de<br />

Die erste Zeile sorgt dafür, dass eine Kopie meiner Mails immer auf den PG-Rechnern<br />

verbleibt; die zweite Zeile sorgt für die Weiterleitung an die genannte Adresse.<br />

• Es gibt einen PG-Mailalias, über den alle Mitglieder <strong>und</strong> Betreuer erreicht werden:<br />

pg408@kellergb5.cs.uni-dortm<strong>und</strong>.de. Die Betreuer erreicht man auch über<br />

vasari@ls6.cs.uni-dortm<strong>und</strong>.de.<br />

• Die Maschinen stehen in GB V / 010, GB V / 011, GB V / 013.<br />

7


• Die Maschinen sind von ausserhalb des Pools nur via ssh erreichbar.<br />

• Um das System besser kennen zu lernen, empfehle ich die Lektüre der IRB-Anleitungen 29 .<br />

Bei Problemen fragt am besten den Nachbarn oder schickt eine Email.<br />

5.2 Vasari-Homepage<br />

Vasari 30<br />

5.3 PG-Treffen<br />

• in der Vorlesungszeit: 2× wöchentlich<br />

• bis dahin: keine<br />

5.4 Fragen<br />

6 Tipps für den Vortrag<br />

Für den Vortrag stellen wir Folien <strong>und</strong> Beamer mit Laptop (Acroread, GV, MS <strong>Off</strong>ice 2000)<br />

zur Verfügung. Folien <strong>und</strong> Schreiber sind bei uns erhältlich.<br />

Formuliere die 3 wesentlichen Thesen deines Vortrages<br />

Formuliere zuerst die Thesen, bevor du den Vortrag entwickelst. Diese Thesen sollen<br />

bei den Zuhörern haften bleiben – insbesondere, nachdem sie noch 10 andere Vorträge<br />

gehört haben. Kannst du diese Thesen nicht formulieren, dann hast du den Stoff noch<br />

nicht genügend aufgearbeitet. Ausgehend von den Thesen wird dann der Vortrag entwickelt:<br />

Was alles muss ich den Zuhörern erzählen, um die Thesen zu verdeutlichen,<br />

<strong>und</strong> welche Voraussetzungen muss ich zusätzlich noch vermitteln.<br />

Stelle deinen Zuhörern die Gliederung deines Vortrages vor<br />

Die Gliederung deines Vortrages sollte den Zuhörern klar werden. Am besten stellt man<br />

zu Anfang die Gliederung kurz vor, damit die Zuhörer wissen, „wohin die Reise geht“.<br />

Bemühe dich um Anschaulichkeit – benutze Beispiele<br />

Nur in Ausnahmefällen sollte man komplexere technische Details formal korrekt beschreiben<br />

– die Teilnehmer des Seminars können sich diese auch später noch selbst erarbeiten.<br />

Besser ist es, anhand von Beispielen die wesentlichen Konzepte zu erläutern.<br />

Ein Bild sagt mehr als 1000 Worte!<br />

29 http://irb-www.cs.uni-dortm<strong>und</strong>.de/<br />

30 http://ls6-www.cs.uni-dortm<strong>und</strong>.de/vasari/<br />

8


Plane pro Folie mindestens 2–3 Minuten Redezeit ein<br />

Niemand kann schneller reden (höchstens um den Preis, dass keiner mehr etwas versteht).<br />

Für 60 Minuten Redezeit kann man also höchstens 25 Folien einplanen!<br />

Schriften kleiner als 18 Punkte (5 mm) sind auf Folien nicht lesbar<br />

Computerausdrucke müssen entsprechend vergrößert werden. Mit Stiften beschriebene<br />

Folien kommen auch meist sehr gut an.<br />

Halte einen Probevortrag<br />

Erst bei einem Probevortrag merkt man, wo „es noch klemmt“ im Vortrag, <strong>und</strong> wieviel<br />

Zeit man wirklich benötigt (vor vielen Leuten braucht man meist noch mehr Zeit als<br />

allein oder bei nur einem Zuhörer).<br />

Rede zum Publikum hin<br />

Overheadfolien bieten die Möglichkeit, auf die Folie zu zeigen <strong>und</strong> gleichzeitig zu reden.<br />

Möchte man an der Tafel oder auf der Projektion etwas zeigen, gilt: Touch – Turn<br />

– Talk.<br />

Ratschläge für einen schlechten Redner 31 erteilt Tucholsky. . .<br />

7 Hinweise zur Ausarbeitung<br />

Für die Ausarbeitung soll L A TEX verwendet werden, welches auch im späteren Verlauf der PG<br />

für die Dokumentation verwendet. Eine frühestmögliche Einarbeitung hilft, späteren „Dokumentationsstau“<br />

zu vermeiden.<br />

Hinweise zu L A TEX <strong>und</strong> verwandten Themen finden sich auf der Homepage des AK TEX 32 Zu<br />

L A TEX 2εgibt es auf den Fachbereichsrechnern eine Kurzbeschreibung 33 . Weitere Dokumentation<br />

gibt es bei DANTE e. V. 34 .<br />

Ein L A TEX-Template für die Anfertigung der Ausarbeitung zum Seminarvortrag sowie eine Einführung<br />

in L A TEX stehen auf den PG-Rechnern unter dem Verzeichnis /home/pg408/share/sw/tex-add<br />

zur Verfügung.<br />

Die Ausarbeitung muss mindestens 24 St<strong>und</strong>en vor Abreise zum Seminar eingereicht werden,<br />

damit wir sie rechtzeitig vervielfältigen können.<br />

31 http://ls6-www.cs.uni-dortm<strong>und</strong>.de/ir/teaching/seminars/dido/tucholsky.<br />

html<br />

32 http://ls1-www.informatik.uni-dortm<strong>und</strong>.de/~lehmke/AK-TeX/<br />

33 file:/app/unido-inf/sun4_56/tetex/1.0.6/texmf/doc/latex/general/l2kurz.<br />

dvi<br />

34 http://www.dante.de/<br />

9


Literatur<br />

Fankhauser, P.; Xu, Y. (1994). MarkItUp! An incremental approach to document<br />

structure recognition. In: Proceedings of the Conference on Electronic<br />

Publishing, Document Manipulation and Typography (EP ’94). Darmstadt.<br />

ftp://ftp.darmstadt.gmd.de/pub/oasys/reports/P-94-07.ps.Z.<br />

Fuhr, N. (1996). Information Retrieval. Skriptum zur Vorlesung. Technischer Bericht, Universität<br />

Dortm<strong>und</strong>, Fachbereich Informatik. http://ls6-www.cs.uni-dortm<strong>und</strong>.<br />

de/ir/teaching/lectures/ir_ws00-01/.<br />

Gaizauskas, R.; Wakao, T.; Humphreys, K.; Cunningham, H.; Wilks, Y. (1995). University<br />

of Sheffield: Description of LaSIE System as Used for MUC-6. In: Proceedings of<br />

the MUC-7. Morgan Kaufmann. ftp://ftp.dcs.shef.ac.uk/home/hamish/<br />

lasie_muc6.ps.<br />

Huck, G.; Fankhauser, P.; Aberer, K.; Neuhold, E. J. (1998). Jedi: Extracting and Synthesizing<br />

Information from the Web. In: Proceedings of the 3rd IFCIS International Conference<br />

on Cooperative Information Systems, New York, August 20-22, 1998, S. 32–43.<br />

IEEE-CS.<br />

Weitere Referenzen sowie Volltexte lassen sich in der BIBDB 35 finden. Außerdem stehen zur<br />

Literatursuche<br />

• die einschlägigen digitalen Bibliotheken im Internet (z. B. über Daffodil 36 ) sowie<br />

• das das Angebot der Universitätsbibliothek 37<br />

zur Verfügung.<br />

35 http://ls6-www.cs.uni-dortm<strong>und</strong>.de/bib/bibdb.html<br />

36 http://www.daffodil.de/<br />

37 http://www.ub.uni-dortm<strong>und</strong>.de/Fachinformation/Informatik.html<br />

10

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!