Handout und Notizen vom Kick-Off
Handout und Notizen vom Kick-Off
Handout und Notizen vom Kick-Off
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Vasari: <strong>Kick</strong>-<strong>Off</strong><br />
Norbert Gövert<br />
Norbert Fuhr<br />
7. Februar 2002<br />
Inhaltsverzeichnis<br />
1 Vorstellungsr<strong>und</strong>e 2<br />
2 Seminar (Organisatorisches) 2<br />
3 Verteilung von Seminarthemen 3<br />
3.1 Zeitplan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3<br />
3.2 Themen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3<br />
4 Spezialisten gesucht 6<br />
5 Verschiedenes 7<br />
5.1 Accounts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />
5.2 Vasari-Homepage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />
5.3 PG-Treffen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />
5.4 Fragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />
6 Tipps für den Vortrag 8<br />
7 Hinweise zur Ausarbeitung 9<br />
Literatur 9<br />
1
1 Vorstellungsr<strong>und</strong>e<br />
Enyi Ai<br />
Tariq Doukkali Attar<br />
Daniel Chernuchin<br />
Andrea Ernst<br />
Oliver Gendera<br />
Michael Günnewig<br />
Sascha Hennig<br />
Thao Ho<br />
Peter Hüsken<br />
Nebil Nouri<br />
Hoi-Ming Wong<br />
enyi_ai@yahoo.com<br />
ai@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />
Attar@gmx.de<br />
doukkali@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />
daniel.chernuchin@gmx.de<br />
chernuch@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />
zora@johalla.de<br />
ernst@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />
ollige@gmx.de<br />
gendera@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />
guennewi@ls6.cs.uni-dortm<strong>und</strong>.de<br />
guennewi@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />
sh@cm-edv.de<br />
hennig@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />
thao.ho@gmx.de<br />
ho@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />
p.huesken@gmx.net<br />
huesken2@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />
nebil@gmx.de<br />
nouri@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />
Hoi-Ming.Wong@web.de<br />
wong@kellergb5.cs.uni-dortm<strong>und</strong>.de<br />
Norbert Fuhr fuhr@ls6.cs.uni-dortm<strong>und</strong>.de Tel. 02 31 / 7 55 - 20 45<br />
Norbert Gövert goevert@ls6.cs.uni-dortm<strong>und</strong>.de Tel. 02 31 / 7 55 - 30 32<br />
2 Seminar (Organisatorisches)<br />
• Termin (Vorschlag: Freitag, 19. April bis Sonntag, 21. April)<br />
• Ort (bewährt haben sich die JHs in Mülheim / Ruhr 1 <strong>und</strong> Hagen 2 )<br />
• Nebil Nouri übernimmt die Organisation.<br />
1 http://www.djh.de/02_jh/JHData.asp?ID_JH=458<br />
2 http://www.djh.de/02_jh/JHData.asp?ID_JH=363<br />
2
3 Verteilung von Seminarthemen<br />
Jeder bereitet einen Vortrag zu einem der „wissenschaftlichen“ Themen für das Seminar vor.<br />
Umfang etwa 45 Minuten, plus Fragen / Diskussion.<br />
3.1 Zeitplan<br />
• Jetzt: Themenvergabe<br />
• 12. <strong>und</strong> 14. Februar: Vorbesprechung<br />
• 18.–22. März (Halbzeit!): Präsentation eines ein- bis zweiseitigen „extended Abstract“<br />
• vor der Seminarfahrt: Abgabe der Ausarbeitung<br />
3.2 Themen<br />
3.2.1 Extensible Markup Language (XML)<br />
Vortragender: Tariq Doukkali Attar; Vorbesprechung: Di, 13:00<br />
• XML 3<br />
• Mario Jeckle: XML Script 4<br />
• XML-Syntax (Wohlgeformtheit)<br />
• DTDs (Gültigkeit)<br />
• Namespaces<br />
3.2.2 XML Schema<br />
Vortragende: Enyi Ai; Vorbesprechung: Di, 13:00<br />
• XML Schema 5<br />
• Mario Jeckle: XML Script 6<br />
3 http://www.w3.org/XML/<br />
4 http://www.jeckle.de/vorlesung/xml/index.html<br />
5 http://www.w3.org/XML/Schema<br />
6 http://www.jeckle.de/vorlesung/xml/index.html<br />
3
3.2.3 Resource Description Framework (RDF)<br />
Vortragender: Peter Hüsken; Vorbesprechung: Di, 13:30<br />
• RDF 7<br />
• Semantic Web 8<br />
• RDF Schema 9<br />
• RDF <strong>und</strong> XML 10<br />
3.2.4 RDF-Anfragesprachen<br />
Vortragender: Michael Günnewig; Vorbesprechung: Di, 13:30<br />
• RDF Query Specification 11<br />
• RDF Query Languages: A state-of-the-art 12<br />
• A Query and Inference Service for RDF 13<br />
• The RDF Query Language (RQL) 14<br />
3.2.5 Einführung: Wissensrepräsentation für Texte, Freitextsuche<br />
Vortragende: Andrea Ernst; Vorbesprechung: Di, 14:30<br />
• [Fuhr 96]<br />
• syntaktische Verfahren<br />
3.2.6 Einführung: Information Extraction (× 2)<br />
Vortragende: Hoi-Ming Wong <strong>und</strong> Oliver Gendera; Vorbesprechung: Di, 15:00<br />
• Appelt/Israel: Introduction to Information Extraction Technology 15<br />
7 http://www.w3.org/RDF/<br />
8 http://www.w3.org/2001/sw/<br />
9 http://www.w3.org/TR/2000/CR-rdf-schema-20000327/<br />
10 http://www.w3.org/TR/2001/WD-rdf-syntax-grammar-20011218/<br />
11 http://www.w3.org/TandS/QL/QL98/pp/rdfquery.html<br />
12 http://139.91.183.30:9090/RDF/publications/state.html<br />
13 http://www.w3.org/TandS/QL/QL98/pp/queryservice.html<br />
14 http://139.91.183.30:9090/RDF/RQL/<br />
15 http://www.ai.sri.com/~appelt/ie-tutorial/<br />
4
• Message Understanding Conference MUC 6 16 and MUC 7 17<br />
• Ralph Grishman: Information Extraction: Techniques and Challenges 18<br />
• Baluja et al.: Applying Machine Learning for high Performance Named-Entity Extraction<br />
19<br />
• Seminar über Maschinelle Lernverfahren für Informationsextraktion <strong>und</strong> Text Mining. 20<br />
Insbesondere zu empfehlen sind die Kompakteinführungen sowie die Einführungsvorträge<br />
(Text- / Data-Mining-Beträge können vernachlässigt werden). Der Einführungsvortrag<br />
zu Text-Mining enthält noch eine Beschreibung der MUC-Konferenzen.<br />
3.2.7 Wissensextraktion, informatischer Ansatz<br />
Vortragende: Thao Ho; Vorbesprechung: Di, 14:00<br />
• Jedi [Huck et al. 98]<br />
• MarkitUp! [Fankhauser & Xu 94]<br />
3.2.8 Wissensextraktion für die deutsche Sprache<br />
Daniel Chernuchin; Vorbesprechung: Do, 15:30<br />
• Rostek et al.: TATOE - Text Analysis Tool with Object Encoding 21 ; Lothar Rostek:<br />
Marking up in TATOE and exporting to SGML - Rule development for identifying NITF<br />
categories 22<br />
• Neumann et al.: An Information Extraction Core System for Real World German Text<br />
Processing 23<br />
• W. Lezius: Das Morphologiesystem Morphy 24<br />
16 http://www.cs.nyu.edu/cs/faculty/grishman/muc6.html<br />
17 http://www.itl.nist.gov/iad/894.02/related_projects/muc/proceedings/muc_<br />
7_toc.html<br />
18 http://www.cs.nyu.edu/cs/projects/proteus/muc/ie-survey-frascati-97.ps<br />
19 http://www.ri.cmu.edu/pubs/pub_3004.html<br />
20 http://www.dfki.de/~neumann/ml-seminar.html<br />
21 http://www.darmstadt.gmd.de/~rostek/tatoe.htm<br />
22 http://www.cs.queensu.ca/achallc97/papers/p029.html<br />
23 http://www.dfki.de/~neumann/publications/new-ps/smes-anlp97.ps.gz<br />
24 http://www-psycho.uni-paderborn.de/lezius/<br />
5
3.2.9 LaSIE–A system for Large Scale Information Extraction<br />
Vortragender: Sascha Hennig; Vorbesprechung: Do, 11:00<br />
• Wissensextraktion, Computer-linguistischer Ansatz<br />
• [Gaizauskas et al. 95]<br />
• University of Sheffield: Description of the LaSIE-II System as Used for MUC-7 25<br />
• University of Sheffield TREC-9 QA System 26<br />
3.2.10 Information Extraction with LTG Tools<br />
Vortragender: Nebil Nouri; Vorbesprechung: Do, 11:30<br />
• Wissensextraktion, Computer-linguistischer Ansatz<br />
• The Language Technology Group 27 (University of Edinburgh)<br />
• Description of the LTG System Used for MUC-7 28<br />
4 Spezialisten gesucht<br />
Für die verschiedenen Werkzeuge, die während der PG-Laufzeit eingesetzt werden sollen (<strong>und</strong><br />
die ihr auch schon bei der Vorbereitung des Seminars einsetzen sollt), suchen wir Spezialisten,<br />
die bereit sind, sich tiefergehend mit dem jeweiligen Werkzeug auseinandersetzen <strong>und</strong> dann<br />
als Ansprechpartner für die anderen zur Verfügung stehen.<br />
Perl XML / RDF-Tools<br />
Java XML / RDF-Tools<br />
CVS<br />
Emacs Programmieren, XML <strong>und</strong> L A TEX mit Emacs<br />
Unix, KDE, SW Kontakt zur IRB<br />
L A T E X<br />
25 http://www.itl.nist.gov/iad/894.02/related_projects/muc/proceedings/muc_<br />
7_proceedings/sheffield_muc7.pdf<br />
26 http://trec.nist.gov/pubs/trec9/papers/shef-trec9-qa-final.pdf<br />
27 http://www.ltg.ed.ac.uk/<br />
28 http://www.itl.nist.gov/iad/894.02/related_projects/muc/proceedings/muc_<br />
7_proceedings/ltg_muc7.pdf<br />
6
5 Verschiedenes<br />
5.1 Accounts<br />
• Die (initialen kryptischen) Passwörter bestehen aus Groß- <strong>und</strong> Kleinbuchstaben sowie<br />
Ziffern, es sind keine Sonderzeichen ent- halten. Wegen der Ähnlichkeit gewisser Zeichen<br />
zueinander sind auch keine [iloILO01] enthalten.<br />
• Die Passwörter sollten sofort nach Erhalt geändert werden (mit passwd).<br />
• Bei der Gelegenheit sollte auch gleich die Login-Shell ausgetauscht werden:<br />
goevert2@kreuz(/home/pg408/goevert2) {8}: passwd -r nis -e<br />
Enter login(NIS) password:<br />
Old shell: /bin/csh<br />
New shell: /usr/local/bin/bash<br />
NIS passwd/attributes changed on plisch<br />
• Um eine Standard-Benutzungsumgebung mit KDE zu erhalten, kopiere man sich die<br />
Benutzungsumgebung von mir. Folgende Kommandos sind dazu notwendig:<br />
cd ~goevert2<br />
cp .bashrc .dtprofile .emacs .emacs.custom .inputrc ~<br />
cd<br />
ln -s .bashrc .bash_profile<br />
Beim nächsten Einloggen erscheint dann das KDE, welches man dann nach eigenen<br />
Gutdünken konfigurieren kann.<br />
• Jeder einzelne ist unter der Adresse @kellergb5.cs.uni-dortm<strong>und</strong>.<br />
de erreichbar. Kommunikation unsererseits erfolgt ab jetzt gr<strong>und</strong>sätzlich über diese<br />
Adressen. Wer sich die Mails an andere Accounts weiterleiten lassen möchte, legt dazu<br />
in seinem Home-Verzeichnis eine .forward-Datei an. Hier der Inhalt meiner .forward-<br />
Datei:<br />
goevert2@kellergb5<br />
vasari@ls6.cs.uni-dortm<strong>und</strong>.de<br />
Die erste Zeile sorgt dafür, dass eine Kopie meiner Mails immer auf den PG-Rechnern<br />
verbleibt; die zweite Zeile sorgt für die Weiterleitung an die genannte Adresse.<br />
• Es gibt einen PG-Mailalias, über den alle Mitglieder <strong>und</strong> Betreuer erreicht werden:<br />
pg408@kellergb5.cs.uni-dortm<strong>und</strong>.de. Die Betreuer erreicht man auch über<br />
vasari@ls6.cs.uni-dortm<strong>und</strong>.de.<br />
• Die Maschinen stehen in GB V / 010, GB V / 011, GB V / 013.<br />
7
• Die Maschinen sind von ausserhalb des Pools nur via ssh erreichbar.<br />
• Um das System besser kennen zu lernen, empfehle ich die Lektüre der IRB-Anleitungen 29 .<br />
Bei Problemen fragt am besten den Nachbarn oder schickt eine Email.<br />
5.2 Vasari-Homepage<br />
Vasari 30<br />
5.3 PG-Treffen<br />
• in der Vorlesungszeit: 2× wöchentlich<br />
• bis dahin: keine<br />
5.4 Fragen<br />
6 Tipps für den Vortrag<br />
Für den Vortrag stellen wir Folien <strong>und</strong> Beamer mit Laptop (Acroread, GV, MS <strong>Off</strong>ice 2000)<br />
zur Verfügung. Folien <strong>und</strong> Schreiber sind bei uns erhältlich.<br />
Formuliere die 3 wesentlichen Thesen deines Vortrages<br />
Formuliere zuerst die Thesen, bevor du den Vortrag entwickelst. Diese Thesen sollen<br />
bei den Zuhörern haften bleiben – insbesondere, nachdem sie noch 10 andere Vorträge<br />
gehört haben. Kannst du diese Thesen nicht formulieren, dann hast du den Stoff noch<br />
nicht genügend aufgearbeitet. Ausgehend von den Thesen wird dann der Vortrag entwickelt:<br />
Was alles muss ich den Zuhörern erzählen, um die Thesen zu verdeutlichen,<br />
<strong>und</strong> welche Voraussetzungen muss ich zusätzlich noch vermitteln.<br />
Stelle deinen Zuhörern die Gliederung deines Vortrages vor<br />
Die Gliederung deines Vortrages sollte den Zuhörern klar werden. Am besten stellt man<br />
zu Anfang die Gliederung kurz vor, damit die Zuhörer wissen, „wohin die Reise geht“.<br />
Bemühe dich um Anschaulichkeit – benutze Beispiele<br />
Nur in Ausnahmefällen sollte man komplexere technische Details formal korrekt beschreiben<br />
– die Teilnehmer des Seminars können sich diese auch später noch selbst erarbeiten.<br />
Besser ist es, anhand von Beispielen die wesentlichen Konzepte zu erläutern.<br />
Ein Bild sagt mehr als 1000 Worte!<br />
29 http://irb-www.cs.uni-dortm<strong>und</strong>.de/<br />
30 http://ls6-www.cs.uni-dortm<strong>und</strong>.de/vasari/<br />
8
Plane pro Folie mindestens 2–3 Minuten Redezeit ein<br />
Niemand kann schneller reden (höchstens um den Preis, dass keiner mehr etwas versteht).<br />
Für 60 Minuten Redezeit kann man also höchstens 25 Folien einplanen!<br />
Schriften kleiner als 18 Punkte (5 mm) sind auf Folien nicht lesbar<br />
Computerausdrucke müssen entsprechend vergrößert werden. Mit Stiften beschriebene<br />
Folien kommen auch meist sehr gut an.<br />
Halte einen Probevortrag<br />
Erst bei einem Probevortrag merkt man, wo „es noch klemmt“ im Vortrag, <strong>und</strong> wieviel<br />
Zeit man wirklich benötigt (vor vielen Leuten braucht man meist noch mehr Zeit als<br />
allein oder bei nur einem Zuhörer).<br />
Rede zum Publikum hin<br />
Overheadfolien bieten die Möglichkeit, auf die Folie zu zeigen <strong>und</strong> gleichzeitig zu reden.<br />
Möchte man an der Tafel oder auf der Projektion etwas zeigen, gilt: Touch – Turn<br />
– Talk.<br />
Ratschläge für einen schlechten Redner 31 erteilt Tucholsky. . .<br />
7 Hinweise zur Ausarbeitung<br />
Für die Ausarbeitung soll L A TEX verwendet werden, welches auch im späteren Verlauf der PG<br />
für die Dokumentation verwendet. Eine frühestmögliche Einarbeitung hilft, späteren „Dokumentationsstau“<br />
zu vermeiden.<br />
Hinweise zu L A TEX <strong>und</strong> verwandten Themen finden sich auf der Homepage des AK TEX 32 Zu<br />
L A TEX 2εgibt es auf den Fachbereichsrechnern eine Kurzbeschreibung 33 . Weitere Dokumentation<br />
gibt es bei DANTE e. V. 34 .<br />
Ein L A TEX-Template für die Anfertigung der Ausarbeitung zum Seminarvortrag sowie eine Einführung<br />
in L A TEX stehen auf den PG-Rechnern unter dem Verzeichnis /home/pg408/share/sw/tex-add<br />
zur Verfügung.<br />
Die Ausarbeitung muss mindestens 24 St<strong>und</strong>en vor Abreise zum Seminar eingereicht werden,<br />
damit wir sie rechtzeitig vervielfältigen können.<br />
31 http://ls6-www.cs.uni-dortm<strong>und</strong>.de/ir/teaching/seminars/dido/tucholsky.<br />
html<br />
32 http://ls1-www.informatik.uni-dortm<strong>und</strong>.de/~lehmke/AK-TeX/<br />
33 file:/app/unido-inf/sun4_56/tetex/1.0.6/texmf/doc/latex/general/l2kurz.<br />
dvi<br />
34 http://www.dante.de/<br />
9
Literatur<br />
Fankhauser, P.; Xu, Y. (1994). MarkItUp! An incremental approach to document<br />
structure recognition. In: Proceedings of the Conference on Electronic<br />
Publishing, Document Manipulation and Typography (EP ’94). Darmstadt.<br />
ftp://ftp.darmstadt.gmd.de/pub/oasys/reports/P-94-07.ps.Z.<br />
Fuhr, N. (1996). Information Retrieval. Skriptum zur Vorlesung. Technischer Bericht, Universität<br />
Dortm<strong>und</strong>, Fachbereich Informatik. http://ls6-www.cs.uni-dortm<strong>und</strong>.<br />
de/ir/teaching/lectures/ir_ws00-01/.<br />
Gaizauskas, R.; Wakao, T.; Humphreys, K.; Cunningham, H.; Wilks, Y. (1995). University<br />
of Sheffield: Description of LaSIE System as Used for MUC-6. In: Proceedings of<br />
the MUC-7. Morgan Kaufmann. ftp://ftp.dcs.shef.ac.uk/home/hamish/<br />
lasie_muc6.ps.<br />
Huck, G.; Fankhauser, P.; Aberer, K.; Neuhold, E. J. (1998). Jedi: Extracting and Synthesizing<br />
Information from the Web. In: Proceedings of the 3rd IFCIS International Conference<br />
on Cooperative Information Systems, New York, August 20-22, 1998, S. 32–43.<br />
IEEE-CS.<br />
Weitere Referenzen sowie Volltexte lassen sich in der BIBDB 35 finden. Außerdem stehen zur<br />
Literatursuche<br />
• die einschlägigen digitalen Bibliotheken im Internet (z. B. über Daffodil 36 ) sowie<br />
• das das Angebot der Universitätsbibliothek 37<br />
zur Verfügung.<br />
35 http://ls6-www.cs.uni-dortm<strong>und</strong>.de/bib/bibdb.html<br />
36 http://www.daffodil.de/<br />
37 http://www.ub.uni-dortm<strong>und</strong>.de/Fachinformation/Informatik.html<br />
10