Einsichten - Ludwig-Maximilians-Universität München

Die digitale Gesellschaft: Text und Terabyte 

nungsquoten von 95 bis 99,5 Prozent erreichen, 

mehr schaffen die Systeme nicht. Bei 

gut gedruckten, gut erhaltenen Texten in 

lateinischer Schrift können die Informatiker 

Das diakritische 

Zeichen, ein 

Fliegendreck 

die Fehlerraten bei Standardtexten ohne 

allzu viele seltene Wörter und bei optimaler 

Scan-Qualität auf weniger als 0,5 Prozent 

drücken. „Je klarer einzelne Schriftzeichen 

und Buchstaben voneinander getrennt sind, 

umso leichter kann der Computer die Zeichen 

automatisch scannen“, sagt Schütze. 

„Am leichtesten ist das lateinische Alphabet 

zu erfassen, schwer ist die Fraktur-Schrift, 

am schwierigsten die für Urdu, das in Pakistan 

gesprochen wird, verwendete Nastaliq- 

Schrift und viele indischen Schriften.“ 

Doch selbst bei optimalen Bedingungen 

und lateinischer Schrift: Ein Restfehler wird 

wohl immer bleiben, man kann ihn nur 

minimieren. Um sämtliche Fehler zu eliminieren, 

müssen die OCR-Daten manuell von 

Altphilologen korrigiert werden. „Nachkorrigierte 

OCR-Texte sind im Übrigen besser 

als nur von Menschen erfasste Texte, denn 

auch Menschen machen Fehler“, betont 

Schütze. „Die Text-Erfassung bleibt jedenfalls 

ein überaus interessantes Forschungsfeld, 

auf dem sich aktuell viel tut.“ 

Eine Fehlerrate des Computersystems von 

0,5 Prozent auf Buchstabenebene bedeutet 

immer noch, dass auf jeder digital erfassten 

Seite bis zu zehn Fehler wären. Also arbeiten 

die Forscher in München nun daran, 

Sprachmodelle für die jeweiligen speziellen 

Anwendungen zu entwickeln, die OCR-Verfahren 

immer dann ergänzen, wenn das System 

unsicher ist, etwa weil ein Wort selten 

ist oder es eine Wortendung nicht erkennt. 

Mithilfe neuronaler Netze lernen die Systeme, 

immer besser zu entscheiden. Im 

Lateinischen etwa machen die vielen möglichen 

Wortendungen Probleme. Schütze 

und sein Team wollen deshalb ein formales 

komputationelles Modell der lateinischen 

Morphologie erstellen, das eine beliebige 

Wortform sowohl erzeugen als auch grammatisch 

analysieren kann. „Hier sind wir in 

München Pioniere“, sagt Schütze. „Wir wollen 

das Tool der Welt zur Verfügung stellen, 

auch Greg Crane würde davon profitieren.“ 

Bei jeder Sprache und jedem Schrifttyp gibt 

es solche speziellen Herausforderungen für 

die Informatiker. Die Leipziger Forscher 

etwa haben bei Altgriechisch Probleme mit 

den vielen sogenannten diakritischen Zeichen, 

die wichtig für die Betonung der 

Worte sind. „Die sind sehr klein und lassen 

sich deshalb oft nicht von Fliegendreck auf 

den Schriften unterscheiden“, sagt Schütze. 

Trotz aller Hindernisse finden die Computerverfahren 

zunehmend Akzeptanz unter Geisteswissenschaftlern, 

die Zahl der interdisziplinären 

Projekte wächst stetig. So gibt es 

ein Vorhaben am CIS gemeinsam mit Philosophen, 

um den Nachlass Ludwig Wittgensteins 

besser zugänglich zu machen und die 

Werke, auf die der Philosoph Bezug nimmt, 

in einer digitalen Bibliothek zu erfassen. 

Archäologen haben Interesse, Auswertungstools 

für ihre Datenbanken zu entwickeln. 

Mit den neuen Techniken werden sich nützliche 

Werkzeuge bereitstellen lassen, die 

Geisteswissenschaftler müssen nur damit zu 

arbeiten lernen. Idealerweise stellen die 

Informatiker ein leicht zu bedienendes professionelles 

Software-Produkt zur Verfügung. 

„Das aber ist in den Digital Humanities 

ein großes Problem, wir brauchen mehr 

professionelle Software-Entwickler, die gut 

bedienbare Schnittstellen für die Philologen 

entwerfen“, sagt Schütze. „Ohne solche 

Bedienoberflächen sinkt die Bereitschaft 

rapide, die neue Software zu nutzen.“ 

Ein Altphilologe kann dann verschiedene 

Texte am Bildschirm nach bestimmten Fragestellungen 

durchsuchen oder eine bestimmte 

These prüfen und muss nicht mehr 

Tage in der Bibliothek verbringen, um die 

Texte nebeneinander zu sehen. Er kann 

bequem nach Personen suchen, nach historischen 

Begegnungen, nach unbewiesenen 

Vermutungen. Digitale Bibliotheken 

lassen auch eine größere Flexibilität zu als 

etwa traditionelle Zettelarchive wie der 

Thesaurus Linguae Latinae. Immer mehr 

Texte werden elektronisch verfügbar sein, 

auch kommentierende Literatur und Kommentare 

lassen sich verlinken. 

Auch die Informatiker profitieren, denn mit 

ihrem Fachwissen helfen die Altphilologen, 

die Fehlerrate der Verfahren immer weiter 

zu verringern. Schütze hofft insgesamt auf 

Effekte, wie es sie auch nach Beginn des 

Internetzeitalters gab: „Anfangs war im 

World Wide Web auch nichts zu lesen und 

zu sehen, was es vorher nicht bereits 

irgendwo gegeben hätte. Das Wesentliche 

der Revolution war, dass man plötzlich alle 

Informationen sofort finden konnte. Menschen 

sehen die Dinge, die vorher nicht 

offensichtlich sind, oft erst dann, wenn alle 

Puzzleteile auf dem Tisch liegen.“• 

Prof. Dr. Hinrich Schütze 

ist seit Anfang 2013 Lehrstuhlinhaber für Computerlinguistik 

und Leiter des Centrums für Informations- und 

Sprachverarbeitung (CIS) an der LMU. Schütze, Jahrgang 

1964, studierte an den Universitäten Braunschweig und 

Stuttgart. 1995 promovierte er an der Stanford University, 

USA, und arbeitete anschließend am Xerox Palo Alto 

Research Center sowie bei Suchmaschinen- und Textmining-Firmen 

im Silicon Valley. 2004 wurde er Professor für 

Computerlinguistik an der Universität Stuttgart. 

Nummer 2 / 2013 Einsichten – Das Forschungsmagazin 

51

Vorherige Seite

Nächste Seite

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

Einsichten - Ludwig-Maximilians-Universität München

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?