Breindl_Walter_Der_Ausdruck_von Kausalität_2009.pdf
Breindl_Walter_Der_Ausdruck_von Kausalität_2009.pdf
Breindl_Walter_Der_Ausdruck_von Kausalität_2009.pdf
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
2. Datenbasis und Methode<br />
In diesem Kapitel werden wir die verwendeten Daten vorstellen. Wir beschränken<br />
uns in unserer Analyse auf den Bereich der geschriebenen Sprache.<br />
Zur Kodierung <strong>von</strong> <strong>Kausalität</strong> und Konditionalität in der gesprochenen Sprache<br />
gibt es zwar eine Reihe <strong>von</strong> Untersuchungen, die auch die prosodische<br />
Realisierung einbeziehen (vgl. Gohl 2000, 2002, 2006; Günthner 2002, 2003;<br />
Volodina 2007), der aktuelle Stand der verfügbaren Korpora der gesprochenen<br />
Sprache im Deutschen 11 erlaubt aber zum gegenwärtigen Zeitpunkt keine vergleichbare<br />
Untersuchung, wie wir sie hier für den Bereich der geschriebenen<br />
Sprache vorlegen. Bevor wir im zweiten Abschnitt das methodische Vorgehen<br />
bei der Auswahl, der Analyse und der Auswertung der Daten skizzieren, werden<br />
wir im ersten Abschnitt das unserer Studie zugrunde liegende Deutsche<br />
Referenzkorpus DeReKo beschreiben.<br />
2.1 Das Deutsche Referenzkorpus DeReKo<br />
Das Deutsche Referenzkorpus 12 ist eine Sammlung <strong>von</strong> mehreren Korpora, die<br />
am Institut für Deutsche Sprache Mannheim kompiliert wurden. DeReKo umfasste<br />
zum Zeitpunkt der Abfrage am 8.4.2008 insgesamt 7 022 872 Texte mit<br />
1 828 805 828 Wörtern in 2 086 Dokumenten 13 und ist damit das größte Korpus<br />
der deutschen Sprache. Es enthält Zeitungen, Sach- und Fachtexte sowie belletristische<br />
Literatur aus Deutschland, Österreich und der Schweiz <strong>von</strong> 1772 bis<br />
2008. <strong>Der</strong> überwiegende Teil besteht aus Texten der Gegenwartssprache. Die<br />
Zusammensetzung des Korpus, insbesondere die hohe Anzahl <strong>von</strong> Zeitungstexten,<br />
führt zu Effekten, die wir in Kap. 4 an mehreren Stellen problematisieren.<br />
Die Daten sind mit Metainformationen verknüpft, sodass der situative Kontext,<br />
d.h. die chronologische Einordnung, die Textsorte etc., rekonstruiert werden<br />
kann. Nur ein verschwindend geringer Teil der Daten ist annotiert, d.h.<br />
spezifische Informationen – beispielsweise über die Zugehörigkeit eines Elements<br />
zu einer Wortart oder zu grammatischen Funktionen – sind weder automatisch<br />
noch manuell zu den Primärdaten hinzugefügt worden (zur Unterscheidung<br />
<strong>von</strong> Primärdaten, Metadaten und Annotationen vgl. z.B. Lemnitzer /<br />
Zinsmeister 2006, S. 44-50 sowie S. 60-100).<br />
11<br />
Zum aktuellen Stand des Deutschen Spracharchivs vgl. http://dsav-wiss.ids-mannheim.de/. Zu<br />
gesprochensprachlichen Korpora allgemein vgl. Wichmann (2008).<br />
12<br />
Vgl. zur Zusammensetzung http://www.ids-mannheim.de/kl/projekte/korpora/.<br />
13<br />
Zur Terminologie und zur Geschichte des Korpus vgl. Perkuhn et al. (2005).