Präsentation - Landesregierung Nordrhein-Westfalen

nrw.de

Präsentation - Landesregierung Nordrhein-Westfalen

Zukunftsforum „Digitale Bürgerbeteiligung“

Düsseldorf, 17.05.2013

Parlamentsdebatten in 3D?!

Prof. Dr. Andreas Blätte

Juniorprofessur für Politikwissenschaft der Stiftung Zukunft NRW


Vom Versuch, Integrationsdiskurse

sprachtechnologisch zu analysieren …

Ein Netz der Schlagworte der Integrationspolitik

hier: integrationspolitische Reden von CDU‐

Abgeordneten im Landtag NRW in der 14. WP

Berechnung von Schlagworten

Berechnung des überzufällig häufigen gemeinsamen

Auftretens von Schlagworten

Die Visualisierung von „Knoten“ und „Kanten“:

Farbe der Knoten ‐> Wortart

Größer der Knoten ‐> Frequenz

Stärke der Kanten ‐> Stärke des statistischen Tests


These: Die XMLifizierung von Plenarprotokollen

kann demokratische Transparenz fördern.

I. Was heißt das: „XML“ ‐ „Parlamentsprotokollkorpus“?

II. Warum betreibt ein Politikwissenschaftler Sprachtechnologie?

III. Wo steht das „PolMine“‐Projekt?

IV. Wie kann und könnte man das alles nutzen?

V. Wozu könnte das alles gut sein?


WAS

IST „XML“ UND EIN „PARLAMENTSPROTOKOLLKORPUS“?


Ein Plenarprotokollkorpus:

Das Ziel der „XMLifizierung“

•Was ist ein Korpus?

Eine Sammlung maschinell verarbeitbaren Texts

• Auszeichnungssprache XML (Extensible Markup Language):

Maschinelle Verarbeitung semistrukturierter Daten

• Verwandte Projekte:

Europarl‐Korpus | bundestagger.de | DutchParl (Marx et al.) |

parlando.de (Scharloth/Bubenhofer)

• PolMine‐Plenarprotokollkorpus:

Plenarprotokolle aller BT‐ und LT‐Debatten aller Wahlperioden, in

die der 01.01.2000 fällt


Was ist im Korpus annotiert?

• Strukturelle Annotation

Metainformationen: Ort, Bundesland, Wahlperiode,

Sitzungsnummer, Datum

Tagesordnungspunkte

Redner: Funktion und Parteizugehörigkeit

Zwischenrufe

Absätze

Sätze

• Linguistische Annotation

Wortform

Part‐of‐Speech

Lemma


Beispiel: Annotation eines Zwischenrufs


Herzlich ADJD herzlich

willkommen ADJD willkommen

! $. !





( $( (

Heiterkeit NN Heiterkeit

und KON und

Beifall NN Beifall

bei APPR bei

SPD NE SPD

und KON und

CDU NE CDU

) $( )





Ich PPER ich

begrüße VVFIN begrüßen

die ART d

Herrschaften NN Herrschaft


WO

STEHT DAS POLMINE‐PROJEKT?


Automatisierung durch Reguläre Ausdrücke

Rohdaten (PlPr)

Brigitte Pothmer (BÜNDNIS 90/DIE GRÜNEN):

Herr Präsident! Meine Damen und Herren! Um es gleich vorweg zu sagen: Meine

Fraktion unterstützt die Angleichung der Regelsätze in West und Ost. Wir fordern das

seit langem. […]

(Beifall beim BÜNDNIS 90/DIE GRÜNEN – Klaus

s/^(.*?)\s(.*?)://

reguläre Ausdrücke

Korpus (XML)


Herr Präsident! Meine Damen und Herren! Um es gleich vorweg zu sagen: Meine Fraktion

unterstützt die Angleichung der Regelsätze in West und Ost. Wir fordern das seit langem. […]


Beifall beim BÜNDNIS 90/DIE GRÜNEN – Klaus Brandner [SPD]: Ein gemeinsamer Gesetzentwurf

von Rot‐Grün!


[…]


Aufbereitung des PolMine‐Plenarprotokollkorpus


PolMine‐Plenardebattenkorpora (PDK)

•html‐Rohdaten

Landtag NordrheinWestfalen (06/2000 ‐ 05/2012)

•txt‐Rohdaten

Deutscher Bundestag (1996 ‐ 2008 und 2010‐2013)

• pdf‐Rohdaten

alle Landtage seit 2000

Bundestag und Bundesrat seit 2000


Plenarprotokollkorpus [pdf]

ab WP/Jahr Wahltag Protokolle

Bund

BT Deutscher Bundestag 14 27.09.1998 875

BR Bundesrat ‐‐‐ 155

Landtage

BB Landtag Brandenburg 3 05.09.1999 227

BE Abgeordnetenhaus Berlin 14 10.10.1999 228

BW Landtag von Baden‐Württemberg 12 24.03.1996 378

BYL Bayerischer Landtag 14 13.09.1998 359

HB Bremische Bürgerschaft 15 06.06.1999 217

HE Hessischer Landtag 15 07.02.1999 413

HB Hamburgische Bürgerschaft 16 21.09.1997 363

MV Landtag Mecklenburg‐Vorpommern 3 27.09.1998 314

NI Landtag Niedersachsen 14 01.03.1998 370

NW Landtag NordrheinWestfalen 12 14.05.1995 486

RP Landtag Rheinland‐Pfalz 13 24.03.1996 383

SH Landtag Schleswig‐Holstein 14 24.03.1996 297

SL Landtag des Saarlandes 12 05.09.1999 172

SN Sächsischer Landtag 3 19.09.1999 318

SN Landtag von Sachsen‐Anhalt 3 26.04.1998 267

TH Thüringer Landtag 3 12.09.1999 322

SUMME 6144


Plenarprotokollkorpus NRW [html]

Zahl der Debatten

Zahl der Token

2005 138 927.716

2006 281 2.383.422

2007 333 2.400.118

2008 324 2.091.586

2009 324 2.386.793

2010 264 2.036.921

2011 313 2.505.233

2012 32 234.115

2005-2012 2.009 14.967.931

• Klassifikation der Landtagsdebatten (online) verfügbar

→ Unter- und Oberkategorien


WARUM

MACHT EIN POLITIKWISSENSCHAFTLER SO ETWAS?


Bundestag und Landtage: Wo fallen mehr Worte?

30.000.000

25.000.000

Wörter in Plenarprotokollen

20.000.000

15.000.000

10.000.000

Bundestag

Summe Länder

5.000.000

0

2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011

Jahr


Der Wortumfang der Plenarprotokolle im Vergleich

4.500.000

durchschnittliche Zahl der Wörter pro Jahr

4.000.000

3.500.000

3.000.000

2.500.000

2.000.000

1.500.000

1.000.000

500.000

0

BT NW NI HE TH SN MV BW SH BYL BE BB HH HB RP ST SL BR


durchschnittl. Wortzahl pro Abgeordneter pro Jahr

25000

20000

15000

10000

5000

0

MV TH SH HE SL SN BB HB NI RP BW HH ST NW BE BYL BT


Hirschman‐Herfindahl‐Index als Konzentrationsmaß:

HHI

Konzentrationsmessung / Auswertung

N

2

a mit ai

i 1

i

tf

i

/


tf

mit

a

i


N


x

j 1

i

x

j


Konzentration und Dezentrierung: Trends


Zielgruppenkonstruktionen:

Kookurenzanalyse


WIE

LÄSST SICH DAS NUTZEN?


Skizze Softwarearchitektur für Korpusanalyse

Web-

Applikationen

(Grafische

Benutzeroberfläc

he)

Rstudio

Server

shiny-

Web-

Applikationen

PHP-Wrapper

zu R-Funktionen

CQPweb

TXM

Implementierung

und Entwicklung

statistischer

Methoden der

Korpusanalyse

R

polminer

weitere Pakete

rcqp (Interface zur CWB)

Korpusverwaltung

Korpusverwaltung:

CWB/CQP

indiziertes Korpus

Korpora

(XML, *.vrt)

Korpus

1

Korpus

2

Korpus

3


CQPweb als Graphische Benutzeroberfläche


WOZU

KÖNNTE DAS GUT SEIN?


PolMine Quiz

START


4. Von wem stammt der längste Satz

in der 14. WP NRW ?

A: B:

Dr. Jürgen Rüttgers

Prof. Dr. Andreas Pinkwart

C: D:

Armin Laschet

Roswitha Müller-

Piepenkötter


3. Wer zitiert am häufigsten Karl Marx

in der 14. WP in NRW ?

A: B:

Dr. Helmut Linssen

Norbert Römer

C: D:

Christian Lindner

Dr. Michael Vesper


10. Wer ist der wortreichste Redner / die

wortreichste Rednerin der 14. WP in NRW ?

A: B:

Hanelore Kraft

Gerhard Papke

C: D:

Sylvia Löhrmann

Armin Laschet


Szenario 2: (Komplexe) Suche im Volltext

•Wer hat wann zuerst von „open government“ oder

„open parliament“ gesprochen?

„open“%c „government“%c | „open“%c „parliament“%c

•Wo tauchen „Kugeln“ und „Jülich“ in einem Satz auf?

„Kugeln“ []* „Jülich“ within s

•Wie wird das Verhältnis von „Staat“ und „Markt“

definiert?

„Staat“ []* „Markt“ within s

•Wie thematisieren Sprecher verschiedener

Fraktionen die soziale Dimension der Energiewende?

a:“sozial.*“ []* „Energie.*“::a.speaker_party=„FDP“


Szenario 3: Erschließung digitaler Materialien

Was steckt in den

Dokumenten?

hier:

Schlagwörter der

integrationspolitischen

Debatten 2005‐2012


Zur Diskussion gestellt

•Die Chance: Datenzugriff XXL

•Grenzen:

– der Daten:

Beschränkung auf Plenarprotokolle

– der Technik:

rechenintensive Korpusabfragen

– der Benutzerfreundlichkeit:

Sperrige Abfragesprache

• Und: Wem nutzt das alles?


polmine.sowi.uni‐due.de | www.polmine.de


ANHANG


Linguistische Annotation

Linguistische Informationen:

‐ Flektierte Wortform (Token)

‐ Wortart (Type)

‐ Grundform des Wortes (Lemma)


Strukturelle Annotation: XML nach DTD

Markierung des Anfangs einer Rede

Markierung des Endes einer Rede

Weitere Magazine dieses Users
Ähnliche Magazine