07.01.2013 Aufrufe

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

Konzeption und Implementierung eines ... - Stephan, Daniel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

103 9.1. TECHNISCHE PERSPEKTIVE<br />

Da die automatisch erzeugten Cluster rein statistisch begründet sind, fällt<br />

es mitunter schwer, nachzuvollziehen warum nun eine bestimmte Menge an<br />

Dokumenten zusammengruppiert wurde. Das ist immer dann der Fall, wenn<br />

Eigenschaften bzw. Begriffe zum Clustern herangezogen wurden, die wenig in-<br />

haltliche Aussagekraft haben. Um also qualitativ hochwertige, sinnvolle Cluster<br />

erzeugt zu bekommen, ist es von Nöten, die Begriffe manuell zu überprüfen <strong>und</strong><br />

all diese als Stoppwort zu deklarieren, die generell wenig über den Inhalt der<br />

Texte aussagen.<br />

Um dies zu belegen, seien nun einige Beispiele dargestellt, die jeweils in ein<br />

<strong>und</strong> demselben Cluster zusammegefasst wurden. Das erste Beispiel zeigt den<br />

Beginn <strong>eines</strong> Textes, der offenbar vom leicht gefallenen Dollarkurs handelt <strong>und</strong><br />

dass sich die Händler wegen der unklaren Situation zurückgehalten haben.<br />

” The dollar opened slightly lower in quiet trading, with dealers holding back<br />

ahead of the outcome of this week’s top-level international monetary talks in<br />

Washington. The dollar began here at 1.5128/5138 Swiss francs, down from<br />

the previous 1.5185/5195 close and the 1.5180/5190 francs in New York. Ho-<br />

wever, dealers were sceptical that anything other than a mere reaffirmation of<br />

February’s Paris Accord was likely to emerge from Washington.“<br />

Der nächste Absatz dagegen spricht von Schweinen. Deren Marktpreis sei<br />

gestiegen.<br />

” Hog prices are expected steady to 0.50 dlr higher on estimated receipts of<br />

2,000 head, private sources said. Top seen at 51.00 to 51.50 dlrs per cwt. Sources<br />

said the market closed stronger late yesterday and was expected to carry over<br />

into today’s session. ” Farmers are getting in the fields here,& they said. Also,<br />

little if any country movement was expected, they added.“<br />

Im selben Cluster befanden sich noch Texte, die über den Börsenwert bei-<br />

spielsweise <strong>eines</strong> Unternehmens im Markt der Kaffee-Röster berichteten. Die<br />

Begriffe, die der Algorithmus als besonders zentral für diese Gruppierung er-<br />

achtet hatte, waren ” higher“, ” openly“, ” lowers“ <strong>und</strong> ” Dealers“. (Diese Begriffe<br />

werden für jeden Cluster automatisch auf der Basis der durch SVD hergestellten<br />

Matrizen errechnet <strong>und</strong> als Bennungsvorschlag angeboten.) Man sieht daran,<br />

dass die Veränderung von Preisen der relevante Aspekt für diese Gruppierung<br />

war. In Bezug auf die Qualität der Cluster muss hier beachtet werden, ob dieser<br />

Cluster, bzw. der Aspekt der ihm zugr<strong>und</strong>eliegt, auch dem Ziel entspricht, das<br />

man mit dem Clustering ursprünglich verfolgt hat. Möglicherweise wäre es hier<br />

interessanter, die Dokumente nach den Objekten zu gruppieren (also alles über

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!