Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Konzeption und Implementierung eines ... - Stephan, Daniel
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
103 9.1. TECHNISCHE PERSPEKTIVE<br />
Da die automatisch erzeugten Cluster rein statistisch begründet sind, fällt<br />
es mitunter schwer, nachzuvollziehen warum nun eine bestimmte Menge an<br />
Dokumenten zusammengruppiert wurde. Das ist immer dann der Fall, wenn<br />
Eigenschaften bzw. Begriffe zum Clustern herangezogen wurden, die wenig in-<br />
haltliche Aussagekraft haben. Um also qualitativ hochwertige, sinnvolle Cluster<br />
erzeugt zu bekommen, ist es von Nöten, die Begriffe manuell zu überprüfen <strong>und</strong><br />
all diese als Stoppwort zu deklarieren, die generell wenig über den Inhalt der<br />
Texte aussagen.<br />
Um dies zu belegen, seien nun einige Beispiele dargestellt, die jeweils in ein<br />
<strong>und</strong> demselben Cluster zusammegefasst wurden. Das erste Beispiel zeigt den<br />
Beginn <strong>eines</strong> Textes, der offenbar vom leicht gefallenen Dollarkurs handelt <strong>und</strong><br />
dass sich die Händler wegen der unklaren Situation zurückgehalten haben.<br />
” The dollar opened slightly lower in quiet trading, with dealers holding back<br />
ahead of the outcome of this week’s top-level international monetary talks in<br />
Washington. The dollar began here at 1.5128/5138 Swiss francs, down from<br />
the previous 1.5185/5195 close and the 1.5180/5190 francs in New York. Ho-<br />
wever, dealers were sceptical that anything other than a mere reaffirmation of<br />
February’s Paris Accord was likely to emerge from Washington.“<br />
Der nächste Absatz dagegen spricht von Schweinen. Deren Marktpreis sei<br />
gestiegen.<br />
” Hog prices are expected steady to 0.50 dlr higher on estimated receipts of<br />
2,000 head, private sources said. Top seen at 51.00 to 51.50 dlrs per cwt. Sources<br />
said the market closed stronger late yesterday and was expected to carry over<br />
into today’s session. ” Farmers are getting in the fields here,& they said. Also,<br />
little if any country movement was expected, they added.“<br />
Im selben Cluster befanden sich noch Texte, die über den Börsenwert bei-<br />
spielsweise <strong>eines</strong> Unternehmens im Markt der Kaffee-Röster berichteten. Die<br />
Begriffe, die der Algorithmus als besonders zentral für diese Gruppierung er-<br />
achtet hatte, waren ” higher“, ” openly“, ” lowers“ <strong>und</strong> ” Dealers“. (Diese Begriffe<br />
werden für jeden Cluster automatisch auf der Basis der durch SVD hergestellten<br />
Matrizen errechnet <strong>und</strong> als Bennungsvorschlag angeboten.) Man sieht daran,<br />
dass die Veränderung von Preisen der relevante Aspekt für diese Gruppierung<br />
war. In Bezug auf die Qualität der Cluster muss hier beachtet werden, ob dieser<br />
Cluster, bzw. der Aspekt der ihm zugr<strong>und</strong>eliegt, auch dem Ziel entspricht, das<br />
man mit dem Clustering ursprünglich verfolgt hat. Möglicherweise wäre es hier<br />
interessanter, die Dokumente nach den Objekten zu gruppieren (also alles über