28.10.2013 Aufrufe

Assoziationsanalyse und Konzeptbeschreibung - Diko-project.de

Assoziationsanalyse und Konzeptbeschreibung - Diko-project.de

Assoziationsanalyse und Konzeptbeschreibung - Diko-project.de

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Ein Maß für die Relevanz eines Attributs ist <strong>de</strong>r Information Gain. Dieserkann<br />

auf <strong>de</strong>r Basis mehrerer Testklassen ermittelt wer<strong>de</strong>n. Wird die Relevanzanalyse<br />

im Klassenvergleich angewenset, können die zu vergleichen<strong>de</strong>n Klassen als<br />

Testklassen verwen<strong>de</strong>t wer<strong>de</strong>n. Für die Charakterisierung nimmt man dagegen<br />

üblicherweise alle in <strong>de</strong>r Datenbank gespeicherten vergleichbaren Klassen für die<br />

Relevanzanalyse.<br />

Wie wird <strong>de</strong>r Information Gain berechnet?[Han01]<br />

Sei S eine Menge von Tupeln mit jeweils einem Attribut zur Angabe <strong>de</strong>r Herkunftsklasse.<br />

Die Zahl <strong>de</strong>r Herkunftsklassen sei mit m gegeben. S beinhalte si<br />

Tupel <strong>de</strong>r Klasse Ci mit 1 ≤ i ≤ m. Dann gilt:<br />

m si<br />

I(s1, ..., sm) :=−<br />

s<br />

i=1<br />

log2<br />

si<br />

s<br />

Das Attribut A habe die Werte {a1, ..., av} <strong>und</strong> teile die Menge<br />

S in Teilmenen S1, ..., Sv, sodassSjdie Tupel aus S enthält,<br />

für die A <strong>de</strong>n Wert aj besitzt. Sj habe sij Tupel <strong>de</strong>r Klasse Ci<br />

v s1j + ... + smj<br />

E(A) :=<br />

I(s1, ..., sm)<br />

s<br />

j=1<br />

Der Information Gain eines Attributs entsteht schliesslich<br />

durch folgen<strong>de</strong> Subtraktion:<br />

IGain(A) =I(s1, ..., sm) − E(A)<br />

Die Relevanzanalyse kann vor <strong>de</strong>r AOI eingesetzt wer<strong>de</strong>n, um die Zahl <strong>de</strong>r zu<br />

analysieren<strong>de</strong>n Attribute zu verringern. Charakterisierung mit integrierter Relevanzanalyse<br />

wird als Analytische Charakterisierung (analytical characterisation),<br />

<strong>de</strong>r Klassenvergleich als Analytischer Klassenvergleich (analytical comparision)<br />

bezeichnet<br />

5 Fazit<br />

Wir haben zwei essentielle Data-Mining-Metho<strong>de</strong>n kennengelernt die für Knowledge<br />

Discovery in Databases eingesetzt wer<strong>de</strong>n: Die <strong>Assoziationsanalyse</strong> <strong>und</strong><br />

die Klassenbeschreibung. Bei<strong>de</strong> Metho<strong>de</strong>n sind effiziente Werkzeuge zur Gewinnung<br />

von Wissen aus großen Datenmengen.<br />

Die Assoziationanalyse bietet mit einer großen Anzahl verschie<strong>de</strong>ner Assoziationsregeln<br />

vielfältige Anpassungsmöglichkeiten für viele Bereiche in Wirtschaft,<br />

Forschung <strong>und</strong> im täglichen Leben. Einfache Assoziationsregeln repräsentieren<br />

häufiges gemeinsames Auftreten von Elementen in Transaktionen wie z.B. oft<br />

gemeinsam gekaufte Waren in einer Menge von Warenkörben. Komplexere Assoziationsregeln<br />

bauen auf diesen einfachen Regeln auf bieten durch ihre Erweiterungen<br />

neue Möglichkeiten, so können hierarchische, quantitative, fuzzy“<br />

”<br />

<strong>und</strong> temporale Aspekte mit in die <strong>Assoziationsanalyse</strong> aufgenommen wer<strong>de</strong>n.<br />

Von <strong>de</strong>r Vielzahl von Algorithmen, die in <strong>de</strong>r <strong>Assoziationsanalyse</strong> angewen<strong>de</strong>t<br />

24

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!