Assoziationsanalyse und Konzeptbeschreibung - Diko-project.de
Assoziationsanalyse und Konzeptbeschreibung - Diko-project.de
Assoziationsanalyse und Konzeptbeschreibung - Diko-project.de
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Ein Maß für die Relevanz eines Attributs ist <strong>de</strong>r Information Gain. Dieserkann<br />
auf <strong>de</strong>r Basis mehrerer Testklassen ermittelt wer<strong>de</strong>n. Wird die Relevanzanalyse<br />
im Klassenvergleich angewenset, können die zu vergleichen<strong>de</strong>n Klassen als<br />
Testklassen verwen<strong>de</strong>t wer<strong>de</strong>n. Für die Charakterisierung nimmt man dagegen<br />
üblicherweise alle in <strong>de</strong>r Datenbank gespeicherten vergleichbaren Klassen für die<br />
Relevanzanalyse.<br />
Wie wird <strong>de</strong>r Information Gain berechnet?[Han01]<br />
Sei S eine Menge von Tupeln mit jeweils einem Attribut zur Angabe <strong>de</strong>r Herkunftsklasse.<br />
Die Zahl <strong>de</strong>r Herkunftsklassen sei mit m gegeben. S beinhalte si<br />
Tupel <strong>de</strong>r Klasse Ci mit 1 ≤ i ≤ m. Dann gilt:<br />
m si<br />
I(s1, ..., sm) :=−<br />
s<br />
i=1<br />
log2<br />
si<br />
s<br />
Das Attribut A habe die Werte {a1, ..., av} <strong>und</strong> teile die Menge<br />
S in Teilmenen S1, ..., Sv, sodassSjdie Tupel aus S enthält,<br />
für die A <strong>de</strong>n Wert aj besitzt. Sj habe sij Tupel <strong>de</strong>r Klasse Ci<br />
v s1j + ... + smj<br />
E(A) :=<br />
I(s1, ..., sm)<br />
s<br />
j=1<br />
Der Information Gain eines Attributs entsteht schliesslich<br />
durch folgen<strong>de</strong> Subtraktion:<br />
IGain(A) =I(s1, ..., sm) − E(A)<br />
Die Relevanzanalyse kann vor <strong>de</strong>r AOI eingesetzt wer<strong>de</strong>n, um die Zahl <strong>de</strong>r zu<br />
analysieren<strong>de</strong>n Attribute zu verringern. Charakterisierung mit integrierter Relevanzanalyse<br />
wird als Analytische Charakterisierung (analytical characterisation),<br />
<strong>de</strong>r Klassenvergleich als Analytischer Klassenvergleich (analytical comparision)<br />
bezeichnet<br />
5 Fazit<br />
Wir haben zwei essentielle Data-Mining-Metho<strong>de</strong>n kennengelernt die für Knowledge<br />
Discovery in Databases eingesetzt wer<strong>de</strong>n: Die <strong>Assoziationsanalyse</strong> <strong>und</strong><br />
die Klassenbeschreibung. Bei<strong>de</strong> Metho<strong>de</strong>n sind effiziente Werkzeuge zur Gewinnung<br />
von Wissen aus großen Datenmengen.<br />
Die Assoziationanalyse bietet mit einer großen Anzahl verschie<strong>de</strong>ner Assoziationsregeln<br />
vielfältige Anpassungsmöglichkeiten für viele Bereiche in Wirtschaft,<br />
Forschung <strong>und</strong> im täglichen Leben. Einfache Assoziationsregeln repräsentieren<br />
häufiges gemeinsames Auftreten von Elementen in Transaktionen wie z.B. oft<br />
gemeinsam gekaufte Waren in einer Menge von Warenkörben. Komplexere Assoziationsregeln<br />
bauen auf diesen einfachen Regeln auf bieten durch ihre Erweiterungen<br />
neue Möglichkeiten, so können hierarchische, quantitative, fuzzy“<br />
”<br />
<strong>und</strong> temporale Aspekte mit in die <strong>Assoziationsanalyse</strong> aufgenommen wer<strong>de</strong>n.<br />
Von <strong>de</strong>r Vielzahl von Algorithmen, die in <strong>de</strong>r <strong>Assoziationsanalyse</strong> angewen<strong>de</strong>t<br />
24