Assoziationsanalyse und Konzeptbeschreibung - Diko-project.de
Assoziationsanalyse und Konzeptbeschreibung - Diko-project.de
Assoziationsanalyse und Konzeptbeschreibung - Diko-project.de
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
2. Erzeuge aus <strong>de</strong>n Frequent Itemsets alle möglichen Assoziationsregeln <strong>und</strong><br />
berechne ihre Konfi<strong>de</strong>nzen. Die generierten Assoziationsregeln haben automatisch<br />
<strong>de</strong>n minimalen Support, da Support(A ⇒ B) =Support(A∪B)<br />
gilt <strong>und</strong> Support(A ∪ B) in <strong>de</strong>r Menge <strong>de</strong>r Frequent Items liegt.<br />
Für die Bewältigung <strong>de</strong>r ersten Teilaufgabe stehen sehr viele Algorithmen zur<br />
Verfügung, in dieser Arbeit soll jedoch nur <strong>de</strong>r bekannteste <strong>und</strong> gr<strong>und</strong>legendste<br />
ausführlich behan<strong>de</strong>lt wer<strong>de</strong>n: <strong>de</strong>r Apriori-Algorithmus, <strong>de</strong>r auch als Gr<strong>und</strong>lage<br />
für zalreiche weitere Metho<strong>de</strong>n dient..<br />
Bevor näher auf die Funktionsweise <strong>de</strong>s Algorithmus eingegangen wird, soll noch<br />
eine Zusatzeigenschaft für Itemsets eingeführt wer<strong>de</strong>n: Items sollen in Itemsets<br />
lexikographisch angeordnet sein. Besteht ein Itemset X <strong>de</strong>r Länge k aus <strong>de</strong>n<br />
Items x1,x2, ..., xk soll gelten: x1 ≤ x2 ≤ ... ≤ xk.<br />
Ein Itemset hat die Länge k, wenn es aus k Elementen besteht. Durch die Ordnung<br />
wird die Menge <strong>de</strong>r aus <strong>de</strong>n Items erzeugbaren Itemsets stark beschränkt.<br />
n!<br />
Für eine Menge von Items I mit n Elementen gibt es (n−k)! mögliche Itemsets<br />
<strong>de</strong>r Länge k, wenn die Items nicht lexikographisch angeordnet wer<strong>de</strong>n. Durch<br />
n!<br />
Einführung <strong>de</strong>r lexikographischen Ordnung gibt es k!(n−k)! Möglichkeiten für<br />
ein Itemset <strong>de</strong>r Länge k <strong>und</strong> es gilt:<br />
n!<br />
k!(n − k)! ≤<br />
n!<br />
(n − k)!<br />
Es ist nicht von Interesse, in welcher Reihenfolge die Artikel in <strong>de</strong>n Warenkorb<br />
wan<strong>de</strong>rn son<strong>de</strong>rn ausschließlich, welche Artikel an <strong>de</strong>r Transaktion beteiligt sind.<br />
Durch die Einführung dieser Ordnung kann <strong>de</strong>r Zeitaufwand für die Datenanalyse<br />
be<strong>de</strong>utend gesenkt wer<strong>de</strong>n.<br />
Basis <strong>de</strong>s Apriori Algorithmus ist die Monotonie-Eigenschaft von Frequent<br />
Itemsets: Ist ein Itemset häufig, so sind auch alle Teilmengen dieses Itemsets<br />
häufig [San00a]. An<strong>de</strong>rs formuliert: Ist ein Itemsets nicht häufig, dann sind alle<br />
Itemsets, die dieses Itemset als Teilmenge beinhalten ebenfalls nicht häufig.<br />
Der Apriori-Algorithmus beschränkt sich bei <strong>de</strong>r Generierung von Assoziationsregeln<br />
auf die Verwendung von Frequent Itemsets aus <strong>de</strong>nen neue Itemsets<br />
zusammengesetzt wer<strong>de</strong>n. Itemsets, die wegen <strong>de</strong>r Monotonieeigenschaft nicht<br />
häufig sein können, wer<strong>de</strong>n von <strong>de</strong>m Algorithmus automatisch ignoriert. Die<br />
Wahrscheinlichkeit, dass die betrachteten Regeln <strong>de</strong>n minimalen Support haben,<br />
steigt.<br />
Abbildung 1 zeigt <strong>de</strong>n Algorithmus, wie er von Agrawal vorgestellt wird [AS94].<br />
Gegeben seien eine Menge von Items I, eine Menge von Transaktionen T <strong>und</strong><br />
ein Wert für Minsupp. Die Frequent Itemsets <strong>de</strong>r Länge 1 lassen sich durch<br />
einfaches Abzählen <strong>de</strong>r Items in <strong>de</strong>n Transaktionen ermitteln.<br />
Apriori(I,T,Minsupp)<br />
L1 := {frequent 1-Itemsets aus I};<br />
k := 2;<br />
while Lk−1 = ∅ do<br />
Ck := AprioriKandidatenGenerierung(Lk−1);<br />
for each Transaktiont∈Tdo 8