Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
63<br />
7. for ( ứng cử c C t )<br />
8. c.count ++;<br />
10. }<br />
11. L k ={ c C k c.count minsup}<br />
12. K ++ ;<br />
13. }<br />
14. Return L= k L k' ;<br />
// sinh ữngcử viên mới (**)<br />
Void apriori_gen(L k-1 , minsup )<br />
1. { for ( itemset l 1 L k-1 )<br />
2. for ( itemset l 2 L k-1 )<br />
3. if((L 1 (1)== L 2 (1)&&L 1 (2) == L 2 (2)&&...&& L 1 (k-2) == L 2 (k-2)) &&L 1 (k-1)<br />
== L 2 (k-1))<br />
4. { c= L 1 kết nối L 2 ;<br />
5. if( hasinrequent_subset(c, L k-1 )) delete c;<br />
6. else add c to C k ;<br />
7. }<br />
8. return C k<br />
9.}<br />
Void has_infrequent_subset(c,L k-1 )<br />
1.{ for ( (k-1)-subset s c)<br />
2. if(s L k-1 ) return TRUE;<br />
3. else return FALSE ;<br />
4.}<br />
Giải thích:<br />
Lần duyệt đầu tiên, sẽ tính số lần xuất hiện của mỗi mục để xác định các 1- itemset phổ<br />
biến. Lần duyệt thứ k (k 2) sẽ bao gồm 2 giai đoạn:<br />
* Giai đoạn 1:<br />
Tập phổ biến L k-1 đã tìm thấy ở lần duyệt thứ k-1 được sử dụng để sinh ra các tập ứng cử<br />
viên C k bằng việc sử dụng hàm Apriori_gen.<br />
* Giai đoạn 2:<br />
Dựa vào Cơ sở dữ liệu, tính độ hỗ trợ của các ứng của viên trong C k . Các ứng cử viên trong<br />
C k mà được chứa trong giao dịch t có thể được xác định một cách hiệu quả bằng việc sử dụng cây<br />
băm được mô tả như sau: