02.02.2014 Views

Laborator 4 Algoritmi de clasificare. Vector space classification

Laborator 4 Algoritmi de clasificare. Vector space classification

Laborator 4 Algoritmi de clasificare. Vector space classification

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Coeficienții Dice sunt măsuri <strong>de</strong> similaritate între seturi <strong>de</strong> atribute, şi sunt <strong>de</strong>finiți<br />

A ∩ B<br />

conform formulei: J ( A,<br />

B)<br />

= 2<br />

A + B<br />

1.2. Algoritm <strong>de</strong> clusterizare bazata pe text<br />

Cum am spus mai sus, pentru a clasifica documentele, trebuie în prima fază stabilite<br />

atributelor documentelor pe care va fi bazată clusterizarea și reprezentarea lor. După<br />

stabilirea mo<strong>de</strong>lului, clusterizarea este apoi efectuată folosind ca intrare vectorii care<br />

reprezintă documentele și un algoritm <strong>de</strong> clusterizare a documentelor.<br />

In cadrul clasificării bazate pe text se caracterizează fiecare document în funcție <strong>de</strong><br />

conținutul său : cuvintele conținute, frazele sau fragmentele. I<strong>de</strong>ea <strong>de</strong> la care se pleacă este că<br />

dacă două documente conțin multe cuvinte comune, atunci este foarte probabil ca ele să fie<br />

documente similare. Abordările din această categorie pot fi împărțite în funcție <strong>de</strong> metoda <strong>de</strong><br />

clusterizare folosită în: partiționale, ierarhice, bazate pe grafuri, bazate pe rețele neurale și<br />

algoritmi probabilistici.<br />

Clusterizarea partiționala. Clusterizarea <strong>de</strong> documente partiționala încearcă partiționarea<br />

netedă a unei colecții <strong>de</strong> documente într-un număr pre<strong>de</strong>finit <strong>de</strong> clustere disjuncte. <strong>Algoritmi</strong>i<br />

<strong>de</strong> clusterizare partiționali sunt împărtiți în algoritmi cu meto<strong>de</strong> iterative sau <strong>de</strong> realocare și<br />

în algoritmi cu meto<strong>de</strong> cu un singur pas. Cei mai cunoscuți algoritmi <strong>de</strong> clusterizare<br />

partitională sunt k-means, care se bazează pe i<strong>de</strong>ea ca centrul clusterului, numit centroid,<br />

este o bună reprezentare a clusterului. In prima fază se aleg n centroizi; apoi se calculează<br />

distanța cosinus dintre fiecare document din colecție și centroizi, iar documentul este asignat<br />

clusterului cu centroidul cel mai apropiat. In cea <strong>de</strong>-a doua etapă sunt recalculați centroizii<br />

noului cluster și procedura continuă până este atins un anumit prag. Un alt algoritm <strong>de</strong><br />

clusterizare partiționala este algoritmul celei mai apropiate vecinatati care va fi <strong>de</strong>taliat in<br />

capitolul următor.<br />

Clusterizarea ierarhica. <strong>Algoritmi</strong>i <strong>de</strong> clusterizare ierarhică produc o secvență <strong>de</strong> partiții <strong>de</strong><br />

același fel. Similaritatea dintre fiecare pereche <strong>de</strong> documente este stocată într-o matrice <strong>de</strong><br />

similaritate n x n. La fiecare pas, algoritmul fie unește două clustere, fie împarte un cluster în<br />

două. Rezultatul unei clusterizari poate fi văzut sub forma unei structurii arborescente cu un<br />

cluster rădăcină care conține toate documentele colecției și multe clustere la bază, fiecare<br />

continând un singur document.<br />

Clusterizarea bazată pe grafuri. Documentele care urmează să fie clusterizate pot fi văzute<br />

ca un set <strong>de</strong> noduri și muchiile dintre noduri reprezintă relațiile dintre ele. Fiecare muchie are<br />

o pon<strong>de</strong>re, care dă gradul acelei relații. <strong>Algoritmi</strong>i bazați pe grafuri se bazează pe<br />

partiționarea grafului, adică pe i<strong>de</strong>ntificarea clusterelor prin taierea muchiilor din graf astfel<br />

încât muchiile tăiate să fie minimizate. Din moment ce muchiile din graf reprezintă<br />

similaritatea dintre documente, tăind muchiile cu suma minimă a pon<strong>de</strong>rilor, algoritmul<br />

minimizează similaritatea dintre documentele din clustere diferite. I<strong>de</strong>ea <strong>de</strong> baza este că<br />

pon<strong>de</strong>rile muchiilor din același cluster vor fi mai mari <strong>de</strong>cât pon<strong>de</strong>rile muchiilor dintre<br />

clustere.<br />

Clusterizarea Fuzzy. <strong>Algoritmi</strong>i fuzzy <strong>de</strong> obicei încearcă să găsească cea mai bună<br />

clusterizare prin optimizarea unei anumite funcții criteriu. Faptul ca un document poate<br />

aparține <strong>de</strong> mai mult <strong>de</strong> un singur cluster este <strong>de</strong>scris <strong>de</strong> o funcție <strong>de</strong> membru. Funcția <strong>de</strong><br />

membru calculează pentru fiecare document un vector <strong>de</strong> membru, în care al i-lea element

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!