Laborator 4 Algoritmi de clasificare. Vector space classification

Laborator 4 

Algoritmi de clasificare. Vector space classification 

Scop: 

- Vector Space Model 

- Algoritm de clusterizare bazata pe text 

- Algoritmul KNN - K-Nearest Neighbour 

- Evaluarea algoritmilor de clasificare 

1. Aspecte teoretice 

1.1. Vector Space Model 

In cadrul „Vector Space Model”, fiecărui document ii este atașat un vector de 

caracteristici, a cărui dimensiune este dată de numărul de atribute unice care se regăsesc în 

documentul din colectie. Fiecare element al vectorului are o pondere care specifică 

importanța atributului în clasificarea documentului. De regulă, aceste atribute sunt extrase 

din document folosind metode de regăsirea a informației. Faza de extragere a termenilor care 

caracterizează un document este numită indexarea documentului. 

In faza de atribuire de ponderi pentru fiecare termen se stabilește semnificația în 

caracterizarea documentului. Aceste ponderi pot avea valorile 0 sau 1, indicând existența (1) 

sau nu (0) a termenilor in document. De regulă, este mult mai raspândită folosirea frecvenței 

de întâlnire a termenului în cadrul documentului. Tf se folosește pentru a reprezenta 

frecvența de apariție a termenului în document, iar Idf reprezintă inversul frecvenței de 

întâlnire a termenului în întreaga colecție. 

n 

Idf = log( 

k 

 

) , unde n 

k 

este numărul de documente în care apare termenul, iar N este 

numarul total de documente. 

In etapa următoare trebuie aleasă o măsura de similaritate pentru calculul asemănării 

dintre două documente. Cea mai folosită măsură pentru similaritate este cea a coeficienților 

cosinus, care determină cosinusul unghiului dintre doi vectori de caracteristici. Alte măsuri 

utilizate sunt cele ale coeficienților Jaccard sau ale coeficienților Dice, ambele fiind 

normalizări ale potrivirii simple a coeficienților. Coeficienții Jaccard sunt măsuri de 

similaritate între seturi de atribute, şi sunt definiți ca raport între numărul de elemente ale 

intersecţiei și numărul de elemente ale reuniunii setului de atribute : 

A ∩ B 

J ( A, 

B) 

= 

A ∪ B 

Distanța Jaccard, care determină diferenţă între seturile de test, este complementară 

coeficientului Jaccard şi este obţinută prin scăderea coeficientului Jaccard din 1: 

A ∪ B − A ∩ B 

J 

∂ 

( A, 

B) 

= 1− 

J ( A, 

B) 

= 

A ∪ B

Coeficienții Dice sunt măsuri de similaritate între seturi de atribute, şi sunt definiți 

A ∩ B 

conform formulei: J ( A, 

B) 

= 2 

A + B 

1.2. Algoritm de clusterizare bazata pe text 

Cum am spus mai sus, pentru a clasifica documentele, trebuie în prima fază stabilite 

atributelor documentelor pe care va fi bazată clusterizarea și reprezentarea lor. După 

stabilirea modelului, clusterizarea este apoi efectuată folosind ca intrare vectorii care 

reprezintă documentele și un algoritm de clusterizare a documentelor. 

In cadrul clasificării bazate pe text se caracterizează fiecare document în funcție de 

conținutul său : cuvintele conținute, frazele sau fragmentele. Ideea de la care se pleacă este că 

dacă două documente conțin multe cuvinte comune, atunci este foarte probabil ca ele să fie 

documente similare. Abordările din această categorie pot fi împărțite în funcție de metoda de 

clusterizare folosită în: partiționale, ierarhice, bazate pe grafuri, bazate pe rețele neurale și 

algoritmi probabilistici. 

Clusterizarea partiționala. Clusterizarea de documente partiționala încearcă partiționarea 

netedă a unei colecții de documente într-un număr predefinit de clustere disjuncte. Algoritmii 

de clusterizare partiționali sunt împărtiți în algoritmi cu metode iterative sau de realocare și 

în algoritmi cu metode cu un singur pas. Cei mai cunoscuți algoritmi de clusterizare 

partitională sunt k-means, care se bazează pe ideea ca centrul clusterului, numit centroid, 

este o bună reprezentare a clusterului. In prima fază se aleg n centroizi; apoi se calculează 

distanța cosinus dintre fiecare document din colecție și centroizi, iar documentul este asignat 

clusterului cu centroidul cel mai apropiat. In cea de-a doua etapă sunt recalculați centroizii 

noului cluster și procedura continuă până este atins un anumit prag. Un alt algoritm de 

clusterizare partiționala este algoritmul celei mai apropiate vecinatati care va fi detaliat in 

capitolul următor. 

Clusterizarea ierarhica. Algoritmii de clusterizare ierarhică produc o secvență de partiții de 

același fel. Similaritatea dintre fiecare pereche de documente este stocată într-o matrice de 

similaritate n x n. La fiecare pas, algoritmul fie unește două clustere, fie împarte un cluster în 

două. Rezultatul unei clusterizari poate fi văzut sub forma unei structurii arborescente cu un 

cluster rădăcină care conține toate documentele colecției și multe clustere la bază, fiecare 

continând un singur document. 

Clusterizarea bazată pe grafuri. Documentele care urmează să fie clusterizate pot fi văzute 

ca un set de noduri și muchiile dintre noduri reprezintă relațiile dintre ele. Fiecare muchie are 

o pondere, care dă gradul acelei relații. Algoritmii bazați pe grafuri se bazează pe 

partiționarea grafului, adică pe identificarea clusterelor prin taierea muchiilor din graf astfel 

încât muchiile tăiate să fie minimizate. Din moment ce muchiile din graf reprezintă 

similaritatea dintre documente, tăind muchiile cu suma minimă a ponderilor, algoritmul 

minimizează similaritatea dintre documentele din clustere diferite. Ideea de baza este că 

ponderile muchiilor din același cluster vor fi mai mari decât ponderile muchiilor dintre 

clustere. 

Clusterizarea Fuzzy. Algoritmii fuzzy de obicei încearcă să găsească cea mai bună 

clusterizare prin optimizarea unei anumite funcții criteriu. Faptul ca un document poate 

aparține de mai mult de un singur cluster este descris de o funcție de membru. Funcția de 

membru calculează pentru fiecare document un vector de membru, în care al i-lea element

indică gradul de apartenență a documentului la al i-lea cluster. Cel mai utilizat algoritm de 

clusterizare fuzzy este Fuzzy c-means, care este o variație a algoritmului partițional k- 

means. 

Clusterizarea bazata pe rețele neurale. SOM (Self-Organizing Maps - Kohonen) este un 

model de rețea neurală nesupervizată des folosit. Constă din două straturi: nivelul de intrare 

cu n noduri de intrare, corespunzator celor n documente și stratul de ieșire cu k noduri de 

ieșire, care corespunde celor k regiuni de decizie. Fiecărei din cele k unități de ieșire îi este 

asignat un vector de ponderi. In timpul unui pas de învățare, un document din colecție este 

asociat cu un nod de ieșire care are cel mai similar vector de ponderi. Vectorul de ponderi a 

nodului «câștigator» este apoi adaptat în asemenea fel încât va fi și mai aproape de vectorul 

care reprezintă acel document. Ieșirea algoritmului este aranjamentul documentelor de intrare 

într-un spațiu 2-dimensional în asemenea fel încât similaritatea dintre două documente de 

intrare este oglindită în termenii distanței topografice dintre cele k regiuni de decizie. 

1.3. Algoritmul k - K-earest eighbour 

Principiul acestei metode este clasificarea unui document prin găsirea documentului cel 

mai apropiat din setul de antrenament. Metodele care se bazează pe acest principiu sunt 

numite metode de ”învățare bazată pe memorie”. Sunt folosite ponderile termenilor Tf și Idf, 

calculându-se similaritatea dintre exemplele de test și centroizii clusterelor. Ponderea 

asignată unui termen este o combinație a ponderilor sale într-o interogare originală și 

documentele considerate relevante și irelevante. In algoritmul de mai jos se folosește distanța 

Euclidiană pentru a determina similaritatea dintre două documente. 

Algoritm: 

%input 

K: number of neighbours 

X: training set patterns 

Y: class labels of the training set 

z: new pattern 

%output 

l: predicted label of new pattern 

for each x in X 

compute Euclidean distance of z from x 

d(x) = distance(z,x) 

d is an array containing the distances of all x in X from z 

end; 

;order patterns of X in increasing order of d(x) 

(sorted_d, index) = sort(X,d) 

sorted_d is the list of elements of d sorted in increasing order, 

and index(i) is the index in X of the i-th element of sorted_d 

neighbours = index(1:k);

;index(1:k) are the first k elements of index 

label_neighbours = Y(neighbours); 

;Y(neighbours) are the elements of Y with index equal to neighbours; 

l = majority(label_neighbours); 

;majority(label_neighbours) is the class label occurring more times in the 

;label_neighbours list. 

1.4. Evaluarea algoritmilor de clasificare 

Algoritmii de clasificare pot fi evaluați în funcție de viteză și/sau acuratețe. Viteza unui 

clasificator trebuie să fie evaluată separat pentru cele două sarcini: învățarea și clasificarea 

noilor instanțe. Cele mai folosite criterii de evaluare sunt precizia și memorarea. Pragurile de 

decizie în algoritmii de clasificare pot fi modificate pentru a obține o precizie mai mare (cu 

un grade de memorare mai mică) sau vice-versa. 

Se știe că performanța clasificatorilor depinde foarte mult de împărțirea datelor în seturi 

de antrenare și testare. Testarea clasificatorilor pe datele de antrenare folosite pentru învățare 

duce la rezultate semnificativ mai bune. Problema evaluării clasificatorilor este dependentă 

de domeniul lor. Fiecare clasificator are un sub-domeniu particular pentru care este 

specializat. Pentru a depăși această problemă, sunt combinați clasificatori cu învățare 

multiplă pentru a obține o clasificare mai precisă. 

2. Teme 

Implementați, testați și interpretați rezultatele pentru vector space classification, folosind ca 

date de intrare următoarele descrieri și fisiere de intrare : 

2.1. In cadrul arhivei reuters.zip se gasesc documente in format sgml care conțin știri ale agenției 

Reuters. Sa se indexeze aceste documente folosind ponderea ; i este un cuvant din 

documentul k: 

ni 

wi , k 

= fi, 

k 

*log( ) , 

 

unde f , 

reprezintă frecvența cu care cuvântul i apare în documentul k, N este numărul total de 

i k 

documente angrenate in faza de antrenare, iar ni 

este numărul total de apariții ale cuvantului i în 

întreaga colecție. Folosind algoritmul de mai sus pentru metoda kNN de clasificare să se 

dezvolte o aplicație care să permită determinarea celui mai apropiat grup de documente pentru un 

document ce conține știri și care este specificat ca intrare. 

2.2. Pentru setul de imagini binare (imagini.zip) din cadrul laboratorului 3 sa se folosească 

algoritmul kNN pentru a determina clasa căreia ii aparține o cifră din cadrul unei imagini de 

iterogare. 

w 

i , k

2.3. Pentru setul de date in format arff din cadrul arhivei hepatitis.zip sa se ruleze algoritmi de 

clasificare Naive Bayes si kNN (IBk) - k = 4 din cadrul Weka. Să se compare performanţele 

celor două clasificatoare. Să se descrie diferențele observate între cele două tipuri clasificări. 

3. Bibliografie 

[1] Salton, Gerard. Automatic Text Processing. Addison-Wesley Publishing Company, 1988 

[2] http://people.revoledu.com/kardi/tutorial/Similarity/Jaccard.html 

[3] http://www.daviddlewis.com/resources/testcollections/reuters21578/

Laborator 4 Algoritmi de clasificare. Vector space classification

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?