tutaj - Instytut Informatyki

ii.pwr.wroc.pl

tutaj - Instytut Informatyki

Analiza zawartości dokumentów zapomocą probabilistycznych modeligraficznychProbabilistic Topic ModelsJakub M. TOMCZAKPolitechnika Wrocławska, Instytut Informatyki30.03.2011, Wrocław


Plan1. Wstęp2. Modele probabilistyczne3. Przykłady zastosowania2/22


Plan1. Wstęp2. Modele probabilistyczne3. Przykłady zastosowania2/22


Plan1. Wstęp2. Modele probabilistyczne3. Przykłady zastosowania2/22


Plan1. Wstęp2. Modele probabilistyczne3. Przykłady zastosowania2/22


Plan1. Wstęp2. Modele probabilistyczne3. Przykłady zastosowania2/22


WstępZarys problemuCele analizy dokumentów i słów:◮ otrzymywanie informacjisemantycznej słów na podstawiedokumentów;◮ modelowanie dokumentów mniejsząliczbą parametrów (redukcja długościopisu problemu);SIEĆRYBAKOMPUTERINFORMATYKA◮ automatyczne rozumienie słów(polisemia – wiele znaczeń jednegosłowa);RYBOŁÓSTWO◮ możliwość porównywania dokumentów isłów;3/22


WstępMetody◮ tf-idf (ang. term frequency – inverse document frequency) – dlawybranego zbioru termów i każdego dokumentu liczony jestwspółczynnik tf-idf◮ LSI (ang. Latent Semantic Indexing) – wykorzystanie dekompozycjiSVD do wykrycia podprzestrzeni cech tf-idf◮ Modele probabilistyczne:◮◮unigramy (ang. unigrams)mieszanina unigramów (ang. mixture of unigrams)◮probabilistyczna analiza ukrytej semantyki (ang. Probabilistic LatentSemantic Analysis, PLSA)◮◮alokacja ukrytej zmiennej Dirichleta (ang. Latent Dirichlet Allocation)hierarchiczny proces Dirichleta (ang. Hierarchical Dirichlet Process)4/22


Plan1. Wstęp2. Modele probabilistyczne3. Przykłady zastosowania5/22


Plan1. Wstęp2. Modele probabilistyczne3. Przykłady zastosowania5/22


Modele probabilistyczneUnigramywNMZakładamy, że słowa dla każdego dokumentu, m = 1, 2, . . . , M, losowanesą niezależnie z rozkładu wielomianowego:N∏p(w m ) = p(wm)nn=1gdzie N – liczba słów w dokumencie, M – liczba dokumentów, w n m – słowo. 6/22


Modele probabilistyczneMieszanina unigramówzwNMZakładamy, że jednemu dokumentowi odpowiada dokładnie jeden temat.Wówczas słowa losowane są z rozkładu:p(w m ) = ∑ N∏p(z m ) p(wm|z n m )zn=1gdzie p(z m ) – rozkład a priori tematów, p(wm|z n m ) – prawd. słowa dlazadanego tematu.7/22


Modele probabilistyczneProbabilistic Latent Semantic AnalysisdzwNMDla wybranego dokumentu d słowo jest zależne od różnych tematów:p(d m , w m ) = p(d m )N∏ ∑p(wm|z n m)p(z n m|d n m )n=1gdzie p(d m ) – rozkład a priori dokumentów, p(w n m)|z n m) – prawd. słowa dlazadanego tematu, p(z n m|d m ) – prawd. zawierania kilku tematów przezdokument.z n m8/22


Modele probabilistyczneProbabilistic Latent Semantic Analysis – wady i zaletyZalety:◮ dokument może dotyczyć wielutematów;Wady:◮ liczba parametrów rośnie liniowowraz ze wzrostem liczbydokumentów M;◮ nie jest to poprawniesformułowany model generujący,nie można przyporządkowaćprawdopodobieństw dowcześniej niezaobserwowanychdokumentów;9/22


Modele probabilistyczneModel generujący i wnioskowanie z niego10/22


Modele probabilistyczneLatent Dirichlet AllocationKzwNM∫p(w m |α, η) =[ ∏ K N∏ ( ∑p(θ m |α) p(β k |η)k=1n=1z n m)]p(wm|z n m, n β k )p(zm|θ n m ) dθ mgdzie β – zm. losowa o rozkładzie Dirichleta określająca słowa z zadanegosłownika w temacie, θ – zm. losowa określająca tematy dokumentu11/22


Modele probabilistyczneLatent Dirichlet Allocation – proces generowania dokumentu1. Wybierz słowa w tematach z symetrycznego rozkładu Dirichleta,β k ∼ Dir(η), k = 1, 2, . . . , K.2. Dla każdego dokumentu m wybierz proporcje z symetrycznegorozkładu Dirichleta, θ m ∼ Dir(α), m = 1, 2, . . . , M.3. Dla każdego n-tego słowa w każdym m-tym dokumencie:◮Wybierz przydzielenie tematu z rozkładu wielomianowego,z n m|θ m ∼ Multi(θ m).◮ Wybierz słowa z zadanego tematu, w n m|z n m, β 1:K ∼ Multi(β z nm).12/22


Modele probabilistyczneRozkład Dirichletax – empiryczne obserwacje dokumentów w PLSA, linia ciągła – gładki rozkład prawd. w LDA13/22


Modele probabilistyczneHierarchical Dirichlet ProcessHG 0G m nwnmNMDP(·, ·) – proces Dirichleta, G 0 – rozkład podstawowy tematów, H –symetryczny rozkład Dirichleta nad simpleksem słów, α > 0, γ > 0Zastosowanie procesu Dirichleta powoduje, że nie ma potrzeby określanialiczby tematów a priori, gdyż wynikają one z danych (nieparametrycznepodejście bayesowskie).14/22


Modele probabilistyczneHierarchical Dirichlet Process – proces generowania dokumentu1. Wybierz rozkład podstawowy tematów G 0 ∼ DP(γ, H).2. Dla każdego dokumentu m wybierz wstępny rozkład tematówG m ∼ DP(α, G 0 ).3. Dla każdego n-tego słowa w każdym m-tym dokumencie:◮ Wybierz temat dla słowa β n m ∼ G m.◮Wybierz słowo w n m ∼ Multi(β n m).15/22


Modele probabilistyczneProblemy i rozwinięcia◮ Problemy:◮◮niemożność wyznaczenia wyrażeń na rozkład p(w m|α, η);potrzeba stosowania procedur na wyrażenia przybliżone, np.procedura próbkowania Gibbsa, metody wariacyjne, próbkowanie zużyciem łańcucha Markowa◮ Rozwinięcia:◮Dynamiczne modelowanie tematów (ang. Dynamic Topic Modeling,DTM) – połączenie LDA, gdy β tworzą sekwencję.◮ Dynamiczne hierarchiczne procesy Dirichleta (ang. Dynamic HDP) –rozkłady tematów G tworzą sekwencję.16/22


Plan1. Wstęp2. Modele probabilistyczne3. Przykłady zastosowania17/22


Plan1. Wstęp2. Modele probabilistyczne3. Przykłady zastosowania17/22


Przykład zastosowaniaDokumenty18/22


Przykład zastosowaniaPolisemia19/22


Przykład zastosowaniaObrazki20/22


Literatura◮ Model PLSA: T. Hofmann, Probabilistic latent semantic analysis, in Proc. Uncertainty inArtificial Intelligence, 1999◮ Model LDA i prostsze: D. Blei, A. Ng, M. I. Jordan, Latent Dirichlet allocation, J. Mach.Learn. Res., Vol. 3, pp. 993–1022, Mar. 2003◮ Model LDA z algorytmem Gibbsa: M. Steyvers, T. Griffiths, Probabilistic topic models,in: Latent Semantic Analysis: A Road to Meaning, Eds.: T. Landauer, D. McNamara, S.Dennis, oraz W. Kintsch, Lawrence Erlbaum, 2006◮ Zaawansowane modele graficzne dla analizy tematów:D. Blei, L. Carin. D. Dunson, Probabilistic Topic Models, IEEE Signal ProcessingMagazine Vol. 55, NOVEMBER 2010Y.W. Teh, M.I. Jordan, M.J. Beal, D.M. Blei, Hierarchical Dirichlet Processes, Journal ofthe American Statistical Association, 101(476), 2006D.M. Blei, J.D. Lafferty, Dynamic topic models, Proceeding ICML ’06 Proceedings of the23rd international conference on Machine learning21/22


Dziękuję za uwagę!Pytania?22/22

More magazines by this user
Similar magazines