sprawozdanie z metody list inwersyjnych

More documents

Recommendations

Info

© COPYRIGHT 2004 MARCIN KARWIŃSKI & MARCIN DZIĘGIELEWSKI 4 z 19 Gdzie to przyspieszenie Taka budowa kartoteki powoduje dużą szybkość wyszukiwania, w przypadku, gdy mamy zapytania składające się z pojedynczych deskryptorów, co też nietrudno wywnioskować z powyższego wywodu. Wiadome jest, że w takich przypadkach kartoteka zbudowana z list inwersyjnych pozwala niezwykle szybko, jak na tak prostą metodę, znaleźć odpowiedź na pytanie zadane do systemu. Jeżeli bowiem pytamy o obiekty mające w swoim opisie określony deskryptor, to dla znalezienia odpowiedzi wystarczy znaleźć właściwą listę inwersyjną. Obiekty podane w tej liście stanowią odpowiedź na pytanie. Ale też zwiększenie liczby deskryptorów nie powoduje dużej komplikacji obliczeń. Jeżeli bowiem pytanie dotyczy obiektów opisanych kilkoma deskryptorami, to aby otrzymać odpowiedź, należy znaleźć listy inwersyjne dla wszystkich deskryptorów występujących w pytaniu. Następnie w takich wypadkach na zbiorach odpowiedzi z pojedynczych deskryptorów wykonywana jest operacja AND lub OR. Wstawianie do zapytań operatora logicznego NOT nie wiąże się również z większym problemem obliczeniowym. Zatem dla znalezienia odpowiedzi na pytanie skierowane do systemu wystarczy wykonać pewne proste operacje na listach inwersyjnych (czyli w zasadzie na zbiorach). Można zauważyć, ze odpowiedzi uzyskujemy rzeczywiście szybko. Aktualizacja nieco utrudniona Ponieważ obiekty pamiętane są w wielu listach, to właśnie ta nadmiarowość danych powoduje pewne utrudnienia dla procesu aktualizacji bazy danych w stosunku do przecież niezwykle prostego w wykonaniu procesu aktualizacji bazy w systemie opartym na metodzie list prostych (w tym na wszystkich modyfikacjach). Dodanie lub usunięcie elementu z bazy danych wiąże się z modyfikacją całej kartoteki wyszukiwawczej - należy usunąć adres do tego rekordu (bądź nazwę obiektu opisywanego w danym rekordzie) z wszystkich powiązanych z nim deskryptorów. A gdzie ta inwersyjność Metoda list inwersyjnych różni się od metody list łańcuchowych i metody list prostych tym, że listy łańcuchowe nie są umieszczone w opisach elementów, ale w osobnych listach. Na dodatek listy te nie opisują bezpośrednio obiektów, czytaj dostęp do informacji nie biegnie od obiektu do informacji a odwrotnie (stąd właśnie ta inwersyjność), tj. od wartości atrybutu do opisu obiektu, któremu funkcja informacji właśnie tą wartość przypisała. Poza tym, w poprzednim przypadku listy były generowane podczas wyszukiwania, tutaj natomiast są podane bezpośrednio. Klasycznie biorąc się z bykiem za rogi... Podobnie do MLP mamy zdefiniowany system wyszukiwania S, a więc zbiór obiektów X, atrybutów A, wartości tych atrybutów V oraz funkcja informacji ρ. Oczywiście te elementy tworzą czwórkę uporządkowaną: S = . Zakładamy, że obiekty opisane są iloczynem odpowiednich niezaprzeczonych deskryptorów. Opisy obiektów t x umieszczone są w dowolny sposób w pamięci komputera. Dodatkowo zakładamy, że mamy dużą bazę, zatem obiektom x 1 ,...,x n odpowiadają adresy n 1 ,...,n m . Utworzyliśmy zatem pewein zbiór adresów N = {n 1 ,...,n m } stosując funkcję adresującą μ w następujący sposób: μ: X → N, przy czym μ(x)=μ (y) ↔ t x = t y co należy czytać nastepująco – przypisujemy ten sam adres obiektom o takich samych opisach deskryptorowych. Tworzymy listy inwersyjne (oznaczane przez α(d i )), czyli listy adresów tych obiektów, które w swoim opisie zawierają deskryptor di (d i є t x ). Zapisujemy to jako: α(d i ) = {n 1 ,...,n z }, gdzie d i = (a i , v i ), a i є A, v i є V ai . Tworzymy tyle list inwersyjnych ile mamy deskryptorów w systemie.
© COPYRIGHT 2004 MARCIN KARWIŃSKI & MARCIN DZIĘGIELEWSKI 5 z 19 Zadawanie pytań, uzyskiwanie odpowiedzi – czyli jak to działa... Pytania do tak zdefiiowanego systemu S zadajemy w postaci termu t będącego sumą termów składowych t = t 1 +...+ t m . • Termy składowe pytania mogą być pojedynczymi deskryptorami, a więc term t jest postaci: t = d 1 + d 2 + d 3 + ... + d k . Opowiedź na pytanie t otrzymujemy bezpośrednio przez wygenerowanie list inwersyjnych dla deskryptorów występujących w pytaniu. Zatem: σ(t) = α(d 1 ) u α(d 2 ) u...u α(d k ). • Termy składowe mają postać iloczynu deskryptorów. Odpowiedź na term t jest więc sumą odpowiedzi na termy składowe: σ(t) = σ(t 1 ) u σ(t 2 ) u...u σ(t m ). Odpowiedź na trm składowy t i otrzymujemy jako przecięcie (część wspólna) list inwersyjnych związanych z deskryptorami występującymi w pytaniu t i : σ(t i ) = α(d 1 ) n α(d 2 ) n...n α(d k ), gdzie t i = d 1 ∙ d 2 ∙...∙ d k . Jeśli w listach inwersyjnych występowały adresy obiektów, to kolejnym krokiem będzie znalezienie obiektów odpowiadających tym adresom. Ogólnie więc biorąc odpowiedź na zapytanie t, będące sumą termów składowych jest sumą odpowiedzi na termy składowe: σ(t) = σ(t 1 ) u σ(t 2 ) u...u σ(t m ), przy czym σ(t i ) = {x є X, μ(x)=n i oraz n i є N' = ∩ j α(d j ), gdzie N' є N, a d j є t i }. Odpowiedź na pytanie t jest sumą odpowiedzi na pytania składowe, przy czym odpowiedź na pytanie składowe uzyskujemy jako przecięcie list inwersyjnych związanych z deskryptorami występującymi w pytaniu składowym. Metoda ta wnosi dużą redundancję, którą można opisać wzorem: R = (∑ r i=1 #α(d i ) – N)/N, gdzie r – liczba deskryptorów w systemie, N – liczba obiektów (lub adresów), a symbol #x oznacza moc zbioru x. Modyfikacje, czyli ulepszamy jedno, pogarszamy drugie... bilans równa się zero ;-) Jak zwykle modyfikacje wprowadzane do metody klasycznej mają na celu zlikwidowanie jakichś wad tej pierwotnej metody, bądź też mają za zadanie polepszyć/podrasować te cechy, z których dana metoda słynie i dzięki którym jest tak szeroko wykorzystywana. Już pobieżna analiza wykazuje, iż w metodzie list inwersyjnych obiekty pamiętane są wielokrotnie. Wynika stąd istotna wada tej metody – jest nią duża redundancja. Oczywiste więc że modyfikacje w większości zostały stworzone dla zmniejszenia redundancji w systemie. Modyfikacje pamięciowe Modyfikacje tej grupy mają na celu zmniejszenie zajętości pamięci przez listy inwersyjne. Należą do nich proste modyfikacje związane z innym zapisem kartoteki wyszukiwawczej: • zaznaczanie przedziałów elementów • pamiętanie list zanegowanych • tworzenie list zredukowanych dla dwóch deskryptorów: w danej liście początek odnosi się do pierwszego deskryptora, środek do obydwu, końcówka do drugiego a także te które oprócz samego zmiejszenia zajętości pamięci przyśpieszają dodatkowo dla pewnej klasy pytań funkcjonowanie systemu wyszukiwania informacji, np: • MLI ze zmniejszonym zbiorem list inwersyjnych: w tej metodzie listy nie są tworzone dla wszystkich deskryptorów występujących w opisach obiektów, a dla pewnego podzbioru D' є D tych deskryptorów. Wybrany podzbiór D' może być zbiorem deskryptorów najczęściej występujących w pytaniach do systemu S lub zbiorem deskryptorów pewnego atrybutu (ew. Atrybutów), co jest związane z modyfikacjami MLP. • MLI z dekompozycją obiektową polega z kolei na tym by zdekomponować system S o ile to możliwe w taki sposób, iż otrzymamy podsystemy o zmniejszonej liczbie obiektów, to znaczy: S = U n i=1 S i ,
Page 1 and 2: © COPYRIGHT 2004 MARCIN KARWIŃSKI
Page 3: © COPYRIGHT 2004 MARCIN KARWIŃSKI
Page 19: © COPYRIGHT 2004 MARCIN KARWIŃSKI

sprawozdanie z metody list inwersyjnych

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?