sprawozdanie z metody list inwersyjnych

More documents

Recommendations

Info

© COPYRIGHT 2004 MARCIN KARWIŃSKI & MARCIN DZIĘGIELEWSKI 18 z 19 α(PrT,b.nowy)={10,12,13,14,15,22,33,34,35,36,37,38,39} W ten oto sposób usunęliśmy obiekt Nocoma, a także zaktualizowaliśmy wszystkie listy odnoszące się do usuniętego obiektu. Proces istotnie zakończony. Parametry MLI, czyli króciutkie podsumowanie... Struktura bazy danych Struktura w tej metoszie jest na pewno bardziej złożona aniżeli jej odpowiednik w metodzie list prostych. Bierze się to stąd, iż poza pamiętaniem opisów obiektów istnieje konieczność pamiętania w kartotece wyszukiwawczej wysoce redundantnego systemu list inwersyjnych utworzonych dla deskryptorów tego systemu. Dodatkowo, dla obiektów o dużych nazwach, bądź występujących w bardzo dużych systemach, dla ułatwienia i przyspieszenia czynności opartych na kartotece wyszukiwawczej, i dla jej zmniejszenia, wprowadza się funkcję adresową, która również wnosi pewną redundancję i pewne skomplikowanie owej struktury. Redundancja i zajętość pamięci Metoda ta wnosi dużą redundancję określaną wzorem: R = (∑ r i=1 #α(d i ) – N)/N, gdzie r – liczba deskryptorów w systemie, N – liczba obiektów (lub adresów), a symbol #x oznacza moc zbioru x. Pewne modyfikacje wpływają na zmniejszenie wartości ∑ r i=1 #α(d i ) w podsystemach, albowiem: 1. zmniejszają liczbę deskryptorów r, albo 2. skracają listy inwersyjne. Zatem modyfikacje tej grupy zmniejszają redundancję w podsystemach przy jednoczesnym zachowaniu lub tylko niewielkim zmniejszeniu szybkości pracy systemu. Inne modyfikacje zmniejszają redundancję, kosztem niepełnej informacji uzyskiwanej bezpośrednio bazując na zmodyfikowanej kartotece wyszukiwawczej. Przez co są odpowiednie tylko dla określonej klasy pytań. Aktualizacja bazy danych Wszelkie aktualizacje związane z liczbą obiektów pamiętanych w systemie, zmianą ich opisów, czy pełną reorganizacją są wykonywane w podobny sposób. Każda aktualizacja wymaga bowiem dokonania zmian w listach inwersyjnych niezależnie od dodania czy usunięcia samego opisu obiektu w systemie. W przypadku zmian w opisie natomiast, jesteśmy zmuszeni usunąć obiekt o nieaktualnym opisie, wprowadzić nowy aktualny, oraz zreorganizować i zupdate'wać odpowiednie listy inwersyjne. Wprowadzenie natomiast większości modyfikacji pociąga za sobą w tym procesie całościową reorganizację bazy danych. Czas wyszukiwania Czas wyszukiwania w tej metodzie jest bez wątpienia bardzo krótki. W przypadku gdy pytanie jest zadane w postaci sumy deskryptorów, tj. t = d 1 + d 2 + d 3 + ... + d k odpowiedź jest niemal natychmiastowa i czas wyszukiwania τ jest nieomal równy czasowi generowania list τ g : τ = τ g , czy też jak kto woli czasowi wyszukania w kartotece wyszukiwawczej odpowiednich, uprzednio wygenerowanych list τ s i ich połączenia. W przypadku gdy pytanie zadajemy w postaci termu t będącego sumą termów składowych t = t 1 +...+ t m , to znaczy pytanie jest sumą pytań składowych t i = d 1 ∙ d 2 ∙...∙ d k czas odpowiedzi na pytanie t jest dłuższy, gdyż dochodzi czas potrzebny na znalezienie części wspólnej wygenerowanych lis: τ = ∑ i (τ gi + τ pi ), gdzie: τ gi – czas generowania i-tej listy, a τ pi – czas porównywania i-tej listy z resztą. Czas generowania zależy od pytania t i – bo zależy od liczby deskryptorów w pytaniu, czas porównywania z kolei zależy od liczby deskryptorów pytania t i oraz od długości list związanych z tym pytaniem (τ p > τ g ). Modyfikacje mogą prowadzić do dodania czasu przeglądu list, zatem czas wyszukiwania będzie równy: τ' = τ + τ 0 ,
© COPYRIGHT 2004 MARCIN KARWIŃSKI & MARCIN DZIĘGIELEWSKI 19 z 19 gdzie τ 0 – czas wynikający z konieczności przeglądu zupełnego pewnych opisów obiektów z wygenerowanej listy. Język wyszukiwania W przypadku tej metody mozemy zastosować rózne języki – tworzenie list jest łatwe przy zadanym zbiorze deskryptorów, stąd też stosowanie prostego języka deskryptorowego jest bardzo dogodne. W przypadku systemu pracującego w języku naturalnym konieczne jest natomiast wyodrębnienie zbioru deskryptorów charakterystycznych dla danej dziedziny w naszym systemie. Tryb pracy Ze względu na stosunkowo czasochłonną aktualizację metoda ta używana jest raczej przy pracy wsadowej (bez konieczności bieżęcej aktualizacji). Wnioski, czyli jeszcze trochę ględzenia na koniec... W odróżnieniu od innych metod wyszukiwania, metoda list inwersyjnych przy zapytaniu nie wymaga przeszukiwania całej bazy. Stąd też, a także z faktu pewnego przyśpieszenia procesu wyszukiwania, można powiedzieć że jest to metoda, w której dla pewnej klasy zapytań osiągane są bardzo krótkie czasy wyszukiwania odpowiedzi. Z tego też powodu jest to metoda często stosowana w sytemach wyszukiwania informacji wszelakiego typu. Wadą tej metody, i to stosunkowo istotną, może być to, że na przetrzymywanie kartoteki wyszukiwawczej potrzebna jest dodatkowa pamięć. Jednakże istnieją pewne modyfikacje prawie likwidujące lub silnie minimalizujące tą wadę. W metodzie tej, dla każdego z deskryptorów wypisujemy kolejno adresy wszystkich obiektów zawierających dany deskryptor. Dla pytań bardziej szczegółowych należy wyszukać listy inwersyjne dla każdego z deskryptorów pytania, a odpowiedź powstaje przez określenie części wspólnej tych list. Sposób ten jest alternatywnym do sposobu dla list łańcuchowych dla pytań szczegółowych. Z założenia w metodzie list inwersyjnych nie pamięta się długości list dla poszczególnych deskryptorów (brak tablicy adresowej), tak więc obliczanie części wspólnej może okazać się znacznie bardziej opłacalne pod względem czasowym. Metody list prostych i list inwersyjnych umożliwiały uzyskiwanie bardzo szybkich odpowiedzi na pytania ogólne (np. jednodeskryptorowe). Pytania bardziej szczegółowe znacznie wydłużały proces wyszukiwania. Oczywiście pojęcie "długo" czy "krótko" są pojęciami względnymi. W zależności od implementacji programowej względny jest również stopień zajęcia pamięci przez odnośniki, tablice adresowe (np. dla list łańcuchowych), listy inwersyjne. Do baz niewielkich, gdzie zakładamy, że będziemy do bazy zadawać pytania ogólne - na pewno metody podane wyżej będą wystarczające. W epoce komputerów opracowano jednak szereg metod matematycznych, pozwalających na bardzo szybkie uzyskiwanie odpowiedzi na pytanie szczegółowe w bazach danych o wielu elementach. Postaramy się, w ramach następnych sprawozdań, przedstawić przynajjmniej najpopularniejsze dwie z nich: metodę Chowa i metodę Luma. Mamy nadzieje, ze całe nasze sprawozdanie udowodniło konieczność stosowania bardziej efektywnych algorytmów, oraz fakt iż lepszy algorytm to więcej niz lepszy komputer. Kiepski algorytm potrafi zadławić nawet najnowszy superkomputer, podczas gdy znalezienie nowego sposobu wyszukiwania informacji, który byłby znacznie szybszy pozwala znacznie skrócić czasy wyszukiwania i to przy znacznie niższych kosztach. Ostatecznie więc podsumowując... W metodzie list inwersyjnych) czasy odpowiedzi na pytania jednodesktyptorowe są bardzo krótkie, ale to przyspieszenie wykonane jest kosztem dużej redundancji! C.D.N ;-)
Page 1 and 2: © COPYRIGHT 2004 MARCIN KARWIŃSKI
Page 17: © COPYRIGHT 2004 MARCIN KARWIŃSKI

sprawozdanie z metody list inwersyjnych

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?