Návod pro práci s GATE

nb.vse.cz
  • No tags were found...

Návod pro práci s GATE

Plnění ontologie pomocí GATE 5Tomáš Kliegr21.4.2009


Plnění ontologií (Ontology population)• Do existující ontologie přidáváme instancekonceptů• Tato úloha může probíhat ručně, např. v Protege,nebo je možné instance extrahovat z textůautomaticky• Přístupy k automatické extrakci jsou založeny nastatistické analýze textu nebo na lexikosyntaktickýchvzorech• GATE je vhodný především pro extrakci pomocílexiko‐syntaktických vzorů


Přehled procesu• Aby mohla být ontologie naplněna, je třebaidentifikovat instance cílových konceptů v textu.• Instance je typicky reprezentována jedním nebo víceropo sobě následujícími tokeny.• To zda je skupina tokenů identifikována jako instanceurčitého konceptu se určuje na základě podmínek.• Tyto podmínky nepracují typicky s konkrétními řetězci,ale s vlastnostmi tokenů zachycenými ve formě anotacípřiřazených různými lingvistickými nástroji (processingresources) obsaženými v GATE.• Anotace lze zpracovat pomocí jazyka JAPE


Příklady vlastností• Příkladem vlastností, které lze využít je:– Slovní druh tokenu (Part‐Of‐Speech)– Kmen (stem) nebo Kořen (lemma) tokenu– Seskupení tokenů do jmenné fráze (noun phrase chunking )‐ výrazjehož hlavou je podstatné jméno– Přítomnost tokenu nebo skupiny tokenů na seznamu (gazetteer)– Řešení anafor ‐ typicky na co odkazuje zájmeno (v Gate Pronominalcoreference)– Token je součástí nepřímé řeči (Reported Speech)– Token je součástí klíčové fráze (Keyphrase)– Název elementu v původním dokumentu, v jehož obsahu byl tokenumístěn (Original Markup)• Tyto vlastnosti jsou zjišťovány moduly (PRs) a ukládány do anotací• Operace nad anotacemi vč. tvorby nových anotací: JAPE: JavaAnnotations Pattern Engine


Příklad• Následující ontologii chceme naplnit jménypolitických stran


Načtení dat• Konkrétní politické strany lze najít v textu, který máme k dispozici• Tributes poured in from around the world Thursday to thelate Labour Party leader John Smith, who died earlier from amassive heart attack aged 55.• In Washington, the US State Department issued a statementregretting "the untimely death" of the rapier‐tongued Scottishbarrister and parliamentarian.• …Nejdříve pod Language Resourceszaložit nový Corpus, následněnačíst dokument (NewDocument) a přiřadit ho do nověvytvořeného korpusu.


Načtení PRs• Před definicí součástí Pipeline je třeba načístpoužité lingvistické modulyNejsou‐li v nabídce, je třeba jenahrát přes File‐manage CREOLEpluginsJAPE Transducery vyžadují nastavení cestK JAPE GramatikámPoužijte:Onto5.JapeParty3.Jape


Nastavení Pipeline• Provádí se pomocí Processing Resources (PRs), kteréjsou sekvenčně spouštěny pomocí Pipeline.• Pod uzlem Application vytvořit New Corpus Pipeline.Parametrem je korpus vytvořený v předcházejícímkroku.PRs nabízené v okně Loaded LRs uspořádejtenásl. způsobem:• Pipeline spusťte


Výsledek 1


JAPE pro extrakci politických stran


Vložení výsledku do ontologie• Načíst ontologii pomocí OWLIM pluginu• Vytvořit manipulační JAPE gramatiku, kterávezme anotace určitého typu a vloží je jakoinstance předdefinovaného konceptuPoužijte souborontoDemo.rdf


JAPE pro vkládání do ontologie• Část 1: vytažení jména strany


JAPE pro vkládání do ontologie• Část 2: nalezení konceptu „Party“ v ontologii a vloženíinstance


Aktualizace pipeliny


Výsledek 2


Úkol• Jakým způsobem je možné výsledky zlepšitpomocí gazetteru?• Seznam typů a subtypů uloženýchv předdefinovaném gazetteeru naleznete pokliknutí na gazetteer pod uzlem ProcessingResources.

More magazines by this user
Similar magazines