03.11.2014 Views

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Оглавление<br />

ВВЕДЕНИЕ......................................................................................................................................5<br />

ПОЛОЖЕНИЯ, ВЫНОСИМЫЕ НА ЗАЩИТУ...............................................................................................19<br />

1. АНАЛИЗ ПРОБЛЕМЫ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА И ПОИСКА<br />

СЕМАНТИЧЕСКИ БЛИЗКИХ СЛОВ......................................................................................20<br />

Проблема синонимии.............................................................................................................20<br />

1.1 ОСНОВНЫЕ АЛГОРИТМЫ ПОИСКА ПОХОЖИХ ИНТЕРНЕТ СТРАНИЦ, ПОИСКА СЛОВ БЛИЗКИХ ПО ЗНАЧЕНИЮ,<br />

ВЫЧИСЛЕНИЯ МЕРЫ СХОДСТВА ВЕРШИН ГРАФА......................................................................................26<br />

Алгоритмы анализа гиперссылок: HITS, PageRank, ArcRank, WLVM..............................27<br />

Алгоритмы построения и анализа ссылок: Similarity Flood<strong>in</strong>g, алгоритм извлечения<br />

синонимов из толкового словаря и другие...........................................................................31<br />

Алгоритмы статистического анализа текста: ESA, поиск контекстно-связанных<br />

слов..........................................................................................................................................34<br />

Метрики.................................................................................................................................36<br />

1.2 СИСТЕМЫ И РЕСУРСЫ ДЛЯ ОБРАБОТКИ ТЕКСТА................................................................................42<br />

GATE.......................................................................................................................................42<br />

Проект Диалинг.....................................................................................................................44<br />

Тезаурусы WordNet, РуТез, Викисловарь.............................................................................45<br />

Вики-ресурсы..........................................................................................................................51<br />

Корпус текстов вики-ресурса Википедия...........................................................................53<br />

Другие системы.....................................................................................................................55<br />

1.3 СИСТЕМЫ И СПОСОБЫ ГРАФИЧЕСКОГО ПРЕДСТАВЛЕНИЯ ТЕЗАУРУСОВ И РЕЗУЛЬТАТОВ ПОИСКА...............56<br />

1.4 ПОСТАНОВКА ЗАДАЧИ ИССЛЕДОВАНИЯ...........................................................................................62<br />

ВЫВОДЫ ПО ГЛАВЕ 1.......................................................................................................................64<br />

2. МЕТОДОЛОГИЧЕСКОЕ И МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ДЛЯ<br />

ПОСТРОЕНИЯ СПИСКОВ СЕМАНТИЧЕСКИ БЛИЗКИХ СЛОВ В КОРПУСЕ<br />

ТЕКСТОВЫХ ДОКУМЕНТОВ С ГИПЕРССЫЛКАМИ И КАТЕГОРИЯМИ.................66<br />

2.1 ПОДХОД К ПОИСКУ СЕМАНТИЧЕСКИ БЛИЗКИХ СЛОВ.........................................................................66<br />

2.2 HITS АЛГОРИТМ (ФОРМАЛИЗАЦИЯ, АНАЛИЗ, ПОИСК СИНОНИМОВ)....................................................69<br />

Формализация задачи............................................................................................................69<br />

Дополнительные замечания..................................................................................................71<br />

Тематическая связность авторитетных страниц...........................................................73<br />

Применение способов оценки результатов поиска в Интернет к HITS алгоритму......73<br />

Поиск синонимов с помощью HITS алгоритма...................................................................74<br />

2.3 АДАПТИРОВАННЫЙ HITS АЛГОРИТМ, ВКЛЮЧАЮЩИЙ АЛГОРИТМ ИЕРАРХИЧЕСКОЙ КЛАСТЕРИЗАЦИИ......76<br />

Формализация понятия «похожие вершины» графа.........................................................76<br />

Адаптированный HITS алгоритм........................................................................................77<br />

Кластеризация на основе категорий статей....................................................................81<br />

Варианты объединения результатов АHITS алгоритма и алгоритма кластеризации.85<br />

Временная сложность алгоритма......................................................................................85<br />

Эвристика: фильтрация на основе категорий статей....................................................86

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!