Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Оглавление<br />
ВВЕДЕНИЕ......................................................................................................................................5<br />
ПОЛОЖЕНИЯ, ВЫНОСИМЫЕ НА ЗАЩИТУ...............................................................................................19<br />
1. АНАЛИЗ ПРОБЛЕМЫ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА И ПОИСКА<br />
СЕМАНТИЧЕСКИ БЛИЗКИХ СЛОВ......................................................................................20<br />
Проблема синонимии.............................................................................................................20<br />
1.1 ОСНОВНЫЕ АЛГОРИТМЫ ПОИСКА ПОХОЖИХ ИНТЕРНЕТ СТРАНИЦ, ПОИСКА СЛОВ БЛИЗКИХ ПО ЗНАЧЕНИЮ,<br />
ВЫЧИСЛЕНИЯ МЕРЫ СХОДСТВА ВЕРШИН ГРАФА......................................................................................26<br />
Алгоритмы анализа гиперссылок: HITS, PageRank, ArcRank, WLVM..............................27<br />
Алгоритмы построения и анализа ссылок: Similarity Flood<strong>in</strong>g, алгоритм извлечения<br />
синонимов из толкового словаря и другие...........................................................................31<br />
Алгоритмы статистического анализа текста: ESA, поиск контекстно-связанных<br />
слов..........................................................................................................................................34<br />
Метрики.................................................................................................................................36<br />
1.2 СИСТЕМЫ И РЕСУРСЫ ДЛЯ ОБРАБОТКИ ТЕКСТА................................................................................42<br />
GATE.......................................................................................................................................42<br />
Проект Диалинг.....................................................................................................................44<br />
Тезаурусы WordNet, РуТез, Викисловарь.............................................................................45<br />
Вики-ресурсы..........................................................................................................................51<br />
Корпус текстов вики-ресурса Википедия...........................................................................53<br />
Другие системы.....................................................................................................................55<br />
1.3 СИСТЕМЫ И СПОСОБЫ ГРАФИЧЕСКОГО ПРЕДСТАВЛЕНИЯ ТЕЗАУРУСОВ И РЕЗУЛЬТАТОВ ПОИСКА...............56<br />
1.4 ПОСТАНОВКА ЗАДАЧИ ИССЛЕДОВАНИЯ...........................................................................................62<br />
ВЫВОДЫ ПО ГЛАВЕ 1.......................................................................................................................64<br />
2. МЕТОДОЛОГИЧЕСКОЕ И МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ДЛЯ<br />
ПОСТРОЕНИЯ СПИСКОВ СЕМАНТИЧЕСКИ БЛИЗКИХ СЛОВ В КОРПУСЕ<br />
ТЕКСТОВЫХ ДОКУМЕНТОВ С ГИПЕРССЫЛКАМИ И КАТЕГОРИЯМИ.................66<br />
2.1 ПОДХОД К ПОИСКУ СЕМАНТИЧЕСКИ БЛИЗКИХ СЛОВ.........................................................................66<br />
2.2 HITS АЛГОРИТМ (ФОРМАЛИЗАЦИЯ, АНАЛИЗ, ПОИСК СИНОНИМОВ)....................................................69<br />
Формализация задачи............................................................................................................69<br />
Дополнительные замечания..................................................................................................71<br />
Тематическая связность авторитетных страниц...........................................................73<br />
Применение способов оценки результатов поиска в Интернет к HITS алгоритму......73<br />
Поиск синонимов с помощью HITS алгоритма...................................................................74<br />
2.3 АДАПТИРОВАННЫЙ HITS АЛГОРИТМ, ВКЛЮЧАЮЩИЙ АЛГОРИТМ ИЕРАРХИЧЕСКОЙ КЛАСТЕРИЗАЦИИ......76<br />
Формализация понятия «похожие вершины» графа.........................................................76<br />
Адаптированный HITS алгоритм........................................................................................77<br />
Кластеризация на основе категорий статей....................................................................81<br />
Варианты объединения результатов АHITS алгоритма и алгоритма кластеризации.85<br />
Временная сложность алгоритма......................................................................................85<br />
Эвристика: фильтрация на основе категорий статей....................................................86