Search for synonyms in Wikipedia - Science Library

More documents

Recommendations

Info

- 26 - 1.1 Основные алгоритмы поиска похожих интернет страниц, поиска слов близких по значению, вычисления меры сходства вершин графа Алгоритмы, выполняющие поиск похожих документов и близких по значению слов, можно условно 1 разделить на группы: 2 1. поиск на основе анализа ссылок (вычисления на графах) i. ссылки заданы явно гиперссылками (HITS [125], PageRank [85], [102], ArcRank [174], Green [145], WLVM [134]); ii. ссылки нужно построить 3 (Similarity Flooding [132], алгоритм извлечения синонимов из толкового словаря [84], [83], [174]); 2. поиск на основе анализа текста: iii. статистические алгоритмы (ESA [103], сходство коротких текстов [159], извлечение контекстно связанных слов на основе частотности словосочетаний [146]); iv. автоматическое понимание текстов 4 ; 3. поиск на основе анализа и ссылок и текста [81], [129] 5 . Для уточнения результатов поиска могут использоваться данные о семантически близких словах из тезаурусов Роже, WordNet, Moby, Викисловаря и др. Входными данными могут быть [106]: i. запрос, состоящий из ключевых слов, тогда будет выполняться поиск документов, похожих на запрос; 1 Практическая реализация может объединять возможности разных подходов. 2 См. также обзор и классификацию методов и приложений вычисления сходства коротких текстов в [147]. 3 Для определения силы связи между словами по совместной встречаемости в документах либо в общем контексте — могут использоваться специальные алгоритмы [40]. 4 На сегодняшний момент, автору не встретились работы, посвящённые поиску семантически близких слов с помощью систем автоматического понимания текстов (АПТ). О системах АПТ см. в [41]. 5 В работе [129] предложена мера вычисления семантического сходства интернет страниц на основе учёта и ссылок, и текста. Сходство текста вычисляется с помощью TF (формула косинусного коэффициента). Сходство ссылок вычисляется с помощью формулы «частота ссылок – обратная частота документов» (то есть в формуле TF-IDF документы оставили, а слова заменили на ссылки).
- 27 - ii. идентификатор документа, будут искаться документы, похожие на заданный. 6 Алгоритмы анализа гиперссылок: HITS, PageRank, ArcRank, WLVM Алгоритм HITS 2 Алгоритм HITS (Hyperlink-Induced Topic Selection) 3 позволяет находить Интернет страницы, соответствующие запросу пользователя, на основе информации, заложенной в гиперссылки [125]. Демократическая природа Интернет позволяет использовать структуру ссылок как указатель значимости страниц (эта идея есть и в алгоритме PageRank [85], встроенном в поисковик Google). Страница p, ссылаясь на страницу q, полагает q авторитетной, стоящей ссылки. Для поиска существенно, что страница q соответствует тематике страницы p. Поиск в Интернет (Web search) – это нахождение релевантных страниц, соответствующих запросу. Можно выделить два крайних типа запросов: конкретный (проблема недостатка страниц) и чрезмерно общий (проблема избытка страниц). При наличии общего запроса ставится задача дистилляции широких поисковых тем с помощью авторитетных источников по этим темам. HITS алгоритм использует такие понятия, как: авторитетный документ и хаб-документа (или авторитетная и хаб-страница). Авторитетный документ – это документ, соответствующий запросу пользователя, имеющий больший удельный вес среди документов данной тематики, то есть большее число документов ссылаются на данный документ. Хаб-документ – это документ, содержащий много ссылок на авторитетные документы. 4 6 Возможность поиска похожих документов реализована в современных поисковых системах [52], например, Яндекс («похожи на страницу»), Google («Find pages similar to the page»). Достоинство такого вида поиска для пользователя – нужно нажать одну кнопку, для системы – документ содержит больше информации, чем запрос пользователя. 2 Детальный анализ алгоритма, постановка задачи, дополнительные замечания, а также поиск синонимов с помощью HITS алгоритма представлены в гл. 2, стр. 69. 3 Ещё одно название HITS алгоритма – «Сonnectivity analysis algorithm for hyperlinked environment» – предложено в работе [81]. 4 Оригинальное расширение HITS алгоритма предложено в работе [136]. Авторы построили и проанализировали граф Темы-Системы для поиска наиболее успешных тем, выявляющих слабые и
Page 1 and 2: Учреждение Российс
Page 3 and 4: 2.4 ВЫЧИСЛЕНИЕ МЕРЫ
Page 5 and 6: - 5 - Введение Некото
Page 7 and 8: - 7 - лингвосемантич
Page 9 and 10: - 9 - указывать - во с
Page 11 and 12: - 11 - Ещё одна актуал
Page 13 and 14: - 13 - 5. Впервые предл
Page 15 and 16: - 15 - визуализацией
Page 17 and 18: - 17 - 4. Разработана и
Page 19 and 20: - 19 - Положения, выно
Page 21 and 22: - 21 - противопоставл
Page 23 and 24: - 23 - лексико-семант
Page 25: - 25 - 1. Каждому текст
Page 29 and 30: - 29 - Countries and Cities) 1 бы
Page 31 and 32: - 31 - многозначных с
Page 33 and 34: - 33 - Алгоритм извле
Page 35 and 36: - 35 - LSA [100], WikiRelate! [173]
Page 37 and 38: - 37 - ∣X ∩Y ∣ min ∣X ∣,
Page 39 and 40: - 39 - В работе [186] пре
Page 41 and 42: - 41 - предназначенны
Page 43 and 44: - 43 - коллекциями до
Page 45 and 46: - 45 - (получение по у
Page 47 and 48: - 47 - Hirst-St.Onge, мера пе
Page 49 and 50: - 49 - засвидетельств
Page 51 and 52: - 51 - семантические
Page 53 and 54: - 53 - Данные этих про
Page 55 and 56: - 55 - В [162] выделяют т
Page 57 and 58: - 57 - связей предмет
Page 59 and 60: - 59 - Рис. 2. Указание
Page 61 and 62: - 61 - Рис. 4. Визуальн
Page 63 and 64: - 63 - поиска) для пос
Page 65 and 66: - 65 - Таким образом,
Page 67 and 68: - 67 - результатов по
Page 69 and 70: - 69 - Причиной испол
Page 71 and 72: - 71 - Детальное опис
Page 73 and 74: - 73 - вес вершины, чт
Page 75 and 76: - 75 - • многозначные
Page 77 and 78:
- 77 - Адаптированный
Page 79 and 80:
- 79 - множества А явл
Page 81 and 82:
while (E > ε) { } - 81 - Для к
Page 83 and 84:
- 83 - • c weight - вес кла
Page 85 and 86:
- 85 - Варианты объед
Page 87 and 88:
- 87 - Необходимо най
Page 89 and 90:
- 89 - В шагах 13, 14, 19 р
Page 91 and 92:
- 91 - 2.5 Показатели ч
Page 93 and 94:
- 93 - (мера основана
Page 95 and 96:
- 95 - соседей совпад
Page 97 and 98:
- 97 - указаны на рис.
Page 99 and 100:
- 99 - Модуль визуали
Page 101 and 102:
- 101 - На рис. 13 показ
Page 103 and 104:
- 103 - Рис. 14. Задание
Page 105 and 106:
- 105 - 3. Глобализация
Page 107 and 108:
- 107 - • имя компьюте
Page 109 and 110:
- 109 - индексировани
Page 111 and 112:
- 111 - DB» из модуля «TF
Page 113 and 114:
- 113 - полей БД позво
Page 115 and 116:
- 115 - Выводы по глав
Page 117 and 118:
- 117 - 4. Эксперименты
Page 119 and 120:
- 119 - Replicant, Sentience, Parah
Page 121 and 122:
- 121 - близких по зна
Page 123 and 124:
- 123 - позволяет отсе
Page 125 and 126:
- 125 - 3. Точность пои
Page 127 and 128:
- 127 - P, % 30 25 20 15 10 Сам
Page 129 and 130:
- 129 - получить из ра
Page 131 and 132:
- 131 - Пример оценки
Page 133 and 134:
- 133 - 0.01. Усреднённы
Page 135 and 136:
- 135 - 4.2 Сессия норма
Page 137 and 138:
- 137 - Рис. 28. Определ
Page 139 and 140:
- 139 - Таблица 4.10 N Во
Page 141 and 142:
- 141 - Данный преобра
Page 143 and 144:
- 143 - Эксперименты п
Page 145 and 146:
- 145 - Проверка выпол
Page 147 and 148:
- 147 - - «ruwiki 08 corpus» (л
Page 149 and 150:
- 149 - сохраняется тр
Page 151 and 152:
- 151 - Рис. 34. Фрагмен
Page 153 and 154:
- 153 - Выводы по глав
Page 155 and 156:
- 155 - Заключение Одн
Page 157 and 158:
- 157 - Список источни
Page 159 and 160:
- 159 - [22]. Гулин А., Ма
Page 161 and 162:
- 161 - [45]. Нечепуренк
Page 163 and 164:
- 163 - [68]. Шилдт Г. Java 2
Page 165 and 166:
- 165 - [89]. Calado P., Ribeiro-Ne
Page 167 and 168:
- 167 - Intelligence (IJCAI-07). In
Page 169 and 170:
- 169 - [132]. Melnik S., Garcia-Mo
Page 171 and 172:
- 171 - Technology Conference of th
Page 173 and 174:
- 173 - [169]. Smirnov A., Levashov
Page 175 and 176:
- 175 - [189]. Zesch T., Mueller C.
Page 177 and 178:
Приложение 2. Акты в
Page 179 and 180:
- 179 -
Page 181 and 182:
- 181 - Махолёт|Экрано
Page 183 and 184:
- 183 - Приложение 5. В
Page 185 and 186:
- 185 - «Информатика»
Page 187 and 188:
- 187 - • В одну катег
show all

Search for synonyms in Wikipedia - Science Library

Create successful ePaper yourself

Delete template?

Save as template?