Search for synonyms in Wikipedia - Science Library

More documents

Recommendations

Info

- 38 - 3. Учёт частотности слов и расстояния в таксономии res c 1, c 2 =max C ∈S c 1, c 2 [−logP C ] Расстояние res [151], [152] 2∗log P c l<strong>in</strong> c 1, c 2 = 0 log P c 1 log P c 2 Расстояние l<strong>in</strong> 1 [128] 4. Учёт пересечения текста пересечение текста (глоссы WordNet) Lesk, 1986 [74] extended gloss overlap – пересечение глосс с учётом глосс соседних концептов WordNet relate gloss /text t 1, t 2 =tanh overlap t 1, t 2 length t 1 length t 2 Banerjee & Pedersen, 2003 [75] [173] Расстояние Google – это мера семантической связности, вычисленная на основе числа страниц, полученных с помощью поисковика Google для заданного набора ключевых слов. В таблице приведена формула вычисления нормализованного расстояния Google (NGD) для двух слов: x и y, где М – это общее число веб-страниц, проиндексированных Google; f(x) и f(y) – число страниц, содержащих ключевые слова x и y, соответственно; f(x, y) – число страниц, содержащих сразу и x, и y. Если x и y на всех страницах встречаются вместе, то полагают NGD=0, если только по отдельности, то NGD=∞. Выделим класс метрик, вычисляющих сходство на основе данных таксономии (табл. 1.2). Данные метрики используются для вычисления сходства концептов WordNet [74], [99], [128], [151], [152], [186], GermaNet [139], ВП [173]. В книге [99] Leacock и Chodorov предложили вычислять близость концептов как расстояние между концептами в таксономии, нормализованное за счёт учёта глубины таксономии. В формуле lch c 1, c 2 =−log length c 1,c 2 2D , функция length(c 1 , c 2 ) – это число вершин вдоль кратчайшего пути между вершинами c 1 и c 2 ; D – максимальная глубина таксономии. В работе [99] авторы рассмотрели только одно отношение is-a и только между существительными. 1 Данная метрика получила развитие в работе [146], см. метод извлечения контекстно связанных слов, стр. 35.
- 39 - В работе [186] предложена формула, учитывающая как глубину концептов в иерархии, так и глубину ближайшего общего родителя lcs (least lcs c common subsumer): wup c 1, c 2 = 1, c 2 depth c 1 depth c 2 Резник [151] предложил считать, что два слова тем более похожи, чем более информативен концепт, к которому соотнесены оба слова, то есть чем ниже в таксономии находится общий верхний концепт (синсет в WordNet). 1 При построении вероятностной функции P(C), потребуем, чтобы вероятность концепта не уменьшалась при движении вверх по иерархии: res c 1, c 2 =max C ∈S c 1, c 2 [−logP C ] . Тогда более абстрактные концепты будут менее информативны. Резник предложил оценивать вероятность через freq C частоту синонимов концепта в корпусе таким образом: P C = N freq C = ∑ n ∈words C count n , где words(C) – это существительные 2 , имеющие значение C; при этом N – общее число существительных в корпусе. Пусть, если для двух концептов ближайшим общим концептом является корневая категория, то сходство равно нулю. В работе [173] метрика Резника res была адаптирована к ВП и информативность категории P(C) вычислялась как функция от числа гипонимов (категорий в ВП), а не статистически 3 (то есть не посчитали частотность термов в ВП): res hypo c 1, c 2 =1− log hypo lcs c 1, c 2 1 logC где lcs — ближайший общий родитель концептов с 1 и с 2 , hypo — число гипонимов 4 этого родителя, а С — общее число концептов в иерархии. . , , 1 Заметим, что в ВП у слова обычно несколько категорий, то есть может быть несколько ближайших общих категорий. 2 В экспериментах Резник оценивал сходство существительных, учитывал отношение WordNet IS-A (гипонимия). 3 Возможно, это одна из причин, почему мера res hypo показала в экспериментах [173] относительно слабый результат. 4 Гипонимы категории K в Википедии – это все подкатегории К, а также все статьи, принадлежащие этим подкатегориям и категории К.
Page 1 and 2: Учреждение Российс
Page 3 and 4: 2.4 ВЫЧИСЛЕНИЕ МЕРЫ
Page 5 and 6: - 5 - Введение Некото
Page 7 and 8: - 7 - лингвосемантич
Page 9 and 10: - 9 - указывать - во с
Page 11 and 12: - 11 - Ещё одна актуал
Page 13 and 14: - 13 - 5. Впервые предл
Page 15 and 16: - 15 - визуализацией
Page 17 and 18: - 17 - 4. Разработана и
Page 19 and 20: - 19 - Положения, выно
Page 21 and 22: - 21 - противопоставл
Page 23 and 24: - 23 - лексико-семант
Page 25 and 26: - 25 - 1. Каждому текст
Page 27 and 28: - 27 - ii. идентификато
Page 29 and 30: - 29 - Countries and Cities) 1 бы
Page 31 and 32: - 31 - многозначных с
Page 33 and 34: - 33 - Алгоритм извле
Page 35 and 36: - 35 - LSA [100], WikiRelate! [173]
Page 37: - 37 - ∣X ∩Y ∣ min ∣X ∣,
Page 41 and 42: - 41 - предназначенны
Page 43 and 44: - 43 - коллекциями до
Page 45 and 46: - 45 - (получение по у
Page 47 and 48: - 47 - Hirst-St.Onge, мера пе
Page 49 and 50: - 49 - засвидетельств
Page 51 and 52: - 51 - семантические
Page 53 and 54: - 53 - Данные этих про
Page 55 and 56: - 55 - В [162] выделяют т
Page 57 and 58: - 57 - связей предмет
Page 59 and 60: - 59 - Рис. 2. Указание
Page 61 and 62: - 61 - Рис. 4. Визуальн
Page 63 and 64: - 63 - поиска) для пос
Page 65 and 66: - 65 - Таким образом,
Page 67 and 68: - 67 - результатов по
Page 69 and 70: - 69 - Причиной испол
Page 71 and 72: - 71 - Детальное опис
Page 73 and 74: - 73 - вес вершины, чт
Page 75 and 76: - 75 - • многозначные
Page 77 and 78: - 77 - Адаптированный
Page 79 and 80: - 79 - множества А явл
Page 81 and 82: while (E > ε) { } - 81 - Для к
Page 83 and 84: - 83 - • c weight - вес кла
Page 85 and 86: - 85 - Варианты объед
Page 87 and 88: - 87 - Необходимо най
Page 89 and 90:
- 89 - В шагах 13, 14, 19 р
Page 91 and 92:
- 91 - 2.5 Показатели ч
Page 93 and 94:
- 93 - (мера основана
Page 95 and 96:
- 95 - соседей совпад
Page 97 and 98:
- 97 - указаны на рис.
Page 99 and 100:
- 99 - Модуль визуали
Page 101 and 102:
- 101 - На рис. 13 показ
Page 103 and 104:
- 103 - Рис. 14. Задание
Page 105 and 106:
- 105 - 3. Глобализация
Page 107 and 108:
- 107 - • имя компьюте
Page 109 and 110:
- 109 - индексировани
Page 111 and 112:
- 111 - DB» из модуля «TF
Page 113 and 114:
- 113 - полей БД позво
Page 115 and 116:
- 115 - Выводы по глав
Page 117 and 118:
- 117 - 4. Эксперименты
Page 119 and 120:
- 119 - Replicant, Sentience, Parah
Page 121 and 122:
- 121 - близких по зна
Page 123 and 124:
- 123 - позволяет отсе
Page 125 and 126:
- 125 - 3. Точность пои
Page 127 and 128:
- 127 - P, % 30 25 20 15 10 Сам
Page 129 and 130:
- 129 - получить из ра
Page 131 and 132:
- 131 - Пример оценки
Page 133 and 134:
- 133 - 0.01. Усреднённы
Page 135 and 136:
- 135 - 4.2 Сессия норма
Page 137 and 138:
- 137 - Рис. 28. Определ
Page 139 and 140:
- 139 - Таблица 4.10 N Во
Page 141 and 142:
- 141 - Данный преобра
Page 143 and 144:
- 143 - Эксперименты п
Page 145 and 146:
- 145 - Проверка выпол
Page 147 and 148:
- 147 - - «ruwiki 08 corpus» (л
Page 149 and 150:
- 149 - сохраняется тр
Page 151 and 152:
- 151 - Рис. 34. Фрагмен
Page 153 and 154:
- 153 - Выводы по глав
Page 155 and 156:
- 155 - Заключение Одн
Page 157 and 158:
- 157 - Список источни
Page 159 and 160:
- 159 - [22]. Гулин А., Ма
Page 161 and 162:
- 161 - [45]. Нечепуренк
Page 163 and 164:
- 163 - [68]. Шилдт Г. Java 2
Page 165 and 166:
- 165 - [89]. Calado P., Ribeiro-Ne
Page 167 and 168:
- 167 - Intelligence (IJCAI-07). In
Page 169 and 170:
- 169 - [132]. Melnik S., Garcia-Mo
Page 171 and 172:
- 171 - Technology Conference of th
Page 173 and 174:
- 173 - [169]. Smirnov A., Levashov
Page 175 and 176:
- 175 - [189]. Zesch T., Mueller C.
Page 177 and 178:
Приложение 2. Акты в
Page 179 and 180:
- 179 -
Page 181 and 182:
- 181 - Махолёт|Экрано
Page 183 and 184:
- 183 - Приложение 5. В
Page 185 and 186:
- 185 - «Информатика»
Page 187 and 188:
- 187 - • В одну катег
show all

Search for synonyms in Wikipedia - Science Library

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?