Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
- 34 -<br />
вес). Вычисления проводились на английском словаре Вебстера.<br />
Построенный граф содержал 112 169 вершин, 1 398 424 рёбер.<br />
Алгоритмы статистического анализа текста: ESA, поиск<br />
контекстно-связанных слов<br />
Алгоритм ESA<br />
В работе [103] авторы описали алгоритм ESA, позволяющий представить<br />
значение любого текста в терминах концептов ВП. 1 Оценка эффективности<br />
метода выполнена за счёт автоматического вычисления степени<br />
семантической связи между фрагментами текста произвольной длины на ЕЯ.<br />
Для ускорения работы построили инвертированный индекс: слову<br />
соответствует список концептов, в статьях которых оно появляется. Была<br />
выполнена предобработка концептов ВП:<br />
• удалили концепты, которым соответствуют небольшие статьи<br />
(меньше 100 слов, меньше 5 исходящих и входящих ссылок);<br />
• удалили стоп-слова и редкие слова;<br />
• получили леммы слов (тексты на английском языке).<br />
В алгоритме ESA на вход подаются два текста. По ним строятся два вектора<br />
из концептов ВП следующим образом. По фрагменту текста (1) строится<br />
вектор по TF-IDF схеме, (2) из инвертированного индекса выбираются<br />
концепты и объединяются во взвешенный вектор 2 . Произведение этих<br />
векторов и даёт вектор концептов ВП релевантных фрагменту текста. Для<br />
сравнения текстов сравнивают два вектора, например, с помощью<br />
косинусного коэффициента.<br />
Эксперименты в работе [103] показали преимущество ESA в точности<br />
поиска семантически близких слов в ВП по сравнению с алгоритмами поиска<br />
1 ESA – это аббревиатура от «Explicit Semantic Analysis» (явный семантический анализ). Название выбрано<br />
в противовес «скрытому семантическому анализу» (LSA), поскольку в ESA концепт – это название<br />
статьи. То есть концепты явные, формулируются человеком, легко объяснить их значение.<br />
2 Причём связь слова и концепта не указывается, если концепты получили небольшой вес для данного<br />
слова. Для вычисления взвешенного вектора используется параметр k – запись в инвертированном<br />
индексе, указывающая на степень связи слова и концепта. Из статьи [103] не ясно, как вычисляется эта<br />
степень связи слова и концепта, возможно, как (1) относительное число повторов слова в статье,<br />
(2) позиция в тексте (чем ближе к началу статьи, тем больше вес).