Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
- 48 -<br />
меры сходства сходства слов и предложений, обладающие особенностями:<br />
ассиметричность, транзитивность, сходимость. Благодаря транзитивности<br />
данный метод позволяет оценивать сходство редких фраз, отсутствующих в<br />
корпусе. Были использованы данные словарей Webster, Ox<strong>for</strong>d и WordNet. В<br />
экспериментах WordNet показал слабые результаты. Возможные причины<br />
таковы [121]:<br />
• архитектура WordNet не предназначена для хранения данных о<br />
контекстном сходстве;<br />
• расстояние в дереве WordNet (длина пути между концептами) не<br />
всегда соответствует интуитивным представлениям сходства слов, так<br />
как разные концепты находятся на разном уровне абстракции, имеют<br />
разное число гиперонимов.<br />
Система WordNet используется во многих современных проектах, что, в свою<br />
очередь, приводит к появлению научно-исследовательских проектов,<br />
направленных на улучшение самой базы WordNet. В работе испанских<br />
учёных [158] предлагается использовать данные энциклопедии Википедия<br />
для расширения сети концептов WordNet. Авторы предлагают способ<br />
автоматического установления соответствия между статьями энциклопедии и<br />
концептами онтологии (здесь – семантической сети WordNet). 1 Для решения<br />
задачи авторы строят упрощённую версию Английской Википедии 2 таким<br />
способом, что из всех статей оригинальной Википедии были выбраны только<br />
те, заголовкам которых был найден соответствующий концепт в WordNet. 3<br />
Для вычисления метрики сходства между статьёй Википедии и концептом<br />
WordNet использовалась модель VSM (Vector Space Model).<br />
Далее будут описаны отечественные лингвистические базы данных и<br />
тезаурусы: каталог семантических переходов, тезаурус РуТез, Русский<br />
Викисловарь, а также тезаурус GEMET.<br />
«Каталог семантических переходов» – база данных регулярно<br />
воспроизводимых лексико-семантических изменений,<br />
1 Такое автоматическое установление соответствия является подзадачей автоматического построения<br />
онтологий, как верно замечают авторы [158].<br />
2 Не путать с Википедией на английском упрощённом языке (Simple <strong>Wikipedia</strong>).<br />
3 Этим объясняется небольшое количество статей в упрощённой Википедии (1841 статья на 15.11.2004)