03.11.2014 Views

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

- 48 -<br />

меры сходства сходства слов и предложений, обладающие особенностями:<br />

ассиметричность, транзитивность, сходимость. Благодаря транзитивности<br />

данный метод позволяет оценивать сходство редких фраз, отсутствующих в<br />

корпусе. Были использованы данные словарей Webster, Ox<strong>for</strong>d и WordNet. В<br />

экспериментах WordNet показал слабые результаты. Возможные причины<br />

таковы [121]:<br />

• архитектура WordNet не предназначена для хранения данных о<br />

контекстном сходстве;<br />

• расстояние в дереве WordNet (длина пути между концептами) не<br />

всегда соответствует интуитивным представлениям сходства слов, так<br />

как разные концепты находятся на разном уровне абстракции, имеют<br />

разное число гиперонимов.<br />

Система WordNet используется во многих современных проектах, что, в свою<br />

очередь, приводит к появлению научно-исследовательских проектов,<br />

направленных на улучшение самой базы WordNet. В работе испанских<br />

учёных [158] предлагается использовать данные энциклопедии Википедия<br />

для расширения сети концептов WordNet. Авторы предлагают способ<br />

автоматического установления соответствия между статьями энциклопедии и<br />

концептами онтологии (здесь – семантической сети WordNet). 1 Для решения<br />

задачи авторы строят упрощённую версию Английской Википедии 2 таким<br />

способом, что из всех статей оригинальной Википедии были выбраны только<br />

те, заголовкам которых был найден соответствующий концепт в WordNet. 3<br />

Для вычисления метрики сходства между статьёй Википедии и концептом<br />

WordNet использовалась модель VSM (Vector Space Model).<br />

Далее будут описаны отечественные лингвистические базы данных и<br />

тезаурусы: каталог семантических переходов, тезаурус РуТез, Русский<br />

Викисловарь, а также тезаурус GEMET.<br />

«Каталог семантических переходов» – база данных регулярно<br />

воспроизводимых лексико-семантических изменений,<br />

1 Такое автоматическое установление соответствия является подзадачей автоматического построения<br />

онтологий, как верно замечают авторы [158].<br />

2 Не путать с Википедией на английском упрощённом языке (Simple <strong>Wikipedia</strong>).<br />

3 Этим объясняется небольшое количество статей в упрощённой Википедии (1841 статья на 15.11.2004)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!