03.11.2014 Views

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

- 8 -<br />

вычисления меры сходства вершин графа на основе формализации понятия<br />

«похожие вершины» графа. Первый вариант использует понятия<br />

авторитетных и хаб-страниц и позволяет формализовать задачу поиска<br />

похожих страниц в HITS алгоритме. Во втором варианте получена формула<br />

сходства двух вершин a и b, основанная на поиске общих вершин среди<br />

соседей вершин a и b.<br />

В данной работе представлены алгоритмы (адаптированный HITS<br />

алгоритм и оригинальный алгоритм вычисления меры сходства вершин<br />

графа) и реализация адаптированного HITS алгоритма в виде программной<br />

системы поиска семантически близких слов. Также спроектирована<br />

архитектура программной системы оценивания и разработаны способы<br />

численной оценки набора синонимов. Способы численной оценки набора<br />

синонимов необходимы для проведения экспериментальной части работы.<br />

При выборе программных инструментальных средств разработки и<br />

проектирования архитектуры программы автор придерживался следующих<br />

требований: открытость исходного кода (open source), кроссплатформенность<br />

(возможность работы на разных платформах: L<strong>in</strong>ux, W<strong>in</strong>dows и др.),<br />

модульность архитектуры (возможность использовать предыдущие<br />

наработки и интегрировать решения разных подзадач). Важными<br />

требованиями были: использование достаточно широко распространённых и<br />

хорошо себя зарекомендовавших программных систем для обработки текста<br />

на естественном языке и представление результатов работы в виде текста и<br />

графики (визуализация). Использование общепринятого стандарта и<br />

модульность архитектуры позволяют решить задачу большой сложности<br />

(например, машинный перевод), разбив её на ряд подзадач. В качестве<br />

программной среды для обработки текстов на естественном языке была<br />

выбрана модульная система GATE [92], [98].<br />

Сложность организации поиска семантически близких слов и, в<br />

частности, синонимов определяется рядом причин. Во-первых, автору не<br />

известно общепринятой количественной меры для определения степени<br />

синонимичности значений слов. Можно утверждать, что одна пара слов<br />

более синонимична чем другая, но не ясен способ, позволяющий однозначно

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!