03.11.2014 Views

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

- 42 -<br />

1.2 Системы и ресурсы для обработки текста<br />

Автоматическая обработка текстов (АОТ) на естественном языке (ЕЯ)<br />

подразумевает наличие как программных систем 1 , обрабатывающих тексты,<br />

так и корпусов, содержащих эти тексты. Общие проблемы создания<br />

программных систем рассматриваются в работе [12].<br />

В данной работе под корпусом текстов понимают «набор текстов<br />

доступных для машинной обработки, на основе которых можно проводить<br />

какие-либо лингвистические исследования» [133].<br />

Проблема отсутствия общепринятых стандартов для корпусов текстов<br />

приводит к тому, что для каждого отдельного корпуса создаётся своя система<br />

АОТ. Одно из решений этой проблемы, реализованное в виде системы<br />

GATE, предлагают английские учёные из университета Шеффилд.<br />

GATE<br />

Система GATE (General Architecture <strong>for</strong> Text Eng<strong>in</strong>eer<strong>in</strong>g) предлагает<br />

инфраструктуру для разработки и внедрения программных компонент с<br />

целью обработки текста на ЕЯ. Эта система (i) определяет архитектуру, то<br />

есть способ организации данных и программных компонент,<br />

обрабатывающих текст, (ii) предлагает реализацию архитектуры (набор<br />

классов, который может встраиваться в программные приложения<br />

независимо от GATE), (iii) помогает разрабатывать и использовать<br />

компоненты с помощью графического инструментария [92].<br />

Система GATE написана на языке Java [8], [25], [68], [115], имеет<br />

модульную структуру, предоставляется на правах лицензии GNU library<br />

licence 2 . С научной точки зрения достоинство GATE заключается в<br />

возможности проводить численные измерения текста, которые можно<br />

повторить. В работе [109] критикуют систему GATE за плохую<br />

масштабируемость и за то, что она плохо справляется с большими<br />

1 На сегодняшний день существует огромное количество программных систем для поиска и обработки<br />

текста, см. например, каталог программ Data M<strong>in</strong><strong>in</strong>g (http://www.togaware.com/datam<strong>in</strong><strong>in</strong>g/catalogue.html и<br />

http://www.togaware.com/datam<strong>in</strong><strong>in</strong>g/gdatam<strong>in</strong>e/<strong>in</strong>dex.html).<br />

2 Это ограниченная форма лицензии GNU, позволяющая, в случае необходимости, встраивать GATE в<br />

коммерческие продукты

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!