Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
- 42 -<br />
1.2 Системы и ресурсы для обработки текста<br />
Автоматическая обработка текстов (АОТ) на естественном языке (ЕЯ)<br />
подразумевает наличие как программных систем 1 , обрабатывающих тексты,<br />
так и корпусов, содержащих эти тексты. Общие проблемы создания<br />
программных систем рассматриваются в работе [12].<br />
В данной работе под корпусом текстов понимают «набор текстов<br />
доступных для машинной обработки, на основе которых можно проводить<br />
какие-либо лингвистические исследования» [133].<br />
Проблема отсутствия общепринятых стандартов для корпусов текстов<br />
приводит к тому, что для каждого отдельного корпуса создаётся своя система<br />
АОТ. Одно из решений этой проблемы, реализованное в виде системы<br />
GATE, предлагают английские учёные из университета Шеффилд.<br />
GATE<br />
Система GATE (General Architecture <strong>for</strong> Text Eng<strong>in</strong>eer<strong>in</strong>g) предлагает<br />
инфраструктуру для разработки и внедрения программных компонент с<br />
целью обработки текста на ЕЯ. Эта система (i) определяет архитектуру, то<br />
есть способ организации данных и программных компонент,<br />
обрабатывающих текст, (ii) предлагает реализацию архитектуры (набор<br />
классов, который может встраиваться в программные приложения<br />
независимо от GATE), (iii) помогает разрабатывать и использовать<br />
компоненты с помощью графического инструментария [92].<br />
Система GATE написана на языке Java [8], [25], [68], [115], имеет<br />
модульную структуру, предоставляется на правах лицензии GNU library<br />
licence 2 . С научной точки зрения достоинство GATE заключается в<br />
возможности проводить численные измерения текста, которые можно<br />
повторить. В работе [109] критикуют систему GATE за плохую<br />
масштабируемость и за то, что она плохо справляется с большими<br />
1 На сегодняшний день существует огромное количество программных систем для поиска и обработки<br />
текста, см. например, каталог программ Data M<strong>in</strong><strong>in</strong>g (http://www.togaware.com/datam<strong>in</strong><strong>in</strong>g/catalogue.html и<br />
http://www.togaware.com/datam<strong>in</strong><strong>in</strong>g/gdatam<strong>in</strong>e/<strong>in</strong>dex.html).<br />
2 Это ограниченная форма лицензии GNU, позволяющая, в случае необходимости, встраивать GATE в<br />
коммерческие продукты