2008(â7) - СанкÑ-ÐеÑеÑбÑÑгÑкий гоÑÑдаÑÑÑвеннÑй ...
2008(â7) - СанкÑ-ÐеÑеÑбÑÑгÑкий гоÑÑдаÑÑÑвеннÑй ...
2008(â7) - СанкÑ-ÐеÑеÑбÑÑгÑкий гоÑÑдаÑÑÑвеннÑй ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Одной из главных задач в построении дискурсной структуры является определение<br />
набора риторических отношений между элементарными текстовыми единицами или частями<br />
предложений. На данный момент большинство исследователей считают, что решить<br />
эту задачу можно только с использованием глубокого семантического анализа текста [3].<br />
В данной статье предлагается альтернативный подход к решению этой задачи: на основе<br />
анализа ключевых фраз. Такой подход представляется разумным ввиду отсутствия полных<br />
баз знаний, соответствующих словарей для русского языка, а также ввиду необходимости<br />
иметь специалистов в конкретной области.<br />
Построение дискурсной структуры текста предполагает выполнение двух основных<br />
этапов: определение риторических отношений внутри исходного текста и собственно построение<br />
дискурсного дерева. Выходом первого этапа и одновременно входными данными<br />
для следующего является набор риторических отношений.<br />
Процесс определения риторических отношений начинается с разбиения текста на<br />
ЭТЕ. В качестве индикатора границ между ними и для определения отношений между<br />
ЭТЕ могут эффективно использоваться ключевые фразы. К сожалению, результаты лингвистических<br />
исследований в области ключевых фраз не дают никаких рекомендаций на<br />
этот счет [4]. В данной статье предлагается следующая схема их использования. Определяется<br />
список ключевых фраз, для каждой из них выбирается несколько текстов из корпуса<br />
русского языка (информационно-справочная система, основанная на собрании русских<br />
текстов в электронной форме), анализируется роль данной ключевой фразы в тексте, в том<br />
числе то, какое риторическое отношение она определяет. Результатом применения этой<br />
схемы является набор специальных параметров для каждой ключевой фразы, которые содержат<br />
информацию о ключевой фразе и о связанном с ней риторическом отношении.<br />
Алгоритм определения риторических отношений основан на эмпирических данных,<br />
полученных из корпуса, и включает в себя четыре этапа:<br />
1. Разбиение текста на предложения и определения для каждого из них набора ключевых<br />
фраз, или дискурсных маркеров.<br />
2. Разбиение каждого предложения на части (ЭТЕ).<br />
3. Определение риторических отношений среди ЭТЕ.<br />
4. Определение риторических отношений для еще несвязанных элементов.<br />
Рассмотрим подробно каждый из этих этапов.<br />
Первый этап. Определяются регулярные выражения для ключевых фраз. Далее анализируется<br />
весь текст целиком и запоминается расположение ключевых фраз и других<br />
орфографических маркеров в тексте. Пример регулярных выражений для текста:<br />
Вчера делегаты выбрали нового представителя. Хотя Иванов получил только 24 голоса,<br />
он выиграл выборы. Затем участники аплодировали в течение трех минут. Последующие<br />
дискуссии были короткими из-за предстоящей встречи. Но срочные вопросы смогли разрешить<br />
– к примеру, строительство новой дороги,<br />
представлен в табл. 1, а их семантика – в табл. 2.<br />
26