10.04.2015 Views

2008(№7) - Санкт-Петербургский государственный ...

2008(№7) - Санкт-Петербургский государственный ...

2008(№7) - Санкт-Петербургский государственный ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Одной из главных задач в построении дискурсной структуры является определение<br />

набора риторических отношений между элементарными текстовыми единицами или частями<br />

предложений. На данный момент большинство исследователей считают, что решить<br />

эту задачу можно только с использованием глубокого семантического анализа текста [3].<br />

В данной статье предлагается альтернативный подход к решению этой задачи: на основе<br />

анализа ключевых фраз. Такой подход представляется разумным ввиду отсутствия полных<br />

баз знаний, соответствующих словарей для русского языка, а также ввиду необходимости<br />

иметь специалистов в конкретной области.<br />

Построение дискурсной структуры текста предполагает выполнение двух основных<br />

этапов: определение риторических отношений внутри исходного текста и собственно построение<br />

дискурсного дерева. Выходом первого этапа и одновременно входными данными<br />

для следующего является набор риторических отношений.<br />

Процесс определения риторических отношений начинается с разбиения текста на<br />

ЭТЕ. В качестве индикатора границ между ними и для определения отношений между<br />

ЭТЕ могут эффективно использоваться ключевые фразы. К сожалению, результаты лингвистических<br />

исследований в области ключевых фраз не дают никаких рекомендаций на<br />

этот счет [4]. В данной статье предлагается следующая схема их использования. Определяется<br />

список ключевых фраз, для каждой из них выбирается несколько текстов из корпуса<br />

русского языка (информационно-справочная система, основанная на собрании русских<br />

текстов в электронной форме), анализируется роль данной ключевой фразы в тексте, в том<br />

числе то, какое риторическое отношение она определяет. Результатом применения этой<br />

схемы является набор специальных параметров для каждой ключевой фразы, которые содержат<br />

информацию о ключевой фразе и о связанном с ней риторическом отношении.<br />

Алгоритм определения риторических отношений основан на эмпирических данных,<br />

полученных из корпуса, и включает в себя четыре этапа:<br />

1. Разбиение текста на предложения и определения для каждого из них набора ключевых<br />

фраз, или дискурсных маркеров.<br />

2. Разбиение каждого предложения на части (ЭТЕ).<br />

3. Определение риторических отношений среди ЭТЕ.<br />

4. Определение риторических отношений для еще несвязанных элементов.<br />

Рассмотрим подробно каждый из этих этапов.<br />

Первый этап. Определяются регулярные выражения для ключевых фраз. Далее анализируется<br />

весь текст целиком и запоминается расположение ключевых фраз и других<br />

орфографических маркеров в тексте. Пример регулярных выражений для текста:<br />

Вчера делегаты выбрали нового представителя. Хотя Иванов получил только 24 голоса,<br />

он выиграл выборы. Затем участники аплодировали в течение трех минут. Последующие<br />

дискуссии были короткими из-за предстоящей встречи. Но срочные вопросы смогли разрешить<br />

– к примеру, строительство новой дороги,<br />

представлен в табл. 1, а их семантика – в табл. 2.<br />

26

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!