10.04.2015 Views

2008(№7) - Санкт-Петербургский государственный ...

2008(№7) - Санкт-Петербургский государственный ...

2008(№7) - Санкт-Петербургский государственный ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

28<br />

i – Maximum_distance(m) i – 1 i i + Distance_to_salient_unit(m) + 1<br />

Рис. 1<br />

Четвертый этап. Не всегда алгоритм определения риторических отношений с помощью<br />

дискурсных маркеров выдает на выходе отношения для всех частей предложений.<br />

Для несвязанных элементов необходимо выполнить дополнительные действия для определения<br />

отношений следующим образом: алгоритм предполагает, что если два предложения<br />

«говорят» об одном и том же, то вероятно, что последующее предложение детализирует<br />

предыдущее. Иначе они относятся к разным темам. Решение по поводу «схожести»<br />

вычисляется через количество похожих слов в двух предложениях. Если оно больше некоторого<br />

порога, то используется риторическое отношение ELABORATION (уточнение),<br />

иначе – JOINT (соединение).<br />

Входными данным для алгоритма являются набор ЭТЕ и найденное на предыдущем<br />

шаге множество уже риторических отношений. Выходными – полный набор дизъюнктивных<br />

риторических отношений между элементами ЭТЕ.<br />

При построении дискурсного дерева прежде всего необходимо использовать основные<br />

положения теории риторической структуры (ТРС) [4]:<br />

• ЭТЕ представляют собой непересекающиеся части текста;<br />

• риторические отношения связывают текстовые части разного объема;<br />

• ЭТЕ имеют в тексте различную значимость;<br />

• структура текста может быть представлена в виде дерева.<br />

Для того чтобы разработать алгоритм построения дискурсного дерева, необходимо<br />

ввести следующие дополнительные предположения: текст может быть разбит на непересекающиеся<br />

ЭТЕ и представлен в виде древовидной структуры следующим образом:<br />

• ЭТЕ являются листьями дерева;<br />

• листья в дереве при обходе его слева направо имеют такой же порядок, как ЭТЕ в<br />

тексте;<br />

• имеется ряд ограничений на структуру дерева.<br />

Необходимым этапом при формализации процесса построения дискурсной структуры<br />

текста является определение ограничений (признаков), характеризующих корректные<br />

древовидные структуры, то есть тех ограничений, которые удовлетворяют необходимым<br />

требованиям к структуре. Некоторые ограничения, которым должны удовлетворять корректные<br />

древовидные структуры, представлены в ТРС. Центральным понятием этой теории<br />

является риторическое отношение между двумя непересекающимися текстовыми<br />

элементами: ядром и сателлитом или ядром и ядром. Отличие ядра N от сателлита S заключается<br />

в том, что ядро, во-первых, имеет большее значение в тексте и, во-вторых, не<br />

зависит от сателлита. Примеры отношений представлены на рис. 2.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!