2008(â7) - СанкÑ-ÐеÑеÑбÑÑгÑкий гоÑÑдаÑÑÑвеннÑй ...
2008(â7) - СанкÑ-ÐеÑеÑбÑÑгÑкий гоÑÑдаÑÑÑвеннÑй ...
2008(â7) - СанкÑ-ÐеÑеÑбÑÑгÑкий гоÑÑдаÑÑÑвеннÑй ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
28<br />
i – Maximum_distance(m) i – 1 i i + Distance_to_salient_unit(m) + 1<br />
Рис. 1<br />
Четвертый этап. Не всегда алгоритм определения риторических отношений с помощью<br />
дискурсных маркеров выдает на выходе отношения для всех частей предложений.<br />
Для несвязанных элементов необходимо выполнить дополнительные действия для определения<br />
отношений следующим образом: алгоритм предполагает, что если два предложения<br />
«говорят» об одном и том же, то вероятно, что последующее предложение детализирует<br />
предыдущее. Иначе они относятся к разным темам. Решение по поводу «схожести»<br />
вычисляется через количество похожих слов в двух предложениях. Если оно больше некоторого<br />
порога, то используется риторическое отношение ELABORATION (уточнение),<br />
иначе – JOINT (соединение).<br />
Входными данным для алгоритма являются набор ЭТЕ и найденное на предыдущем<br />
шаге множество уже риторических отношений. Выходными – полный набор дизъюнктивных<br />
риторических отношений между элементами ЭТЕ.<br />
При построении дискурсного дерева прежде всего необходимо использовать основные<br />
положения теории риторической структуры (ТРС) [4]:<br />
• ЭТЕ представляют собой непересекающиеся части текста;<br />
• риторические отношения связывают текстовые части разного объема;<br />
• ЭТЕ имеют в тексте различную значимость;<br />
• структура текста может быть представлена в виде дерева.<br />
Для того чтобы разработать алгоритм построения дискурсного дерева, необходимо<br />
ввести следующие дополнительные предположения: текст может быть разбит на непересекающиеся<br />
ЭТЕ и представлен в виде древовидной структуры следующим образом:<br />
• ЭТЕ являются листьями дерева;<br />
• листья в дереве при обходе его слева направо имеют такой же порядок, как ЭТЕ в<br />
тексте;<br />
• имеется ряд ограничений на структуру дерева.<br />
Необходимым этапом при формализации процесса построения дискурсной структуры<br />
текста является определение ограничений (признаков), характеризующих корректные<br />
древовидные структуры, то есть тех ограничений, которые удовлетворяют необходимым<br />
требованиям к структуре. Некоторые ограничения, которым должны удовлетворять корректные<br />
древовидные структуры, представлены в ТРС. Центральным понятием этой теории<br />
является риторическое отношение между двумя непересекающимися текстовыми<br />
элементами: ядром и сателлитом или ядром и ядром. Отличие ядра N от сателлита S заключается<br />
в том, что ядро, во-первых, имеет большее значение в тексте и, во-вторых, не<br />
зависит от сателлита. Примеры отношений представлены на рис. 2.