20.07.2013 Views

Молодой учёный

Молодой учёный

Молодой учёный

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

“Young Scientist” . #3 (50) . March 2013 Computer Science<br />

Разработка мультипотоковой модели последовательно связанных<br />

информационных элементов<br />

Рассматриваемая в статье модель является обобщением<br />

ранее разработанной модели структурного представления<br />

текстовой информации [1], далее для удобства<br />

и краткости вместо полного названия будем использовать<br />

сокращение – текстовая модель. Мультипотоковую модель<br />

последовательно связанных информационных элементов<br />

будем именовать как MT-модель (MT – аббревиатура<br />

от англ. multi-threaded).<br />

Как уже сказано, здесь предлагается обобщение текстовой<br />

модели, оно подразумевает расширение модели<br />

для представления и обработки последовательно связанных<br />

данных произвольной природы. Если данные следуют<br />

друг за другом, их можно представить в виде потока<br />

информационных элементов. Информационный элемент<br />

в данном случае – это элементарная порция данных, которой<br />

оперирует модель.<br />

В отличие от текстовой модели информационными<br />

элементами в MT-модели могут быть не только слова, но<br />

и другие данные. Например, если мы решим моделировать<br />

транспортный поток на некотором участке дороги, то такими<br />

элементами будут автомобили (их описание, набор<br />

характеристик), проехавших по данному участку за интересующий<br />

нас промежуток времени. Поток информационных<br />

элементов в данном случае будет описывать<br />

последовательность автомобилей. Если мы решим моделировать<br />

погоду, то информационными элементами будут<br />

климатические данные, например, значения температуры.<br />

Данные могут быть любыми, главное – чтобы они были<br />

последовательно связанны. Наиболее близкий математический<br />

аналог – временной ряд [2]. В нашем случае он<br />

может состоять не только из числовых, но и нечисловых<br />

(атрибутивных, категориальных) данных.<br />

Актуальность модели обусловлена отсутствием математического<br />

аппарата для решения задач анализа и прогнозирования<br />

нечисловых последовательностей. Решение<br />

таких задач весьма актуально в области искусственного<br />

интеллекта. Значительная часть информации, нуждающаяся<br />

в интеллектуальной обработке, не имеет числовой<br />

природы. Мы можем закодировать данные, но не можем их<br />

рассчитать, используя традиционные вычислительные методы<br />

аппроксимации, интерполяции, экстраполяции и др.<br />

Наличие повторяющихся цепочек информационных<br />

элементов дает теоритическую возможность их прогнозирования<br />

(на основе факта повторения), но практически<br />

это не осуществимо в виду отсутствия подходящего математического<br />

аппарата. Данная модель нацелена на решение<br />

этой проблемы.<br />

Числовая природа данных (пример с температурой) –<br />

это частный случай, в предлагаемой модели она не является<br />

Чугреев Валерий Леонидович, кандидат технических наук<br />

Институт социально-экономического развития территорий РАН (г. Вологда)<br />

147<br />

основополагающей. Отказываться от нее вообще, т.е. обрабатывать<br />

все числовые данные как атрибутивные, было<br />

бы не разумно. В некоторых случаях вычислимость может<br />

значительно облегчить анализ и обработку данных, т.к. позволяет<br />

достаточно просто рассчитать меру близости/схожести<br />

между отдельными информационными элементами<br />

(позже мы еще вернемся к этому вопросу) и использовать<br />

эту меру при оценке схожести отдельных участков потока.<br />

Область применения можно определить исходя из особенностей<br />

моделирования. Если нам требуется система,<br />

на вход которой подается набор дискретных последовательно<br />

связанных информационных элементов, а на выходе<br />

мы хотим получить осмысленную реакцию системы,<br />

то использование данной модели вполне уместно и оправдано.<br />

В общем случае – это самые разные задачи интеллектуальной<br />

обработки информации, поиска зависимостей<br />

в слабо формализованных и неструктурированных<br />

массивах данных.<br />

Для удобства и простоты изложения материала рассмотрим<br />

сначала исходную текстовую модель, а затем перейдем<br />

к ее обобщению.<br />

Модель структурного представления текстовой информации<br />

Суть подхода заключается в моделировании структуры<br />

текста информационным потоком и формировании этим<br />

потоком ориентированного мультиграфа, вершинами которого<br />

являются слова, а ребрами – связи между словами<br />

в тексте. Этот мультиграф является информационной<br />

структурой текста.<br />

Информационный поток – это детерминированный<br />

поток информационных элементов, принадлежащих конечному<br />

множеству. Временной интервал между элементами<br />

нас не интересует, интересует только их последовательность.<br />

Информационные элементы – это слова, а<br />

конечное множество – это множество всех уникальных<br />

слов, присутствующих в анализируемом тексте. Информационный<br />

поток эквивалентен временному ряду категориальных<br />

величин.<br />

Под информационной структурой понимается совокупность<br />

всех слов и связей между ними. Информационный<br />

поток, по сути, моделирует динамику некоторого процесса,<br />

в данном случае текста, а информационная структура<br />

является статическим представлением информационного<br />

потока.<br />

Переход к модели структурного представления текста<br />

осуществляется следующим образом.<br />

1) Текст рассматривается в виде информационного<br />

потока, образованного информационными элементами –<br />

словами.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!