You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
“Young Scientist” . #3 (50) . March 2013 Computer Science<br />
Разработка мультипотоковой модели последовательно связанных<br />
информационных элементов<br />
Рассматриваемая в статье модель является обобщением<br />
ранее разработанной модели структурного представления<br />
текстовой информации [1], далее для удобства<br />
и краткости вместо полного названия будем использовать<br />
сокращение – текстовая модель. Мультипотоковую модель<br />
последовательно связанных информационных элементов<br />
будем именовать как MT-модель (MT – аббревиатура<br />
от англ. multi-threaded).<br />
Как уже сказано, здесь предлагается обобщение текстовой<br />
модели, оно подразумевает расширение модели<br />
для представления и обработки последовательно связанных<br />
данных произвольной природы. Если данные следуют<br />
друг за другом, их можно представить в виде потока<br />
информационных элементов. Информационный элемент<br />
в данном случае – это элементарная порция данных, которой<br />
оперирует модель.<br />
В отличие от текстовой модели информационными<br />
элементами в MT-модели могут быть не только слова, но<br />
и другие данные. Например, если мы решим моделировать<br />
транспортный поток на некотором участке дороги, то такими<br />
элементами будут автомобили (их описание, набор<br />
характеристик), проехавших по данному участку за интересующий<br />
нас промежуток времени. Поток информационных<br />
элементов в данном случае будет описывать<br />
последовательность автомобилей. Если мы решим моделировать<br />
погоду, то информационными элементами будут<br />
климатические данные, например, значения температуры.<br />
Данные могут быть любыми, главное – чтобы они были<br />
последовательно связанны. Наиболее близкий математический<br />
аналог – временной ряд [2]. В нашем случае он<br />
может состоять не только из числовых, но и нечисловых<br />
(атрибутивных, категориальных) данных.<br />
Актуальность модели обусловлена отсутствием математического<br />
аппарата для решения задач анализа и прогнозирования<br />
нечисловых последовательностей. Решение<br />
таких задач весьма актуально в области искусственного<br />
интеллекта. Значительная часть информации, нуждающаяся<br />
в интеллектуальной обработке, не имеет числовой<br />
природы. Мы можем закодировать данные, но не можем их<br />
рассчитать, используя традиционные вычислительные методы<br />
аппроксимации, интерполяции, экстраполяции и др.<br />
Наличие повторяющихся цепочек информационных<br />
элементов дает теоритическую возможность их прогнозирования<br />
(на основе факта повторения), но практически<br />
это не осуществимо в виду отсутствия подходящего математического<br />
аппарата. Данная модель нацелена на решение<br />
этой проблемы.<br />
Числовая природа данных (пример с температурой) –<br />
это частный случай, в предлагаемой модели она не является<br />
Чугреев Валерий Леонидович, кандидат технических наук<br />
Институт социально-экономического развития территорий РАН (г. Вологда)<br />
147<br />
основополагающей. Отказываться от нее вообще, т.е. обрабатывать<br />
все числовые данные как атрибутивные, было<br />
бы не разумно. В некоторых случаях вычислимость может<br />
значительно облегчить анализ и обработку данных, т.к. позволяет<br />
достаточно просто рассчитать меру близости/схожести<br />
между отдельными информационными элементами<br />
(позже мы еще вернемся к этому вопросу) и использовать<br />
эту меру при оценке схожести отдельных участков потока.<br />
Область применения можно определить исходя из особенностей<br />
моделирования. Если нам требуется система,<br />
на вход которой подается набор дискретных последовательно<br />
связанных информационных элементов, а на выходе<br />
мы хотим получить осмысленную реакцию системы,<br />
то использование данной модели вполне уместно и оправдано.<br />
В общем случае – это самые разные задачи интеллектуальной<br />
обработки информации, поиска зависимостей<br />
в слабо формализованных и неструктурированных<br />
массивах данных.<br />
Для удобства и простоты изложения материала рассмотрим<br />
сначала исходную текстовую модель, а затем перейдем<br />
к ее обобщению.<br />
Модель структурного представления текстовой информации<br />
Суть подхода заключается в моделировании структуры<br />
текста информационным потоком и формировании этим<br />
потоком ориентированного мультиграфа, вершинами которого<br />
являются слова, а ребрами – связи между словами<br />
в тексте. Этот мультиграф является информационной<br />
структурой текста.<br />
Информационный поток – это детерминированный<br />
поток информационных элементов, принадлежащих конечному<br />
множеству. Временной интервал между элементами<br />
нас не интересует, интересует только их последовательность.<br />
Информационные элементы – это слова, а<br />
конечное множество – это множество всех уникальных<br />
слов, присутствующих в анализируемом тексте. Информационный<br />
поток эквивалентен временному ряду категориальных<br />
величин.<br />
Под информационной структурой понимается совокупность<br />
всех слов и связей между ними. Информационный<br />
поток, по сути, моделирует динамику некоторого процесса,<br />
в данном случае текста, а информационная структура<br />
является статическим представлением информационного<br />
потока.<br />
Переход к модели структурного представления текста<br />
осуществляется следующим образом.<br />
1) Текст рассматривается в виде информационного<br />
потока, образованного информационными элементами –<br />
словами.