информация, язык, интеллект № 3 (77) 2011

More documents

Recommendations

Info

часть не предложено. В основном это вызвано наличием ряда следующих причин: 1. Большинство систем опираются на ключевые слова, которые могут иметь несколько значений и относится к разным тематикам, и поэтому возможно появление документов, не связанных со сформированным запросом. 2. Часто при анализе страницы web-документа исследуется только meta-данные, при этом другая информация не рассматривается, как следствие, возникают шумы в полученных данных. 3. В системах, направленных на извлечение информации из документов, отсутствуют критерии, характеризующие качество получаемой информации. 4. В процессе работы систем, направленных на извлечения информации, не формируются список «надежных» источников, данные из которых содержат наименьшее количество шумов. Это может отрицательно сказаться на эффективности работы всей системы в целом. 5. Большинство систем не выделяет значимую информацию из проанализированного источника и не хранит её в формате базы знаний. Тем самым данные системы сталкиваются с необходимостью повторной обработки данных во время появления новых поисковых запросов. 4. Постановка задачи Исходя из изложенных выше причин, необходимо создать интеллектуальную систему, способную извлекать значимую информацию из документов с минимальным количеством шумов. Также она должна быть лишена основных недостатков и проблем, выявленных при рассмотрении схожих систем. Для повышения эффективности будущей системы было принято решения обрабатывать динамические web-документы только с частично-структурированными данными (htmlдокументами) в связи с тем, что она рассчитана на работу преимущественно с Internet ресурсами, где данный тип документов наиболее распространен. 5. Метод решения На основании сформированной выше задачи предлагается рассмотреть модель работы системы извлечения значимой информации, которая способна повысить критерии качества получаемых данных. Данная модель отталкивается от предположения, что любой современный информационный web-документ можно разбить на различные структурные блоки. Каждый из этих блоков в свою очередь содержит определенные данные, посвященные заданной тематики, и выделен произвольным набором повторяемых html-тегов. В качестве примера одного из таких блоков возьмем часть 146 html-кода, взятого из сайта футбольного клуб “Металлист” (http://www.metallist.kharkov.ua). Итак, данный блок имеет следующую структуру: МЕТАЛЛИСТ ОПРОС Как, по Вашему мнению, завершится матч Металлист - Таврия? голосовать Его границы были выделены по следующему принципу: ключевой html-тег, в данном случае это , не может быть частью другого тега. К примеру, тег является частью рассмотренного выше ключевого тега, следовательно, он не может быть началом другого структурного блока. Закрытие ключевого тега () символизирует окончание описания данного структурного блока. Исключение составляют теги, отвечающие за формирование и описание общей структуры любой web-страницы. Если учесть, что структуру современного динамического web-документа можно представить в форме ориентированного графа [7], корнями которого являются гипертекстовые ссылки, представленные в виде меню-навигации, то блок, который содержит ссылки на внешний источник или другую страницу из другого домена (за исключением ссылок встречаемых в обширных текстовых описаниях), можно принять за шум. А значит, они не должны учитываться при обработке web-страницы данной системой. Остальные информационные блоки анализируются и записываются в базу знаний в соответствии с критериями, которые были предварительно заданы пользователем. Общий принцип модели системы, отвечающей за извлечения значимой информации из webстраницы, рассмотрен ниже (рис. 3). Далее остановимся подробнее на критериях, которые предварительно задаются пользователем. В общем случае они могут выглядеть в форме простых пожеланий в формате предоставляемых данных. К примеру, пользователи могут сформировать списки любимых источников и обмениваться ими между собой в форме rdf-файлов (рис. 4). Также в процессе работы данной системы осуществляется подсчет качества информации, которая содержится на текущей web-странице, по фор- муле: Iq = Ial − I b, где I q – процент значимой информации на текущей web-странице; I al –процент всей информации на текущей web-странице (обычно равен 100%); I b – процент шумов на текущей web-странице. Основываясь на данной формуле, можно выстроить внутренний рейтинг приоритета обработ-
Рис. 3. Общая структурная схема модели системы, отвечающей за извлечение значимой информации из динамической web-страницы ки информационных источников с наименьшим количеством шумов при условии схожести их тематик. 5. Анализ полученных результатов В рамках рассмотренной модели системы, отвечающей за извлечения значимой информации из динамического web-документа, была сформирована база знаний сайта футбольного клуба “Металлист”. Каждый класс полученной онтологии соответствует пункту навигации данного сайта. Причем его название сформировано с использованием терминологический словаря онтологий по соответствующей предметной области [8]. Стоит отметить, что экземпляры каждого из этих классов хранят информацию, полученную при анализе web-страниц сайта футбольного клуба “Металлист” (рис. 5). Причем в этой онтологии данные могут быть представлены как текстом, так и картинками или видео. Также для каждой webстраницы формируются «белые» и «черные» списки, информация из которых автоматически считается значимой в первом случае или шумом, во втором. Далее рассмотрим некоторые из основных полей, которые отображены на данном рисунке: 1. hasadress – хранит URL страницы, из которой были взяты данные; 2. hasname – хранит имя страницы, из которой были взяты данные; 3. haspictures – хранит URL картинок страницы, из которой были взяты данные; Рис. 4. Пример отображения списка любимых источников в редакторе онтологий Protйgй 147
Page 1 and 2:
ИНФОРМАЦИЯ, ЯЗЫК, И
Page 3 and 4:
ТеореТические осно
Page 5 and 6:
алфавите (в только
Page 7 and 8:
Как узнать, какое ч
Page 9 and 10:
переменными нам пр
Page 11 and 12:
Предикат, принимаю
Page 13 and 14:
тить, что в предела
Page 15 and 16:
единицы в СДНФ; i, j -
Page 17 and 18:
f ″(а t+1 )≡1, поэтому
Page 19 and 20:
предварительно иск
Page 21 and 22:
определение поняти
Page 23 and 24:
некоторых узнавани
Page 25 and 26:
2) К скобочным форма
Page 27 and 28:
5) По имплицентной т
Page 29 and 30:
булевых уравнений [
Page 31 and 32:
Свойства введенных
Page 33 and 34:
но интерпретироват
Page 35 and 36:
типа (4, 3, 5) числа, за
Page 37 and 38:
оператор, который с
Page 39 and 40:
рациональных облас
Page 41 and 42:
тельным образом об
Page 43 and 44:
A1 . Чем больше крест
Page 45 and 46:
f(x 1 , x 2 , …, x n )≡ x a 1 1
Page 47 and 48:
Рассмотрим и доказ
Page 49 and 50:
Рис. 4. Неявная связ
Page 51 and 52:
y1, y2, y3 ; R - ассоцииру
Page 53 and 54:
Список литературы:
Page 55 and 56:
БИОНИКА ИНТЕЛЛЕКТА
Page 57 and 58:
DIsCreTe DYNamICal moDelING of sYsT
Page 59 and 60:
DIsCreTe DYNamICal moDelING of sYsT
Page 61 and 62:
рОЛЬ, ЗАДАЧИ И МЕТО
Page 63 and 64:
рОЛЬ, ЗАДАЧИ И МЕТО
Page 65 and 66:
Page 67 and 68:
j плана содержания (
Page 69 and 70:
жения), а не математ
Page 71 and 72:
симпатии и антипат
Page 73 and 74:
претенденты незнак
Page 75 and 76:
МОДЕЛЬ ВЫБОрА ОПТИ
Page 77 and 78:
МОДЕЛЬ ВЫБОрА ОПТИ
Page 79 and 80:
СОЗДАНИЕ рЕГИОНАЛЬ
Page 81 and 82:
Page 83 and 84:
Page 85 and 86:
инТеллекТуальная о
Page 87 and 88:
При применении ВМ д
Page 89 and 90:
Page 91 and 92:
рОЗрОБКА МЕТОДу ВИ
Page 93 and 94:
рОЗрОБКА МЕТОДу ВИ
Page 95 and 96: ПОСТрОЕНИЕ ЧЕТЫрЁх
Page 97 and 98: ПОСТрОЕНИЕ ЧЕТЫрЁх
Page 99 and 100: Як відомо, оброблен
Page 101 and 102: а б в г Рис. 3. Графік
Page 103 and 104: КЛАСТЕрИЗАЦИЯ ДАНН
Page 105 and 106: дартному методу k-mea
Page 107 and 108: БИОНИКА ИНТЕЛЛЕКТА
Page 109 and 110: ОПТИМІЗАЦІЯ рІВНЯ
Page 111 and 112: ОПТИМІЗАЦІЯ рІВНЯ
Page 113 and 114: КА может находитьс
Page 115 and 116: размере поля M стро
Page 117 and 118: ячейки не менее (9 - m
Page 121 and 122: убыванию, является
Page 123 and 124: прохождение ЛП про
Page 125 and 126: Локально-параллель
Page 129 and 130: ручной модификации
Page 133 and 134: МОДЕЛЬ ОТрИЦАТЕЛЬН
Page 135 and 136: МОДЕЛЬ ОТрИЦАТЕЛЬН
Page 137 and 138: ОТОБрАЖЕНИЕ эЛЕМЕН
Page 145: Она обеспечивает в
Page 149 and 150: вания источников д
Page 153 and 154: КОНЦЕПЦІЇ уНІФІКАЦ
Page 155 and 156: КОНЦЕПЦІЇ уНІФІКАЦ
Page 159 and 160: нів утворює вектор
Page 161 and 162: з використанням ве
Page 163 and 164: Зарецкая Ирина Тим
Page 165 and 166: ПРАВИЛА оформлення
show all

информация, язык, интеллект № 3 (77) 2011

Create successful ePaper yourself

Delete template?

Save as template?