информация, язык, интеллект № 3 (77) 2011

More documents

Recommendations

Info

БИОНИКА ИНТЕЛЛЕКТА. 2011. № 3 (77). С. 102–106 хНурэ УДК 004.89 102 Введение В настоящее время проблема кластеризации данных является одной из наиболее актуальных в области информационных технологий. Среди большого количества существующих методов кластеризации данных одним из часто используемых является метод k-means [1, 4]. Данный метод отличается тем, что количество кластеров изначально известно и определяется числом k . Характерными особенностями данного метода являются его простота реализации и модификации. Однако методу k-means присущи некоторые недостатки – проблема сходимости, и, как следствие, невозможность определения времени, необходимого на кластеризацию данных. Для повышения скорости работы алгоритма без потери точности при классификации методом kmeans предлагается использование биологических принципов организации вычислений, основанных на принципах работы искусственных иммунных систем (ИИС) [2, 3, 5]. При этом большое внимание уделяется определению исходных центров k кластеров, а также работе операторов клонирования и мутации клонов. Характерной особенностью иммунной модификации метода k-means является ограничение количества объектов, которые будут клонированы, на основе критерия пороговой аффинности, что значительно ускоряет работу алгоритма. 1. Постановка задачи Дано множество объектов n , каждый из которых описывается набором признаков, и количество искомых кластеров k . Исходные объекты представляются популяцией антиген AG( ag1 ;...; agn ) . В качестве меры близости между объектами используется критерий аффинности Afij [2, 3, 5]: −1 Af = ( 1+ d ) , (1) ij ij где Af ij – аффинность между i и j объектами, а d ij – евклидово расстояние между их признаками. Н.М. Кораблев 1 , А.А. Фомичев 2 1 ХНУРЭ, г.Харьков, Украина, korablev@kture.kharkov.ua 2 ХНУРЭ, г.Харьков, Украина, alexandros_1985@mail.ru КЛАСТЕРИЗАЦИЯ ДАННЫХ МЕТОДОМ k-means С ИСПОЛЬЗОВАНИЕМ ИСКУССТВЕННЫХ ИММУННЫХ СИСТЕМ В данной работе рассматривается алгоритм кластеризации данных методом k-means, функционирующий на основе использования искусственных иммунных систем. При определении центров k кластеров используется значение средней пороговой аффинности объектов. Для повышения скорости работы алгоритма кластеризации используются принципы клонирования граничных объектов и клонирования центров (центроидов). ИСКУССТВЕННЫЕ ИММУННЫЕ СИСТЕМЫ, ПОСЛЕДОВАТЕЛЬНОЕ КЛОНИРОВАНИЕ, ПОРОГОВАЯ АФФИННОСТЬ, УРОВЕНЬ СТИМУЛЯЦИИ Необходимо разработать алгоритм кластеризации объектов, функционирующий на основе метода k-means и иммунных принципов группировки, использующий в качестве основной меры близости объектов критерий (1), позволяющий определять центры k кластеров и принадлежность к ним исходных объектов. 2. Алгоритм кластеризации Работу алгоритма k-means можно условно разделить на четыре основных этапа [1, 4]: 1. Определение k центров кластеров. 2. Определение принадлежности объектов кластерам. 3. Определение центроидов k кластеров. 4. Сравнение центров и центроидов кластеров. Определение центров кластеров может производиться как случайным образом, так и на основе некоторых критериев (например, по значению среднего евклидового расстояния с остальными объектами). Центроиды являются центрами кластеров, они могут быть кластеризуемыми объектами и определяются по средним значениям признаков объектов, входящих в данный кластер. На последнем этапе производится сравнение центров (центроидов), полученных на предыдущей итерации алгоритма, и центроидов, поученнях после переопределения принадлежности объектов кластерам. В случае их совпадения алгоритм кластеризации завершает работу, иначе происходит возврат ко второму этапу, где будет определяться принадлежность объектов к кластерам на основании выделенных ранее центроидов. Использование ИИС–принципов в организации работы k-means приводит к некоторому изменению в организации вычислений. Иммунная система оперирует с двумя типами клеток (лимфоцитов): Т-клетки, распознающие антигены и стимулирующие иммунный ответ, и В-клетки, нейтрализующие антигены. Антигенами AG( ag1 ;...; agn ) являются все исходные объекты, B-клетки [3]
КЛАСТЕрИЗАЦИЯ ДАННЫх МЕТОДОМ K-meaNs С ИСПОЛЬЗОВАНИЕМ ИСКуССТВЕННЫх ИММуННЫх СИСТЕМ формируют популяцию Bc( bc1 ;...; bck ) и являются кластерами, которые переопределяются в ходе работы алгоритма. В работе данного метода на начальном этапе используется популяция T-клеток. Их основная задача заключается в определении критерия пороговой аффинности Affthr и стимуляции B-клеток. Основная идея модифицированного k-means алгоритма при использовании ИИС состоит в том, что предлагаемая модель иммунной сети предполагает, что процесс поиска антигенов уже произведен и Т-клетки, вступившие во взаимодействие с антигенами, определили их признаки (априорная завершенность процесса распознавания). В результате распознавания популяция Т-клеток содержит признаки всех исходных антигенов, после чего для каждой Т-клетки определяется уровень стимуляции. После отбора k Т-клеток с наибольшим уровнем стимуляции формируется популяция В-клеток путем клонирования отобранных объектов. После этого популяция В-клеток клонируется и мутирует до тех пор, пока не будут выделены все В-клетки, каждая из которых в ходе клонирования и мутации станет соответствующей некоторому количеству входных антигенов. Формально предлагаемый иммунный алгоритм k-means может быть представлен в виде следующей последовательности операторов: kmAIS( ag ;...; ag ) = stimTcell( t;... t ), 1 n 1 n selBmem( b;...; b ), clonBcell( b′ ;...; b′ ), 1 k stimBcell( b′ ;...; b′ ), matchBcell( ( b ;...; b ),( b′ ;...; b′ )), 1 1 k 1 k k 1 k (2) где stimTcell( t1 ;... tn ) – оператор определения уровня стимуляции T-клеток; selBmem( b1 ;...; bk ) – оператор выделения центров В-клеток (исходных центров кластеров); clonBcell( b1 ′ ;...; bk′ ) – операторы клонирования, мутации и отбора В-клеток (формирование центроидов); stimBcell( b1 ′ ;...; bk′ ) – оператор определения уровня стимуляции для полученных центроидов (определение принадлежности исходных объектов выделенным кластерам); match(( b1;...; bk),( b1 ′ ;...; bk′ )) – оператор сравнения клеток памяти Bmem( b1 ;...; bk) и сформированных клеток Bcell( b1 ′ ;...; bk′ ) . Следует отметить, что работа оператора clonBcell( b1 ′ ;...; bk′ ) может происходить на основе следующих подходов: 1. Клонирование граничных антител в B-клетке. 2. Клонирование центра (ядра) В-клетки. Граничные антитела В-клетки определяются с помощью критерия пороговой аффинности Affthr . Это происходит из предположения, что все антитела выделенной В-клетки соответствуют антигенам в ее области, т.е. её антитела по своим признакам идентичны вступившим с ней во взаимодействие антигенам. После этого граничные антитела подвергаются клонированию и мутации. Принадлежность объекта (антигена) кластеру (В-клетке) определяется путем выбора максимального веса клонов объектов (антител), соответствующего одной из В-клеток (кластеров). При клонировании всей В-клетки происходит мутация ее центра, представленного антителом с максимальным уровнем стимуляции ко всем антигенам, взаимодействующим с B-клеткой, либо её ядром (центроидом). После клонирования и мутации центра новое ядро (центроид) отбирается среди полученных клонов на основании конкурентного отбора, при этом ядром (центроидом) становится клон с наибольшим уровнем стимуляции ко всем антигенам В-клетки. Для определения уровня стимуляции Т-клеток stimTcell( t1 ;... tn ) производится вычисление их средних аффинностей affiAG со всеми антигенами популяции AG( ag1 ;...; agn ) : aff n j iAG = = ∑ 1 aff n ij , (3) где aff ij – аффинность Т-клетки t i и антигена ag j . После этого на основании полученных уровней стимуляции производится определение значения пороговой аффинности Aff thr : n ∑ 1 affiAG i Affthr = n = . (4) Пороговая аффинность используется при определении центров B-клеток (центров кластеров) и определении граничных антител (граничных объектов кластера) при кластеризации. Перед формированием популяции B-клеток по значениям affiAG определяются k наиболее стимулированных Т-клеток, аффинность между которыми не превышает значения Affthr . Эти клетки формируют популяцию B-клеток, каждая из которых изначально характеризуется только одним антителом (центром). Данное антитело становится клеткой памяти системы. После определения центра происходит рост В-клеток – антитела относятся к В-клеткам по максимальным значениям аффинности с её ядром (центральным объектом, центроидом). Клонирование и мутация В-клеток clonBcell( b1 ′ ;...; bk′ ) может происходить на основе указанных подходов. В первом случае (клонирование граничных антител) из антител, входящих в B-клетку для клонирования, выбираются антитела, аффинность которых к центру B-клетки удовлетворяет выражению: aff ≤ γ ⋅Aff , (5) ij thr 103
Page 1 and 2:
ИНФОРМАЦИЯ, ЯЗЫК, И
Page 3 and 4:
ТеореТические осно
Page 5 and 6:
алфавите (в только
Page 7 and 8:
Как узнать, какое ч
Page 9 and 10:
переменными нам пр
Page 11 and 12:
Предикат, принимаю
Page 13 and 14:
тить, что в предела
Page 15 and 16:
единицы в СДНФ; i, j -
Page 17 and 18:
f ″(а t+1 )≡1, поэтому
Page 19 and 20:
предварительно иск
Page 21 and 22:
определение поняти
Page 23 and 24:
некоторых узнавани
Page 25 and 26:
2) К скобочным форма
Page 27 and 28:
5) По имплицентной т
Page 29 and 30:
булевых уравнений [
Page 31 and 32:
Свойства введенных
Page 33 and 34:
но интерпретироват
Page 35 and 36:
типа (4, 3, 5) числа, за
Page 37 and 38:
оператор, который с
Page 39 and 40:
рациональных облас
Page 41 and 42:
тельным образом об
Page 43 and 44:
A1 . Чем больше крест
Page 45 and 46:
f(x 1 , x 2 , …, x n )≡ x a 1 1
Page 47 and 48:
Рассмотрим и доказ
Page 49 and 50:
Рис. 4. Неявная связ
Page 51 and 52: y1, y2, y3 ; R - ассоцииру
Page 53 and 54: Список литературы:
Page 55 and 56: БИОНИКА ИНТЕЛЛЕКТА
Page 57 and 58: DIsCreTe DYNamICal moDelING of sYsT
Page 59 and 60: DIsCreTe DYNamICal moDelING of sYsT
Page 61 and 62: рОЛЬ, ЗАДАЧИ И МЕТО
Page 63 and 64: рОЛЬ, ЗАДАЧИ И МЕТО
Page 67 and 68: j плана содержания (
Page 69 and 70: жения), а не математ
Page 71 and 72: симпатии и антипат
Page 73 and 74: претенденты незнак
Page 75 and 76: МОДЕЛЬ ВЫБОрА ОПТИ
Page 77 and 78: МОДЕЛЬ ВЫБОрА ОПТИ
Page 79 and 80: СОЗДАНИЕ рЕГИОНАЛЬ
Page 85 and 86: инТеллекТуальная о
Page 87 and 88: При применении ВМ д
Page 91 and 92: рОЗрОБКА МЕТОДу ВИ
Page 93 and 94: рОЗрОБКА МЕТОДу ВИ
Page 95 and 96: ПОСТрОЕНИЕ ЧЕТЫрЁх
Page 97 and 98: ПОСТрОЕНИЕ ЧЕТЫрЁх
Page 99 and 100: Як відомо, оброблен
Page 101: а б в г Рис. 3. Графік
Page 105 and 106: дартному методу k-mea
Page 109 and 110: ОПТИМІЗАЦІЯ рІВНЯ
Page 111 and 112: ОПТИМІЗАЦІЯ рІВНЯ
Page 113 and 114: КА может находитьс
Page 115 and 116: размере поля M стро
Page 117 and 118: ячейки не менее (9 - m
Page 121 and 122: убыванию, является
Page 123 and 124: прохождение ЛП про
Page 125 and 126: Локально-параллель
Page 129 and 130: ручной модификации
Page 133 and 134: МОДЕЛЬ ОТрИЦАТЕЛЬН
Page 135 and 136: МОДЕЛЬ ОТрИЦАТЕЛЬН
Page 137 and 138: ОТОБрАЖЕНИЕ эЛЕМЕН
Page 145 and 146: Она обеспечивает в
Page 147 and 148: Рис. 3. Общая структ
Page 149 and 150: вания источников д
Page 153 and 154:
КОНЦЕПЦІЇ уНІФІКАЦ
Page 155 and 156:
КОНЦЕПЦІЇ уНІФІКАЦ
Page 157 and 158:
БИОНИКА ИНТЕЛЛЕКТА
Page 159 and 160:
нів утворює вектор
Page 161 and 162:
з використанням ве
Page 163 and 164:
Зарецкая Ирина Тим
Page 165 and 166:
ПРАВИЛА оформлення
show all

информация, язык, интеллект № 3 (77) 2011

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?