18.11.2014 Views

電子情報通信学会ワードテンプレート (タイトル) - 情報処理学会 ...

電子情報通信学会ワードテンプレート (タイトル) - 情報処理学会 ...

電子情報通信学会ワードテンプレート (タイトル) - 情報処理学会 ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

法 [18]が 存 在 する. 一 般 的 な k-means 法 は, 図 4 に 記<br />

し た 手 順 で 実 行 される.<br />

1 ク ラ ス タ の 個 数 k を 決 め , 各 ク ラ ス タ の 初 期 ベ ク ト ル<br />

を 作 成 す る c 1 , ⋯ , c k .<br />

2 N 件 の 分 類 対 象 を , そ れ ぞ れ , 最 も 近 い ベ ク ト ル c k に<br />

従 っ て 分 類 し , そ の ク ラ ス タ に 割 り 当 て て , ベ ク ト ル<br />

c k を 更 新 す る .<br />

3 も し ベ ク ト ル c k が 変 化 し な く な れ ば 処 理 を 終 了 し ,そ う<br />

で な け れ ば 2 に 戻 る .<br />

図 4 k-means<br />

一 般 的 な k-means 法 で は ,ク ラ ス タ ベ クト ル c k が 安<br />

定 す る まで , 分 類 対 象 の ク ラ ス タ への 割 り 当 て と ク ラ<br />

ス タ ベ クト ル の 更 新 と が 反 復 的 に 繰 り 返 さ れ る . こ の<br />

反 復 回 数 を r と す れ ば, 一 般 的 な k-means 法 の 計 算 量<br />

は Ο N × M × k × r と な る.こ こ で N は 文 書 数 ,M は 語<br />

数 ( ベ クト ル の 次 元 ) で あ る . 階 層 型 ク ラ ス タ リ ン グ<br />

手 法 の 計 算 量 が O N 2 に な っ て し ま う の に 対 し て ,<br />

k-means 法 の 計 算 量 は Ο N × M × k × r と 少 な い とい う<br />

利 点 が ある .し かし ,ク ラ ス タ 数 k を 前 もって 与 える<br />

必 要 が あ り,ま た , ク ラ ス タ の 重 心 の 初 期 ベ ク ト ル<br />

c 1 , ⋯ , c k の 設 定 に よ っ て は 局 所 解 に 陥 っ て し ま い , 正<br />

し く ク ラス タ リ ン グ さ れ な い 可 能 性 が あ る . こ の 問 題<br />

を 解 消 す る た め に<br />

k-means++ 法 [19]が 考 案 された.<br />

k-means++は 初 期 ベクトルの 配 置 を 考 慮 す る も の で ,<br />

既 に 置 かれ た ベ ク ト ル の 近 く に 初 期 ベ ク ト ル が 配 置 さ<br />

れ る 確 率 を 減 ら し , な る べ く 等 距 離 上 に 初 期 ベ ク ト ル<br />

を 配 置 でき る よ う に 改 良 さ れ た も ので あ る .<br />

また, 適 切 と 思 われるクラスタ 数 を 自 動 的 に 決 定 す<br />

る こ と がで き る x-means[20]と い う 手 法 も 考 案 さ れ て<br />

いる.x-means は , k = 2 と し て 再 帰 的 に k-means 法<br />

を 実 行 する . ク ラ ス タ の 分 割 前 と 分 割 後 で 情 報 量 規 準<br />

の 一 つ であ る BIC( Bayesian Information Criterion)<br />

を 比 較 し,クラスタの 分 割 が 妥 当 と 判 断 されるまで 分<br />

割 を 続 け, 適 切 なクラスタ 群 が 構 成 される.<br />

3.3. データの 可 視 化<br />

本 節 で は 階 層 型 デ ー タ を 視 覚 化 す る 有 名 な 手 法 で<br />

ある treemaps と, 視 覚 化 だけでなくクラスタリング<br />

の プ ロ セス 自 体 も 受 け 持 つ こ と が でき る 自 己 組 織 写 像<br />

に つ い て 説 明 す る .<br />

3.3.1. treemaps<br />

treemaps は 木 構 造 デ ー タ を 視 覚 化 す る 方 法 で あ る.<br />

階 層 型 デー タ も 一 種 の 木 構 造 と し て 扱 う こ と が で き る .<br />

特 に 長 方 形 の 領 域 に 区 切 り 階 層 型 デー タ を 出 力 す る 方<br />

法 は , こ れ ま で に 多 数 報 告 さ れ て い る [21][22]. い ず<br />

れ も ル ート ノ ー ド か ら 内 部 ノ ー ド を 再 帰 的 に 辿 っ て い<br />

き , 内 部 ノ ー ド の 領 域 を 確 保 し て いっ た 後 に , 辿 っ た<br />

先 が リ ーフ ノ ー ド で あ れ ば そ の 確 保 し た 領 域 を リ ー フ<br />

ノ ー ド へ 割 り 当 て る と い う ア ル ゴ リズ ム に よ っ て 構 成<br />

さ れ て いる . また,リーフノードの 領 域 を 長 方 形 でな<br />

く ボ ロ ノイ 図 の よ う な 領 域 を 確 保 して 木 構 造 の デ ー タ<br />

を 視 覚 化 す る<br />

voronoi-treemaps[23] と い う 手 法 が<br />

Michael ら によって 考 案 されている.リーフの 重 心 を<br />

二 次 元 上 の ど こ に 位 置 に マ ッ ピ ン グす る か を 決 定 し ,<br />

ボ ロ ノ イ 図 で 領 域 を 確 保 する 点 が 前 者 と は 異 なる. 全<br />

て の リ ーフ の 重 心 が 二 次 元 上 にマッピングした 後 , 最<br />

後 に そ の 点 が 持 つ べ き 領 域 の 境 界 線 を 引 く こ と に よ り<br />

voronoi-treemaps は 完 了 する.<br />

3.3.2. 自 己 組 織 化 写 像 (Self-organizing-maps)<br />

Kohonen<br />

によって 提 唱 された 自 己 組 織 化 写 像<br />

(Self-organizing maps, 以 下 SOM)は ニ ュ ー ラル ネ ッ<br />

ト ワ ー クを 模 し た 基 本 学 習 ア ル ゴ リズ ム の 1 つであり,<br />

学 習 し た 結 果 を 様 々 な 形 式 へ マ ッ ピン グ で き る . 入 力<br />

層 と 競 合 層 か ら な る 2 層 構 造 を 用 いる こ と に よ り 学 習<br />

す る . 入 力 層 に は n 次 元 の デ ー タ を 与 え , 競 合 層 では<br />

m 次 元 上 に 配 置 さ れ た ノ ー ド が その ま ま 学 習 す る . 入<br />

力 層 と 競 合 層 の 次 元 は 自 由 に 設 定 でき る た め , 高 次 元<br />

デ ー タ の 視 覚 化 に よ く 用 い ら れ る . 現 在 で は SOM を<br />

教 師 な し 学 習 の ク ラ ス タ リ ン グ に も 応 用 さ れ て い る .<br />

4. 提 案 手 法<br />

本 節 では,4.1 節 において 要 求 条 件 を 示 し,4.2 節 で<br />

本 手 法 の 詳 細 に つ い て 述 べ , 4.3 節 に て 本 手 法 の 性 質<br />

や 適 用 範 囲 つ い て ま と め る .<br />

4.1. 要 求 条 件<br />

本 研 究 の 目 的 は P2P ネ ッ ト ワ ー ク を 流 通 し て い る コ<br />

ンテンツを 単 語 単 位 で 調 べ , そ の 結 果 を 視 覚 化 す る こ<br />

とである. 本 稿 で は 対 象 と す る P2P ネ ッ トワ ー ク を 流<br />

通 し て いる フ ァ イ ル 名 全 体 か ら 単 語 を 抽 出 し ,その 抽<br />

出 し た 単 語 同 士 の 関 連 性 を 求 め て ,そ の 結 果 を 図 示 す<br />

る プ ロ セス を 経 ることによりこれを 実 現 している.そ<br />

の 際 に 収 集 するデータに 偏 りが あ ると , 結 果 に 偏 りが<br />

生 じ て しま う の で 注 意 が 必 要 で あ る. ま た , 固 有 名 詞<br />

の 単 語 辞 書 を 予 め 用 意 できな い も のと す る . そのため<br />

には 図 5 に 示 す 要 求 条 件 を 満 た さ な く て は な ら な い .<br />

1 分 析 す る デ ー タ に 偏 り が 生 じ な い よ う に す る た め に , P2P<br />

ネ ッ ト ワ ー ク 全 体 か ら フ ァ イ ル 名 を 収 集 す る .<br />

2 収 集 し た フ ァ イ ル 名 か ら 単 語 を 抽 出 す る .<br />

3 抽 出 さ れ た 単 語 同 士 の 距 離 を 定 義 す る 関 数 が 存 在 し , 単 語 同<br />

士 の 関 連 性 の 強 さ が 定 義 で き る .<br />

4 得 ら れ た 単 語 同 士 の 関 連 性 を 平 面 上 に マ ッ ピ ン グ す る .<br />

図 5 コ ン テ ン ツ 分 析 の た め の 要 求 条 件

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!