18.11.2014 Views

電子情報通信学会ワードテンプレート (タイトル) - 情報処理学会 ...

電子情報通信学会ワードテンプレート (タイトル) - 情報処理学会 ...

電子情報通信学会ワードテンプレート (タイトル) - 情報処理学会 ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

図 9 と 図 10 に 各 step の 説 明 を 示 す . な お , 文 字<br />

列 S が 文 字 列 Z の 部 分 文 字 列 であるということは,S<br />

が Z に 含 まれ る 文 字 列 で あ る こ と を 意 味 す る .<br />

step1. フ ァ イ ル 名 の 中 に は , 制 御 文 字 (ASCII コードで 1~<br />

31)や 特 殊 文 字 な ど 無 効 な 文 字 を 含 む も の が 僅 か な が ら 存<br />

在 す る .そ れ ら 無 効 な 文 字 が 存 在 し た 場 合 , 空 白 文 字 へ 変<br />

更 す る .<br />

step2. 大 文 字 小 文 字 や 全 角 半 角 の 異 な る 単 語 同 士 は 通 常 同<br />

じ 意 味 を 表 す .そ の た め , 英 字 や 記 号 の 大 文 字 小 文 字 ,カ<br />

ナ 文 字 や 空 白 文 字 の 全 角 半 角 の 形 式 を 統 一 す る .<br />

step3. 重 複 フ ァ イ ル 名 を カ ウ ン ト し て お く . 同 じ フ ァ イ ル<br />

名 を 繰 り 返 し 読 み 込 ま な く て も よ く な り , 後 の 処 理 を 大 幅<br />

に 高 速 化 で き る .<br />

step4. 実 際 に 単 語 の 抽 出 を 行 う プ ロ セ ス へ と 移 行 す る . 図<br />

10 に 記 す stepA~ stepE を 行 う こ と で , 単 語 を 機 械 的 に 抽<br />

出 す る こ と が で き る .<br />

図 9 前 処 理 ス テ ッ プ<br />

stepA. 収 集 し た フ ァ イ ル 名 の 文 字 列 か ら 形 成 さ れ る 部 分 文<br />

字 列 の 全 て の パ タ ー ン を 作 成 す る . 作 成 さ れ た 部 分 文 字 列<br />

群 が そ れ ぞ れ 単 語 候 補 と な る .<br />

stepB. 作 成 さ れ た 部 分 文 字 列 全 て に 対 し て , 全 て の フ ァ イ<br />

ル 名 か ら 出 現 回 数 を カ ウ ン ト し , 全 て の 部 分 文 字 列 か ら 構<br />

成 さ れ る prefix-tree を 作 成 す る . 次 に 作 成 さ れ た 部 分 文 字<br />

列 全 て に 対 し て stepC 以 降 を 行 う . こ の 際 に 単 語 候 補 と<br />

stepC.<br />

な っ て い る 部 分 文 字 列 を S と す る .<br />

S が 単 語 の 候 補 と な り 得 る か ど う か を , S の 出 現 回<br />

数 t に 応 じ て α を 閾 値 と し て 判 断 す る .<br />

stepD. prefix-tree の 中 か ら ,S に 任 意 の 1 文 字 を 足 し た 場 合<br />

存 在 す る リ ー フ が あ る か ど う か を 探 す . 存 在 し な け れ ば<br />

S を 単 語 で あ る と 判 断 し , 存 在 す る な ら ば stepE へ 進 む<br />

stepE. prefix-tree から S に 任 意 の 1 文 字 を 足 し た も の の う<br />

ち , 出 現 回 数 が 最 大 も の を 探 し そ の 出 現 回 数 を u と す る .<br />

次 に t に 対 す る u の 割 合 を 計 算 し ,そ の 割 合 が 閾 値 β 以 下<br />

な ら ば S を 単 語 と 判 断 し , β 以 上 な ら ば 単 語 で な い と 判<br />

断 す る .<br />

図 10 単 語 抽 出 ス テ ッ プ<br />

な お , 本 実 験 で は 4000 万 の フ ァ イル 名 を 対 象 に 実<br />

験 を 行 った. フ ァ イ ル 名 の 重 複 を 取 り 除 い た 結 果 ユ<br />

ニークなファイル 名 は 300 万 程 で あり , 最 も 多 いもの<br />

では 1 つの フ ァ イ ル 名 で 10 万 もの 重 複 が 見 ら れた .<br />

実 際 の 実 験 で は α =10000,β =0.3 に 設 定 す る こ と に<br />

より,5164 個 の 単 語 と 見 な さ れ る 語 を 抽 出 し た .<br />

4.2.4. 関 連 する 単 語 のグループ 化<br />

4.2.3 ま で のプ ロ セ ス により,Winny 上 での 単 語 を 抽<br />

出 す る こ と が できた. 単 語 を 定 義 す る こ と に よ り ,<br />

Winny のファイル 名 から 単 語 同 士 の 共 起 率 を 求 めるこ<br />

と が で きる . 図 11 で ク ラ ス タ リ ング の 結 果 を 得 ら れ<br />

る ま で のス テップを 説 明 する.<br />

step1. 4.2.3 で 抽 出 し た 任 意 の 2 単 語 が , 収 集 さ れ た フ ァ イ<br />

ル 名 上 で 共 起 す る 回 数 を カ ウ ン ト す る .こ れ を 全 て の 単 語<br />

の 組 み 合 わ せ に 対 し て 行 う .<br />

step2. 単 語 の 共 起 回 数 で は , 単 語 自 体 の 出 現 頻 度 が 大 き く<br />

異 な る 単 語 同 士 で は , 同 様 の 使 わ れ 方 を し て い て も , 距 離<br />

の 差 が 開 い て し ま う .そ こ で , 共 起 回 数 ベ ク ト ル を 正 規 化<br />

す る こ と で ,マ イ ナ ー な 言 い 回 し の 単 語 で も 同 様 な 使 わ れ<br />

方 を し て い る 他 の 単 語 と 距 離 を 近 く す る こ と が で き る .<br />

step3. step2 で 正 規 化 さ れ た 共 起 率 ベ ク ト ル を 用 い て 階 層 型<br />

ク ラ ス タ リ ン グ を 実 行 す る .<br />

step4. ク ラ ス タ 間 距 離 が γ 以 内 同 士 の 類 似 度 が 高 い 単 語 同<br />

士 を 同 一 ク ラ ス タ と し て 結 合 す る .<br />

図 11 ク ラ ス タ リ ン グ ス テ ッ プ<br />

な お,step3,step4 で 用 いるクラスタ 間 の 距 離 は(4.3)<br />

式 の Ward 法 を 用 いて 計 算 している.<br />

4.2.5. データの 視 覚 化<br />

階 層 型 クラスタリングによって 得 られた 階 層 型 構<br />

造 を 持 った デ ー タ を , voronoi-treemaps の 考 え 方 を<br />

用 いて 出 力 する. 本 稿 では, 単 語 同 士 の 距 離 が 近 く<br />

同 一 のクラスタに 属 するとみなされた 単 語 同 士 は 同<br />

一 色 で 表 示 するように 考 案 し て い る.<br />

あるクラスタC を 示 す 色 は C を 構 成 する 単 語<br />

s(s ∈ C )の RGB 値 の 平 均 値 によって 定 義 される.C<br />

を 構 成 するsの 色 は,Winny ネットワーク 上 でのsの<br />

出 現 頻 度 αと,sを ク エ リと し て Yahoo! Japan で 検 索<br />

したときのヒット 件 数 βの 比 率 γ(= α/β)によって 決 定<br />

さ れ る . 本 稿 で は , γの 値 が 大 き い ,つ ま り Web 上<br />

で の ヒ ット 件 数 βに 対 し,Winny 上 での 出 現 回 数 αの<br />

比 率 が 大 き い 値 を よ り Winny に 特 徴 的 な 語 と し て 考<br />

え, 赤 色 に 近 くなるようにS の 色 が 定 義 される. 逆<br />

に γの 値 が 小 さ い ,つ ま り Web 上 で の ヒ ッ ト 件 数 βに<br />

対 し,Winny 上 での 出 現 回 数 αの 比 率 が 小 さ い 値 を よ<br />

り 一 般 的 に 用 いられる 語 として 青 色 に 近 くなるよう<br />

に sの 色 が 定 義 し さ れ る . そ し て , あ ま り ど ち ら に<br />

偏 っ て い る と も 言 え な い 単 語 は sの 色 が 緑 色 に 近 く<br />

なるように 以 下 に 示 される 式 によってそれぞれ 定 義<br />

される.<br />

な お , 式 中 で 用 い ら れ る 定 数 M は 全 ての 単 語 の 平 均<br />

出 現 回 数 で あ る .<br />

R = min(255,128 × M × γ) (5.1)<br />

B = min(255,128 × M × 1 γ ) (5.2)<br />

G = min(0,128 − abs R − B ) (5.3)<br />

mi n a, b は aと bの 2 つで 最 小 の 値 を 返 す 関 数 であり,<br />

max a, b は aと bの 2 つ で 最 大 の 値 を 返 す 関 数 であ る .<br />

また,abs(x)は xの 絶 対 値 を 返 す 関 数 で あ る.<br />

4.3. 本 手 法 が 適 用 される 範 囲<br />

本 節 で 説 明 し た 各 プ ロ セ ス を 経 る こ と に よ っ て 最<br />

終 的 に コン テ ン ツ の 分 布 を 示 し た 平 面 図 を 得 る こ と が

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!