電子情報通信学会ワードテンプレート (タイトル) - 情報処理学会 ...
電子情報通信学会ワードテンプレート (タイトル) - 情報処理学会 ...
電子情報通信学会ワードテンプレート (タイトル) - 情報処理学会 ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
DEIM Forum 2010 D8-3<br />
Winny ネットワーク 上 を 流 通 するコンテンツの 傾 向 と 分 析 (O)<br />
†1<br />
打 田 研 二<br />
†2<br />
高 木 浩 光<br />
†3<br />
山 崎 邦 弘<br />
†4<br />
山 名 早 人<br />
†1,†3 早 稲 田 大 学 大 学 院 基 幹 理 工 学 研 究 科 〒169-8555 東 京 都 新 宿 区 大 久 保 3-4-1<br />
†2 産 業 技 術 総 合 研 究 所 〒101-0021 東 京 都 千 代 田 区 外 神 田 1-18-13 秋 葉 原 ダイビル<br />
†4 早 稲 田 大 学 理 工 学 術 院 〒169-8555 東 京 都 新 宿 区 大 久 保 3-4-1<br />
E-mail:<br />
†1, †3, †4<br />
{k_uchida,yaz79,yamana}@yama.info.waseda.ac.jp<br />
†2 takagi.hiromitu@aist.go.jp<br />
あらまし 近 年 、P2P(Peer to Peer) ファイル 共 有 ソフトの 利 用 が 一 般 世 帯 にまで 広 まっており, 様 々なコンテ<br />
ンツが P2P ファイル 共 有 ソフト 上 で 共 有 されている.しかし,P2P ファイル 共 有 ソフトのネットワーク 上 を 流<br />
通 しているコンテンツに 対 する 網 羅 的 な 調 査 報 告 は 存 在 しない.そこで 本 稿 では,Winny ネットワーク 上 の<br />
4,000 千 万 件 のインデックスを 解 析 することにより,コンテンツの 分 布 を 明 らかにする. 具 体 的 には,ファイ<br />
ル 名 についてその 分 布 をクラスタリングし 解 析 した.なお,ファイル 名 には 特 有 の 単 語 が 存 在 し, 既 存 の 形 態<br />
素 解 析 をそのまま 適 用 することができないため,シーケンシャルパターンマイニングを 応 用 することにより,<br />
未 知 の 単 語 についての 抽 出 を 試 みた. 実 験 の 結 果 ,Winny ネットワークを 流 通 するコンテンツを 単 語 単 位 の 粒<br />
度 で 知 ることができ, 特 に 同 人 ,アダルト,アニメに 関 連 するファイルが 多 いことが 判 明 した.<br />
キーワード P2P,Winny,ファイル 交 換 ソフトウェア, 単 語 抽 出<br />
The Analysis of Contents on the Winny Network(O)<br />
Kenji Uchida †1 Hiromitsu Takagi †2 Kunihiro Yamazaki †3 Hayato Yamana †4<br />
†1,†3 Graduate School of Fundamental Science and Engineering, Waseda University 3–4–1 Okubo, Shinjuku-ku, Tokyo, 169–8555, Japan<br />
†2 Research Center for Information Security, National Institute of Advanced Industrial Science and Technology<br />
Akihabara Daibiru, 1-18-13 Sotokanda, Chiyoda-ku, Tokyo 101-0021, Japan<br />
†4 Science and Engineering, Waseda University 3–4–1 Okubo, Shinjuku-ku, Tokyo, 169–8555, Japan<br />
†1, †3, †4<br />
E-mail:<br />
{k_uchida,yaz79,yamana}@yama.info.waseda.ac.jp<br />
†2 takagi.hiromitu@aist.go.jp<br />
Abstract Recently, the use of the P2P(Peer to Peer) file sharing software are spread and various contents are shared on the<br />
P2P software. However, there is no comprehensive research about the contents shared on P2P network. In this paper, we<br />
research what contents are shared on the Winny network. We collected four billion file indexes on the Winny network and<br />
analyzing those indexes for investigating what contents are much shared and we clustered similar contents about filename. We<br />
attempted extracting words by using sequential pattern mining. We couldn't use a normal morphological analysis machine<br />
because contents are named by particular way. As a result, we acquired word-level contents shared on the Winny network. We<br />
could find out a lot of contents are shared, especially that are relevant to coterie or adult or cartoon.<br />
Keyword Peer to Peer, Winny, File sharing software, word extraction<br />
1. はじめに<br />
昨 今 ,ユ ー ザ が 大 容 量 の デ ー タ を 高 速 に ダ ウ ン ロ ー<br />
ド , ア ップ ロ ー ド す る こ と が 可 能 にな る に 伴 い,<br />
P2P(Peer to Peer)アプ リ ケ ー シ ョン が 一 般 の 人 々 へ<br />
普 及 し てい っ た . な か で も フ ァ イ ル 共 有 ソ フ ト の 普 及<br />
は 特 に 目 覚 ま し い.Gnutella[1], BitTorrent[2],<br />
FastTrack[3], Overnet[4]な ど の プロ ト コ ル を 基 盤 に<br />
用 いて P2P ファイル 共 有 ソフトを 開 発 しやすいこと<br />
も あ り,こ れ ら の プ ロ トコ ル を 利 用 し た P2P ファイル<br />
共 有 ソ フト が 世 界 中 で 1 日 あ た り 数 百 万 人 規 模 の ユ ー<br />
ザ に 利 用 さ れ て い る [3][5][6][7]. 日 本 にお い て も<br />
Winny[8]や Share[9]と い っ た フ ァイ ル 共 有 ソ フ ト が<br />
多 数 の ユー ザ に 利 用 さ れ て い る . 一 方 で , コンピュー<br />
タ ソ フ トウ ェ ア 著 作 権 協 会 ( 以 下 ACCS)が 行 った 調 査<br />
に よ る と,P2P ネットワーク 上 で 共 有 されているファ<br />
イ ル に は 現 在 の 著 作 権 法 上 違 法 と され る フ ァ イ ル が 多<br />
い と 報 告 されている[10]. しかし, 従 来 の 調 査 では 音<br />
楽 や 動 画 な ど と い っ た 大 ま か な カ テゴ リ 単 位 で コ ン テ<br />
ン ツ の 流 通 状 況 を 明 らかにした 資 料 は 存 在 し て い る が ,
何 のコ ンテ ン ツ が P2P フ ァ イ ル 共 有 ソ フ ト で 共 有 さ<br />
れているかまでは 明 らかにされておら ず , 詳 細 は 不 明<br />
である.<br />
そ こ で 本 稿 で は 国 内 で 広 く 普 及 し てい る フ ァ イ ル<br />
共 有 ソフト Winny を 観 測 の 対 象 とし , 何 のコンテンツ<br />
が P2P フ ァ イル 共 有 ネ ッ ト ワ ー ク 上 を 流 通 し て い る<br />
かを 把 握 す る 手 法 を 提 案 する.Winny 上 でキーと 呼 ば<br />
れ る イ ンデ ッ ク ス 情 報 を 観 測 し , どの よ う な コ ン テ ン<br />
ツが Winny 上 で 流 通 し て い る か 推 定 す る .イ ン デ ッ ク<br />
ス 情 報 に 含 ま れ る ファイル 名 から,ヒューリスティッ<br />
ク な 手 法 を 用 い て Winny 上 で 使 用 さ れ て い る 単 語 を<br />
機 械 的 に 抽 出 す る .そ し て , 抽 出 さ れた 単 語 同 士 の フ ァ<br />
イ ル 名 に 対 す る 共 起 率 を 用 い る こ とに よ り , 類 似 す る<br />
単 語 同 士 で クラスタを 構 成 す る . 最 後 に 構 成 さ れ た ク<br />
ラ ス タ 群 を 出 力 す る こ と に よ り ,Winny 上 を 流 通 する<br />
コ ン テ ンツ を 視 覚 的 に 捉 え る こ と を 可 能 に す る .<br />
本 稿 で は 以 下 の 構 成 を と る .まず 第 2 節 で 既 存 研 究<br />
と そ の 問 題 点 を 述 べ , 第 3 節 で 提 案 手 法 で 用 い る 関 連<br />
技 術 に つい て 述 べ る . 次 に 第 4 節 で 提 案 手 法 の 詳 細 を<br />
述 べ る.そ し て 第 5 節 で は 実 験 の 結 果 を 記 す と と も に<br />
考 察 し , 最 後 に 第 6 節 でまとめる.<br />
2. P2P ファイル 共 有 ソフトに 関 わる 研 究<br />
本 節 で は,P2P ファイル 共 有 ソフトの 解 析 調 査 に 関<br />
連 し て いる 既 存 研 究 を 報 告 す る .<br />
2.1. コンテンツの 流 通 状 況<br />
こ れ ま で に P2P フ ァ イ ル 共 有 ソ フ ト 内 の コ ン テ ン<br />
ツ の 流 通 状 況 を ま と め た 報 告 は 少 ない . 本 節 で は , 拡<br />
張 子 で コ ン テ ン ツ の 統 計 を と っ た 大 井 ら の 研 究 [11]と ,<br />
大 ま か なカ テ ゴ リ に 人 手 で 分 類 した ACCS の 報 告 [10]<br />
について 示 す.<br />
2.1.1. 大 井 らの 調 査 [11]<br />
P2P ネッ ト ワ ー ク 内 を 流 通 す る フ ァイ ル の サ イ ズ や<br />
拡 張 子 の 分 布 が 大 井 らによって 調 査 さ れ , 報 告 されて<br />
い る . 大 井 ら の 実 験 で は WinMX, Gnutella, Winny<br />
の 3 つの P2P ネットワーク 内 に 流 通 するファイル 情 報<br />
を 収 集 し, 各 P2P ネ ット ワ ー ク に 対 し て 音 楽 (mp3),<br />
動 画 (mpg),ア ー カ イ ブ (zip), 画 像 フ ァ イル (jpg)などと<br />
いった 代 表 的 な 拡 張 子 で 集 計 し , ネッ ト ワ ー ク 全 体 に<br />
おける 拡 張 子 の 流 通 の 割 合 を 調 査 して い る .Winny に<br />
ついては 2003 年 4 月 18 日 から 20 日 まで の 3 日 間 (68<br />
時 間 ) 測 定 し て い る . 図 1 に 大 井 ら によ っ て 報 告 さ れ た<br />
Winny ネットワークにおける 拡 張 子 の 分 布 を 示 す.<br />
図 1 Winny で 流 通 している 拡 張 子 分 布<br />
( 文 献 [11]の 図 8 (a)のデータから 再 構 成 )<br />
2.1.2. ACCS の 報 告 [10]<br />
ACCS は , 実 際 に P2P フ ァ イ ル 共 有 ソ フ ト を 利 用 し<br />
た 経 験 があ る ユ ー ザ に 対 し て WEB ア ン ケ ート を 2007<br />
年 9 月 14 日 ~2007 年 9 月 24 日 の 期 間 で 実 施 し て い<br />
る . ユ ーザ は { 音 楽 , 映 像 , ソ フ ト ウェア, 写 真 ・ 画<br />
像 , 情 報 漏 洩 } の カ テ ゴ リ で 自 分 がダウンロードした<br />
こ と が ある ファイルを 回 答 している.<br />
ま た , 実 際 に ど の よ う な コ ン テ ン ツ が P2P ネ ッ ト<br />
ワ ー ク 上 で 流 通 しているかを 把 握 するため,Winny を<br />
対 象 と して 調 査 を 行 っ て い る.2007 年 9 月 28 日 17:00<br />
から 2007 年 9 月 29 日 17:00 までの 24 時 間 の 間 に<br />
Winny ネットワークから 得 られたファイル 名 から 約<br />
20,004 件 を ラ ン ダ ムに 抽 出 し , 人 手 に よ って 予 め 用 意<br />
された 6 つのカテゴリに 分 類 し , 著 作 権 物 の 割 合 を 推<br />
定 し て いる .そ の 際 の 調 査 結 果 を 図 2 に 示 す.しかし,<br />
図 2 に 示 さ れ て い る よ う に 集 計 外 とな る フ ァ イ ル が 全<br />
体 の 中 で 49%もの 割 合 を 占 めており, 半 分 のファイル<br />
に 対 し ては 不 明 瞭 な 結 果 に 終 わ っ てい る .<br />
2.1.3. 従 来 のコンテンツ 分 析 の 課 題<br />
大 井 ら の 研 究 では, 対 象 と す る P2P フ ァ イ ル 共 有<br />
ネ ッ ト ワー ク 内 を 流 通 す る フ ァ イ ルを い く つ か の 拡 張<br />
子 に よ って 分 類 し , そ れ ぞ れ の 拡 張 子 が ネ ッ ト ワ ー ク<br />
を 占 め る 割 合 を 示 し て い る . 一 方 ,ACCS は Winny ネッ<br />
ト ワ ー ク 上 を 流 通 し て い る フ ァ イ ル 名 を ラ ン ダ ム に 抽<br />
出 し , 人 手 に よ っ て そ れ ら の フ ァ イル 名 を 大 まかなカ<br />
テ ゴ リ へ 分 類 し て い る .しかし,どち ら の 研 究 も 流 通<br />
しているコンテンツの 大 ま か な 性 質 を 知 る こ と は で き<br />
て も , 具 体 的 に 何 の フ ァ イ ル が 共 有 さ れ て い る か 知 る<br />
こ と は でき な い .<br />
2.2. 参 加 ノード 数 分 析<br />
図 2 Winny にて 流 通 しているコンテンツ<br />
( 文 献 [10]の 図 2 のデータから 再 構 成 )<br />
P2P ファ イ ル 共 有 ネ ッ ト ワ ー ク が どの 程 度 の ノ ー ド<br />
数 に よ って 構 成 さ れ て い る か 調 査 した 研 究 は 多 数 報 告<br />
さ れ て いる [3][5][6][7].ま た , 本 稿 で 分 析 の 対 象 と し<br />
た Winny ネ ッ ト ワ ー ク に 関 し て の ノ ー ド 数 の 分 析 も<br />
既 に 行 われ て い る . 全 ノ ー ド 数 の 把 握 が 困 難 な Winny<br />
ネ ッ ト ワー ク の 規 模 を 推 定 す る た めに , 実 測 に よ っ て<br />
得 られた Winny の 通 信 デ ー タ を 使 用 し , シ ミ ュ レ ー<br />
ションによって Winny ネットワークの 規 模 を 推 定 す<br />
る 研 究 [12]や,11 台 の 観 測 装 置 を 用 い て Winny ネッ<br />
ト ワ ー クを 監 視 す る こ と に よ っ て 一 意 な ノ ー ド 数 を 算
出 す る 方 法 も あ り,Winny の ノ ー ド 数 の 規 模 は 2006<br />
年 8 月 地 点 で 「 平 日 で 39~ 41 万 , 土 日 で は 43~ 44<br />
万 以 上 のノ ー ド 数 」 で あ る と 報 告 され て いる[13].<br />
2.3. トラヒック 量 分 析<br />
1024 番 以 降 の ポ ー ト を 使 用 し て い る ト ラ ヒ ッ ク を<br />
観 測 す るこ と に よ っ て ,P2P フ ァイ ル 共 有 ソ フ ト が ど<br />
の 程 度 のト ラ ヒ ッ ク を 発 生 さ せ て いる か を 推 測 す る 研<br />
究 が 行 わ れ て い る [14][15]. し か し , ポ ー ト 番 号 だ け<br />
で は 実 際 に そ の 通 信 が P2P に よ る も の か ど う か を 判<br />
別 す る こ と は で き な い . そ こ で [14][15]で は , 通 信 に<br />
用 い ら れる ト ラ ヒ ッ ク の 特 徴 や , ノー ド 間 通 信 の サ ー<br />
バ /クラ イ ア ン ト 関 係 を 用 い る こ とに よ っ て ,ト ラ ヒ ッ<br />
クが P2P に よ る も の か ど う か を 特 定 す る 方 法 を 提 案<br />
し て い る.<br />
3. 関 連 技 術<br />
2.1 で 述 べ た 通 り , 既 存 研 究 で は コ ン テ ン ツ の 詳 細<br />
な 分 布 まで は 知 る こ と は で き な い .そ こ で 本 稿 で は ,<br />
単 語 単 位 の 粒 度 で 対 象 の<br />
P2P フ ァ イ ル 共 有 ソ フ ト<br />
ネ ッ ト ワー ク を 流 通 す る コ ン テ ン ツの 分 布 を 視 覚 的 に<br />
把 握 す る 手 法 を 提 案 す る . 提 案 手 法 で は , 図 3 に 示 す<br />
技 術 を 利 用 す る.<br />
1 対 象 と す る P2P フ ァ イ ル 共 有 ネ ッ ト ワ ー ク の 単 語 を 機<br />
械 的 に 抽 出 す る .<br />
2 1 で 抽 出 し た 単 語 同 士 を ク ラ ス タ リ ン グ す る .<br />
3 2 で 得 た ク ラ ス タ リ ン グ の 結 果 を 平 面 上 に 図 示 す る .<br />
図 3 本 稿 で 要 求 さ れ る 技 術<br />
以 下 , 単 語 抽 出 , ク ラ ス タ リ ン グ ,デ ー タ の 可 視 化<br />
に 関 わ るそ れ ぞ れ の 技 術 に つ い て 説 明 す る .<br />
3.1. 単 語 抽 出<br />
自 然 言 語 処 理 の 分 野 に お い て , 未 知 語 の 抽 出 に つ い<br />
て は 広 く 研 究 さ れ て き た [16][17]. 特 に 日 本 や 中 国 に<br />
は , 西 欧 の 言 語 と 違 っ て 空 白 の よ うな 明 確 な 単 語 の 境<br />
界 が 用 いら れ て い な い の で , 機 械 が 単 語 を 特 定 し , 抽<br />
出 す る こと は 難 し い . 一 般 に は 形 態 素 解 析 と 呼 ば れ る<br />
手 法 に より , 辞 書 を 基 に 文 を 単 語 毎 に 区 切 る 必 要 が あ<br />
る が , その 際 に は 辞 書 に な い 未 知 語 を う ま く 認 識 で き<br />
な い 問 題 が あ る . そ の た め , 例 え ば 中 川 ら は 未 知 語 で<br />
あ る 専 門 用 語 を 専 門 分 野 コ ー パ ス から 抽 出 す る 手 法 を<br />
提 案 し てい る [16].<br />
中 川 ら の 手 法 は ,「 連 続 す る 単 語 が あ る 場 合 に そ の<br />
単 語 が 出 て く る 順 番 の 確 率 に よ っ て 複 合 名 詞 が 専 門 用<br />
語 で あ るか ど う か を 判 断 す る 」 と いう 考 え 方 に 基 づい<br />
ている.し か し , 本 稿 の 場 合 は そ もそ も 未 知 語 の 範 囲<br />
が 幅 広 く 事 前 に 辞 書 を 用 意 す る こ とが で き な い .<br />
辞 書 を 用 いずに 未 知 語 を 抽 出 する 手 法 は Klein に<br />
よ っ て 行 わ れ て い る [17]. Klein は 単 語 抽 出 の 対 象 と<br />
す る ド キュ メ ン ト の 文 字 列 に 対 し て, 文 字 を 区 切 り 単<br />
位 とする N-gram を 総 当 た り で 作 成 し て い る .N-gram<br />
と は,あ る 文 字 列 から 文 字 や 単 語 など を 区 切 り と し て ,<br />
N 個 連 続 で 切 り 出 し た 並 び の 集 合 のこ と を 指 す .<br />
Klein の 提 案 したアルゴリズムは 以 下 の 通 りである.<br />
単 語 候 補 文 字 列 を S と す る. 文 字 列 S の 最 後 尾 へ 任 意<br />
の 1 文 字 を 足 し て , 予 め 作 成 し て おい た (S の 文 字 列 長<br />
+1)-gram の 中 か ら 一 致 す る 文 字 列 を 探 し , 該 当 す る 文<br />
字 列 集 合 Z を 作 成 す る . 次 に 対 象 とす る ド キ ュ メ ン ト<br />
中 で S が Z の 各 要 素 全 てに 対 して 状 態 遷 移 する 確 率 を<br />
調 べ る . 状 態 遷 移 の 確 率 モ デ ル に は 隠 れ マ ル コ フ モ デ<br />
ル を 採 用 し ている. 最 後 に 尤 度 が 高 か っ た も の か ら 順<br />
に 単 語 の 候 補 群 を 作 成 し て い く と いう も の で あ る . 対<br />
象 ド キ ュメ ン ト の 性 質 に 依 存 し な い 汎 用 性 の 高 い 手 法<br />
と 言 え る 反 面 , 解 析 対 象 と な る ド キュ メ ン ト の 文 字 数<br />
や 種 類 が 大 き く な る と 状 態 遷 移 数 の 増 大 に 従 っ て 計 算<br />
量 が 増 えてしまうという 難 点 がある.<br />
3.2. クラスタリング<br />
ド キ ュ メン ト を クラスタリングする 手 法 に は, 最 短<br />
距 離 法 など の 階 層 型 手 法 と ,k-means 法 [18]などの 非 階<br />
層 型 手 法 に 大 き く 分 け ら れ る .<br />
3.2.1. 階 層 型 クラスタリング<br />
階 層 型 クラ ス タ リ ン グ とは, ク ラス タ 間 の 距 離 関 数<br />
に 基 づ き, 最 も 距 離 の 近 い 二 つ の クラ ス タ を 逐 次 的 に<br />
併 合 する 手 法 である. そ し て , こ の 併 合 操 作 を 全 ての<br />
対 象 が 一 つ の ク ラ ス タ に 併 合 さ れ るま で 繰 り 返 す こ と<br />
に よ り 処 理 を 完 了 す る .<br />
ク ラ ス タ C 1 と C 2 の 距 離 関 数 D C 1 , C 2 の 違 い に よ り 以<br />
下 の よ うな 手 法 に 区 別 できる.<br />
最 短 距 離 法 D C 1 , C 2 = min<br />
x 1 ∈C 1 ,x 2 ∈C 2<br />
D x 1 , x 2 (3.1)<br />
最 長 距 離 法 D C 1 , C 2 = max<br />
x 1 ∈C 1 ,x 2 ∈C 2<br />
D x 1 , x 2 (3.2)<br />
1<br />
群 平 均 法 D C 1 , C 2 =<br />
D x<br />
n 1 × n 1 , x 2 (3.3)<br />
2<br />
x 1 ∈C 1 x 2 ∈C 2<br />
ここで x は 対 象 となるドキュメントを 表 す.これら<br />
の 方 法 は , 任 意 の 対 象 間 の 距 離 D x i , x j が 与 え ら れ て い<br />
る 場 合 に 適 用 可 能 で あ る . 対 象 が 数 値 ベ ク ト ル で 記 述<br />
さ れ て いる 場 合 に は , ベ ク ト ル 間 のユ ー ク リ ッ ド 距 離<br />
な ど を 求 め て 適 用 す る . す べ て の 対 象 間 の 距 離 を 計 算<br />
す る の で, 計 算 量 は 少 な く と も O N 2 に なる .<br />
3.2.2. 非 階 層 型 クラスタリング 手 法<br />
非 階 層 型 ク ラ ス タ リ ン グ 手 法 と は, 各 デ ー タ を 複 数<br />
の ク ラ スタ に 分 類 す る 手 法 で あ る . 非 階 層 型 クラスタ<br />
リ ン グ 手 法 と し て 代 表 的 な ア ル ゴ リ ズ ム に,k-means
法 [18]が 存 在 する. 一 般 的 な k-means 法 は, 図 4 に 記<br />
し た 手 順 で 実 行 される.<br />
1 ク ラ ス タ の 個 数 k を 決 め , 各 ク ラ ス タ の 初 期 ベ ク ト ル<br />
を 作 成 す る c 1 , ⋯ , c k .<br />
2 N 件 の 分 類 対 象 を , そ れ ぞ れ , 最 も 近 い ベ ク ト ル c k に<br />
従 っ て 分 類 し , そ の ク ラ ス タ に 割 り 当 て て , ベ ク ト ル<br />
c k を 更 新 す る .<br />
3 も し ベ ク ト ル c k が 変 化 し な く な れ ば 処 理 を 終 了 し ,そ う<br />
で な け れ ば 2 に 戻 る .<br />
図 4 k-means<br />
一 般 的 な k-means 法 で は ,ク ラ ス タ ベ クト ル c k が 安<br />
定 す る まで , 分 類 対 象 の ク ラ ス タ への 割 り 当 て と ク ラ<br />
ス タ ベ クト ル の 更 新 と が 反 復 的 に 繰 り 返 さ れ る . こ の<br />
反 復 回 数 を r と す れ ば, 一 般 的 な k-means 法 の 計 算 量<br />
は Ο N × M × k × r と な る.こ こ で N は 文 書 数 ,M は 語<br />
数 ( ベ クト ル の 次 元 ) で あ る . 階 層 型 ク ラ ス タ リ ン グ<br />
手 法 の 計 算 量 が O N 2 に な っ て し ま う の に 対 し て ,<br />
k-means 法 の 計 算 量 は Ο N × M × k × r と 少 な い とい う<br />
利 点 が ある .し かし ,ク ラ ス タ 数 k を 前 もって 与 える<br />
必 要 が あ り,ま た , ク ラ ス タ の 重 心 の 初 期 ベ ク ト ル<br />
c 1 , ⋯ , c k の 設 定 に よ っ て は 局 所 解 に 陥 っ て し ま い , 正<br />
し く ク ラス タ リ ン グ さ れ な い 可 能 性 が あ る . こ の 問 題<br />
を 解 消 す る た め に<br />
k-means++ 法 [19]が 考 案 された.<br />
k-means++は 初 期 ベクトルの 配 置 を 考 慮 す る も の で ,<br />
既 に 置 かれ た ベ ク ト ル の 近 く に 初 期 ベ ク ト ル が 配 置 さ<br />
れ る 確 率 を 減 ら し , な る べ く 等 距 離 上 に 初 期 ベ ク ト ル<br />
を 配 置 でき る よ う に 改 良 さ れ た も ので あ る .<br />
また, 適 切 と 思 われるクラスタ 数 を 自 動 的 に 決 定 す<br />
る こ と がで き る x-means[20]と い う 手 法 も 考 案 さ れ て<br />
いる.x-means は , k = 2 と し て 再 帰 的 に k-means 法<br />
を 実 行 する . ク ラ ス タ の 分 割 前 と 分 割 後 で 情 報 量 規 準<br />
の 一 つ であ る BIC( Bayesian Information Criterion)<br />
を 比 較 し,クラスタの 分 割 が 妥 当 と 判 断 されるまで 分<br />
割 を 続 け, 適 切 なクラスタ 群 が 構 成 される.<br />
3.3. データの 可 視 化<br />
本 節 で は 階 層 型 デ ー タ を 視 覚 化 す る 有 名 な 手 法 で<br />
ある treemaps と, 視 覚 化 だけでなくクラスタリング<br />
の プ ロ セス 自 体 も 受 け 持 つ こ と が でき る 自 己 組 織 写 像<br />
に つ い て 説 明 す る .<br />
3.3.1. treemaps<br />
treemaps は 木 構 造 デ ー タ を 視 覚 化 す る 方 法 で あ る.<br />
階 層 型 デー タ も 一 種 の 木 構 造 と し て 扱 う こ と が で き る .<br />
特 に 長 方 形 の 領 域 に 区 切 り 階 層 型 デー タ を 出 力 す る 方<br />
法 は , こ れ ま で に 多 数 報 告 さ れ て い る [21][22]. い ず<br />
れ も ル ート ノ ー ド か ら 内 部 ノ ー ド を 再 帰 的 に 辿 っ て い<br />
き , 内 部 ノ ー ド の 領 域 を 確 保 し て いっ た 後 に , 辿 っ た<br />
先 が リ ーフ ノ ー ド で あ れ ば そ の 確 保 し た 領 域 を リ ー フ<br />
ノ ー ド へ 割 り 当 て る と い う ア ル ゴ リズ ム に よ っ て 構 成<br />
さ れ て いる . また,リーフノードの 領 域 を 長 方 形 でな<br />
く ボ ロ ノイ 図 の よ う な 領 域 を 確 保 して 木 構 造 の デ ー タ<br />
を 視 覚 化 す る<br />
voronoi-treemaps[23] と い う 手 法 が<br />
Michael ら によって 考 案 されている.リーフの 重 心 を<br />
二 次 元 上 の ど こ に 位 置 に マ ッ ピ ン グす る か を 決 定 し ,<br />
ボ ロ ノ イ 図 で 領 域 を 確 保 する 点 が 前 者 と は 異 なる. 全<br />
て の リ ーフ の 重 心 が 二 次 元 上 にマッピングした 後 , 最<br />
後 に そ の 点 が 持 つ べ き 領 域 の 境 界 線 を 引 く こ と に よ り<br />
voronoi-treemaps は 完 了 する.<br />
3.3.2. 自 己 組 織 化 写 像 (Self-organizing-maps)<br />
Kohonen<br />
によって 提 唱 された 自 己 組 織 化 写 像<br />
(Self-organizing maps, 以 下 SOM)は ニ ュ ー ラル ネ ッ<br />
ト ワ ー クを 模 し た 基 本 学 習 ア ル ゴ リズ ム の 1 つであり,<br />
学 習 し た 結 果 を 様 々 な 形 式 へ マ ッ ピン グ で き る . 入 力<br />
層 と 競 合 層 か ら な る 2 層 構 造 を 用 いる こ と に よ り 学 習<br />
す る . 入 力 層 に は n 次 元 の デ ー タ を 与 え , 競 合 層 では<br />
m 次 元 上 に 配 置 さ れ た ノ ー ド が その ま ま 学 習 す る . 入<br />
力 層 と 競 合 層 の 次 元 は 自 由 に 設 定 でき る た め , 高 次 元<br />
デ ー タ の 視 覚 化 に よ く 用 い ら れ る . 現 在 で は SOM を<br />
教 師 な し 学 習 の ク ラ ス タ リ ン グ に も 応 用 さ れ て い る .<br />
4. 提 案 手 法<br />
本 節 では,4.1 節 において 要 求 条 件 を 示 し,4.2 節 で<br />
本 手 法 の 詳 細 に つ い て 述 べ , 4.3 節 に て 本 手 法 の 性 質<br />
や 適 用 範 囲 つ い て ま と め る .<br />
4.1. 要 求 条 件<br />
本 研 究 の 目 的 は P2P ネ ッ ト ワ ー ク を 流 通 し て い る コ<br />
ンテンツを 単 語 単 位 で 調 べ , そ の 結 果 を 視 覚 化 す る こ<br />
とである. 本 稿 で は 対 象 と す る P2P ネ ッ トワ ー ク を 流<br />
通 し て いる フ ァ イ ル 名 全 体 か ら 単 語 を 抽 出 し ,その 抽<br />
出 し た 単 語 同 士 の 関 連 性 を 求 め て ,そ の 結 果 を 図 示 す<br />
る プ ロ セス を 経 ることによりこれを 実 現 している.そ<br />
の 際 に 収 集 するデータに 偏 りが あ ると , 結 果 に 偏 りが<br />
生 じ て しま う の で 注 意 が 必 要 で あ る. ま た , 固 有 名 詞<br />
の 単 語 辞 書 を 予 め 用 意 できな い も のと す る . そのため<br />
には 図 5 に 示 す 要 求 条 件 を 満 た さ な く て は な ら な い .<br />
1 分 析 す る デ ー タ に 偏 り が 生 じ な い よ う に す る た め に , P2P<br />
ネ ッ ト ワ ー ク 全 体 か ら フ ァ イ ル 名 を 収 集 す る .<br />
2 収 集 し た フ ァ イ ル 名 か ら 単 語 を 抽 出 す る .<br />
3 抽 出 さ れ た 単 語 同 士 の 距 離 を 定 義 す る 関 数 が 存 在 し , 単 語 同<br />
士 の 関 連 性 の 強 さ が 定 義 で き る .<br />
4 得 ら れ た 単 語 同 士 の 関 連 性 を 平 面 上 に マ ッ ピ ン グ す る .<br />
図 5 コ ン テ ン ツ 分 析 の た め の 要 求 条 件
4.2. 提 案 手 法 詳 細<br />
本 節 では 4.1 で 述 べた 条 件 を 満 たすための 詳 細 なプ<br />
ロ セ ス を 記 載 す る . 始 め に 提 案 手 法 の 流 れ を 述 べ た 後<br />
に , そ のプ ロ セ ス の 中 で 用 い ら れ てい る 技 術 の 詳 細 に<br />
つ い て 説 明 す る .<br />
4.2.1. 提 案 手 法 の 流 れ<br />
P2P ネッ ト ワ ー ク 上 で 流 通 し て い るコ ン テ ン ツ を 視<br />
覚 的 に 把 握 す る た め に は, 図 5 で 示 し た 要 求 条 件 を 満<br />
たしつついくつかのプロセスを 経 る 必 要 がある.そこ<br />
で , 本 節 で は 図 6 に 提 案 手 法 全 体 の 流 れ を 示 し , 各 プ<br />
ロ セ ス が 図 5 で 示 し た 要 求 条 件 と ど の よ う に 対 応 す<br />
る の か を 説 明 し た 後 に , 各 プ ロ セ スの 概 要 に つ い て 説<br />
明 す る . 各 プ ロ セ ス の 詳 細 な 手 順 に つ い て は 4.2.2~<br />
4.2.5 で 述 べる .<br />
Start<br />
P2Pネットワーク 全 体 のファイル 名 収 集<br />
辞 書 を 作 成 ( 全 単 語 抽 出 )<br />
単 語 同 士 の 共 起 率 を 求 めクラスタリング<br />
クラスタリング 結 果 を 可 視 化 するよう 出 力<br />
End<br />
図 6 提 案 手 法 フ ロ ー チ ャ ー ト<br />
全 体 の 流 れ と し て は ,ま ず 対 象 と す る P2P ファイル<br />
共 有 ソ フ ト ネ ッ ト ワ ー ク を 流 れ て い る コ ン テ ン ツ の<br />
ファイル 名 を 万 遍 無 く 収 集 する. 本 稿 では 実 際 に<br />
Winny ネットワークを 流 通 しているインデックス 情<br />
報 を 自 動 的 に 収 集 す る プ ロ グ ラ ム を 作 成 す る こ と に よ<br />
り 解 決 して い る ( 図 5 1 ).<br />
次 に そ の 得 ら れ た フ ァ イ ル 名 の 情 報 か ら ,そ の P2P<br />
フ ァ イ ル 共 有 ソ フ ト 内 で 単 語 と し て 扱 わ れ て い る 語 を<br />
機 械 的 に 抽 出 す る ( 図 5 2 ).つ ま り ,こ れ に よ り 対 象<br />
と す る P2P フ ァ イ ル 共 有 ソ フ ト に 特 化 し た 単 語 リ ス<br />
ト D を 作 成 す る こ と が で き る .<br />
次 に ,フ ァ イ ル 名 単 位 で の 単 語 同 士 の 共 起 数 を 求 め<br />
る.い ま , D の i 番 目 の 要 素 をd i , 単 語 d i と d j との 共 起<br />
回 数 をC(d i , d j )と 表 現 す る と す る.ま た, 単 語 w が 他 の<br />
単 語 と 共 起 し た 回 数 の 合 計 を Sum(w)と す ると ,D の 要<br />
素 数 を N とし て 式 (4.1)の よ う に 表 現 で き る .<br />
( 図 5 3 ).な お , 本 稿 で は Ward 法 に よ っ て 単 語 同 士<br />
の 距 離 を 定 義 し て い る . Ward 法 ではクラスタPとQの<br />
間 の 距 離 distance P, Q を 以 下 の 通 り 定 義 す る .<br />
distance P, Q = E P ∪ Q − E P − E Q (4.3)<br />
ここでE X は,Xの す べて の 点 か ら Xの 重 心 ま で の 距<br />
離 の 二 乗 の 総 和 である.Ward 法 は 他 の 距 離 関 数 に 比<br />
べ 分 類 感 度 が 高 い と い わ れ て い る . 以 上 の プ ロ セ ス に<br />
よ り 単 語 同 士 の 距 離 が 計 算 できるので,これを 基 に 階<br />
層 型 ク ラス タ リ ン グ を 行 い , 類 似 した 単 語 同 士 や 性 質<br />
が 近 い 単 語 同 士 を ま と め る . 最 後 にク ラ ス タ リ ン グ に<br />
よって 得 られた 階 層 型 構 造 のデータを voronoi-treem<br />
aps の よう に 視 覚 化 することで, 本 稿 の 最 終 目 的 を 達<br />
成 す る こと が で き る ( 図 5 4 )<br />
4.2.2. Winny ネットワーク 全 体 のキー 収 集<br />
Winny ネットワーク 上 のコンテンツを 分 析 するため<br />
には,Winny ネットワー ク で 流 通 して い る フ ァ イ ル の<br />
フ ァ イ ル 名 を 偏 り な く 取 得 す る 必 要 が あ る .<br />
そ こで Winny ネ ッ ト ワ ー ク に 参 加 し て い る 全 て の<br />
ノ ー ド を 満 遍 なく 巡 回 するク ロ ー ラー プログラムを 作<br />
成 した. ク ロ ー ラ ー は Winny の プ ロ ト コ ル に 則 っ て<br />
Winny のピアと 通 信 を 試 み, フ ァ イル の イ ン デ ッ クス<br />
情 報 を 取 得 す る . 実 際 にファイル 転 送 に 関 わることは<br />
何 も せ ず, Winny ネ ッ ト ワ ー ク の キー を 収 集 し 続 け る<br />
プ ロ グ ラム で あ る . こ の プ ロ グ ラ ムを 連 続 稼 働 するこ<br />
とによって 、 一 定 期 間 に お け る 流 通 フ ァ イ ル の フ ァ イ<br />
ル 名 情 報 を 収 集 し た .<br />
4.2.3. Winny で 用 いられている 単 語 の 抽 出 方 法<br />
Winny ネットワークで 得 られるファイルにつけられ<br />
て い る ファ イ ル 名 は , 他 の 一 般 文 書 と 比 べ て 図 7 に 示<br />
す 特 徴 を 有 し て い る も の が 多 い .<br />
1. 同 じ フ ァ イ ル が 多 く 存 在 す る .<br />
2. 区 切 り 文 字 としてスペースが 入 っていることが 多 く,<br />
全 体 と し て 長 く て も 10 文 字 前 後 で ほ と ん ど の フ ァ イ<br />
ル 名 が ス ペ ー ス で 区 切 ら れ る .<br />
3. 比 較 的 短 い 単 語 同 士 の 連 続 に よ っ て 構 成 さ れ る . 助 詞<br />
や 副 助 詞 を あ ま り 含 ま な い .<br />
図 7 Winny ネ ッ ト ワ ー ク 上 の フ ァ イ ル 名 の 特 徴<br />
以 上 の 3 つ の 特 徴 を 利 用 す る こ と に よ り , Winny<br />
ネ ッ ト ワー ク 上 の 単 語 を 高 速 に 抽 出 で き る ヒ ュ ー リ ス<br />
テ ィ ッ クな 手 法 を 図 8 に 示 す.<br />
N−1<br />
Sum(d i ) = C(d i , d j )<br />
k=0,i≠k<br />
(4.1)<br />
次 に , 各 単 語 が 他 の 単 語 と 共 起 す る 確 率 ベ ク ト ル を<br />
定 義 す る. 単 語 d i のベクトル 成 分 v i は N 次 元 で 構 成 さ<br />
れ, 式 (4.2)により 計 算 する.<br />
v i = C d i , d 0 , C d i , d 1 , C d i , d 2 … C d i , d N−1 /sum(d i ) (4.2)<br />
以 上 の 計 算 に よ り , 各 単 語 の ベ ク ト ル が 定 義 さ れ ,<br />
単 語 同 士 の ベ ク ト ル 成 分 に よ っ て 距 離 を 定 義 で き る<br />
図 8 単 語 抽 出 と 前 処 理 フ ロ ー チ ャ ー ト
図 9 と 図 10 に 各 step の 説 明 を 示 す . な お , 文 字<br />
列 S が 文 字 列 Z の 部 分 文 字 列 であるということは,S<br />
が Z に 含 まれ る 文 字 列 で あ る こ と を 意 味 す る .<br />
step1. フ ァ イ ル 名 の 中 に は , 制 御 文 字 (ASCII コードで 1~<br />
31)や 特 殊 文 字 な ど 無 効 な 文 字 を 含 む も の が 僅 か な が ら 存<br />
在 す る .そ れ ら 無 効 な 文 字 が 存 在 し た 場 合 , 空 白 文 字 へ 変<br />
更 す る .<br />
step2. 大 文 字 小 文 字 や 全 角 半 角 の 異 な る 単 語 同 士 は 通 常 同<br />
じ 意 味 を 表 す .そ の た め , 英 字 や 記 号 の 大 文 字 小 文 字 ,カ<br />
ナ 文 字 や 空 白 文 字 の 全 角 半 角 の 形 式 を 統 一 す る .<br />
step3. 重 複 フ ァ イ ル 名 を カ ウ ン ト し て お く . 同 じ フ ァ イ ル<br />
名 を 繰 り 返 し 読 み 込 ま な く て も よ く な り , 後 の 処 理 を 大 幅<br />
に 高 速 化 で き る .<br />
step4. 実 際 に 単 語 の 抽 出 を 行 う プ ロ セ ス へ と 移 行 す る . 図<br />
10 に 記 す stepA~ stepE を 行 う こ と で , 単 語 を 機 械 的 に 抽<br />
出 す る こ と が で き る .<br />
図 9 前 処 理 ス テ ッ プ<br />
stepA. 収 集 し た フ ァ イ ル 名 の 文 字 列 か ら 形 成 さ れ る 部 分 文<br />
字 列 の 全 て の パ タ ー ン を 作 成 す る . 作 成 さ れ た 部 分 文 字 列<br />
群 が そ れ ぞ れ 単 語 候 補 と な る .<br />
stepB. 作 成 さ れ た 部 分 文 字 列 全 て に 対 し て , 全 て の フ ァ イ<br />
ル 名 か ら 出 現 回 数 を カ ウ ン ト し , 全 て の 部 分 文 字 列 か ら 構<br />
成 さ れ る prefix-tree を 作 成 す る . 次 に 作 成 さ れ た 部 分 文 字<br />
列 全 て に 対 し て stepC 以 降 を 行 う . こ の 際 に 単 語 候 補 と<br />
stepC.<br />
な っ て い る 部 分 文 字 列 を S と す る .<br />
S が 単 語 の 候 補 と な り 得 る か ど う か を , S の 出 現 回<br />
数 t に 応 じ て α を 閾 値 と し て 判 断 す る .<br />
stepD. prefix-tree の 中 か ら ,S に 任 意 の 1 文 字 を 足 し た 場 合<br />
存 在 す る リ ー フ が あ る か ど う か を 探 す . 存 在 し な け れ ば<br />
S を 単 語 で あ る と 判 断 し , 存 在 す る な ら ば stepE へ 進 む<br />
stepE. prefix-tree から S に 任 意 の 1 文 字 を 足 し た も の の う<br />
ち , 出 現 回 数 が 最 大 も の を 探 し そ の 出 現 回 数 を u と す る .<br />
次 に t に 対 す る u の 割 合 を 計 算 し ,そ の 割 合 が 閾 値 β 以 下<br />
な ら ば S を 単 語 と 判 断 し , β 以 上 な ら ば 単 語 で な い と 判<br />
断 す る .<br />
図 10 単 語 抽 出 ス テ ッ プ<br />
な お , 本 実 験 で は 4000 万 の フ ァ イル 名 を 対 象 に 実<br />
験 を 行 った. フ ァ イ ル 名 の 重 複 を 取 り 除 い た 結 果 ユ<br />
ニークなファイル 名 は 300 万 程 で あり , 最 も 多 いもの<br />
では 1 つの フ ァ イ ル 名 で 10 万 もの 重 複 が 見 ら れた .<br />
実 際 の 実 験 で は α =10000,β =0.3 に 設 定 す る こ と に<br />
より,5164 個 の 単 語 と 見 な さ れ る 語 を 抽 出 し た .<br />
4.2.4. 関 連 する 単 語 のグループ 化<br />
4.2.3 ま で のプ ロ セ ス により,Winny 上 での 単 語 を 抽<br />
出 す る こ と が できた. 単 語 を 定 義 す る こ と に よ り ,<br />
Winny のファイル 名 から 単 語 同 士 の 共 起 率 を 求 めるこ<br />
と が で きる . 図 11 で ク ラ ス タ リ ング の 結 果 を 得 ら れ<br />
る ま で のス テップを 説 明 する.<br />
step1. 4.2.3 で 抽 出 し た 任 意 の 2 単 語 が , 収 集 さ れ た フ ァ イ<br />
ル 名 上 で 共 起 す る 回 数 を カ ウ ン ト す る .こ れ を 全 て の 単 語<br />
の 組 み 合 わ せ に 対 し て 行 う .<br />
step2. 単 語 の 共 起 回 数 で は , 単 語 自 体 の 出 現 頻 度 が 大 き く<br />
異 な る 単 語 同 士 で は , 同 様 の 使 わ れ 方 を し て い て も , 距 離<br />
の 差 が 開 い て し ま う .そ こ で , 共 起 回 数 ベ ク ト ル を 正 規 化<br />
す る こ と で ,マ イ ナ ー な 言 い 回 し の 単 語 で も 同 様 な 使 わ れ<br />
方 を し て い る 他 の 単 語 と 距 離 を 近 く す る こ と が で き る .<br />
step3. step2 で 正 規 化 さ れ た 共 起 率 ベ ク ト ル を 用 い て 階 層 型<br />
ク ラ ス タ リ ン グ を 実 行 す る .<br />
step4. ク ラ ス タ 間 距 離 が γ 以 内 同 士 の 類 似 度 が 高 い 単 語 同<br />
士 を 同 一 ク ラ ス タ と し て 結 合 す る .<br />
図 11 ク ラ ス タ リ ン グ ス テ ッ プ<br />
な お,step3,step4 で 用 いるクラスタ 間 の 距 離 は(4.3)<br />
式 の Ward 法 を 用 いて 計 算 している.<br />
4.2.5. データの 視 覚 化<br />
階 層 型 クラスタリングによって 得 られた 階 層 型 構<br />
造 を 持 った デ ー タ を , voronoi-treemaps の 考 え 方 を<br />
用 いて 出 力 する. 本 稿 では, 単 語 同 士 の 距 離 が 近 く<br />
同 一 のクラスタに 属 するとみなされた 単 語 同 士 は 同<br />
一 色 で 表 示 するように 考 案 し て い る.<br />
あるクラスタC を 示 す 色 は C を 構 成 する 単 語<br />
s(s ∈ C )の RGB 値 の 平 均 値 によって 定 義 される.C<br />
を 構 成 するsの 色 は,Winny ネットワーク 上 でのsの<br />
出 現 頻 度 αと,sを ク エ リと し て Yahoo! Japan で 検 索<br />
したときのヒット 件 数 βの 比 率 γ(= α/β)によって 決 定<br />
さ れ る . 本 稿 で は , γの 値 が 大 き い ,つ ま り Web 上<br />
で の ヒ ット 件 数 βに 対 し,Winny 上 での 出 現 回 数 αの<br />
比 率 が 大 き い 値 を よ り Winny に 特 徴 的 な 語 と し て 考<br />
え, 赤 色 に 近 くなるようにS の 色 が 定 義 される. 逆<br />
に γの 値 が 小 さ い ,つ ま り Web 上 で の ヒ ッ ト 件 数 βに<br />
対 し,Winny 上 での 出 現 回 数 αの 比 率 が 小 さ い 値 を よ<br />
り 一 般 的 に 用 いられる 語 として 青 色 に 近 くなるよう<br />
に sの 色 が 定 義 し さ れ る . そ し て , あ ま り ど ち ら に<br />
偏 っ て い る と も 言 え な い 単 語 は sの 色 が 緑 色 に 近 く<br />
なるように 以 下 に 示 される 式 によってそれぞれ 定 義<br />
される.<br />
な お , 式 中 で 用 い ら れ る 定 数 M は 全 ての 単 語 の 平 均<br />
出 現 回 数 で あ る .<br />
R = min(255,128 × M × γ) (5.1)<br />
B = min(255,128 × M × 1 γ ) (5.2)<br />
G = min(0,128 − abs R − B ) (5.3)<br />
mi n a, b は aと bの 2 つで 最 小 の 値 を 返 す 関 数 であり,<br />
max a, b は aと bの 2 つ で 最 大 の 値 を 返 す 関 数 であ る .<br />
また,abs(x)は xの 絶 対 値 を 返 す 関 数 で あ る.<br />
4.3. 本 手 法 が 適 用 される 範 囲<br />
本 節 で 説 明 し た 各 プ ロ セ ス を 経 る こ と に よ っ て 最<br />
終 的 に コン テ ン ツ の 分 布 を 示 し た 平 面 図 を 得 る こ と が
で き る . 特 に 4.2.3 で 説 明 し た 単 語 の 抽 出 方 法 は 本 稿<br />
独 自 の アル ゴ リ ズ ム で あ り ,P2P ネッ ト ワ ー ク で 流 通<br />
す る フ ァイ ル 名 の 付 け ら れ 方 の 特 性 を 利 用 し た 方 法 と<br />
な っ て いる .また, 西 欧 な ど の 文 化 圏 で P2P ファイル<br />
共 有 ソ フト ネ ッ ト ワ ー ク を 流 通 し てい る コ ン テ ン ツ を<br />
解 析 の 対 象 と する 場 合 には,ファイル 名 を 空 白 文 字 で<br />
区 切 っ て 単 語 と す る よ う に 単 語 抽 出 の ア ル ゴ リ ズ ム の<br />
部 分 を 変 更 す る こ と で , 本 手 法 が その ま ま 適 用 で き る<br />
と 考 え られ る .<br />
5. 結 果<br />
本 稿 では 2009 年 7 月 1 日 の 24 時 間 に Winny ネッ<br />
ト ワ ー クか ら 収 集 し た 4000 万 個 のインデックス 情 報<br />
に 対 して 分 析 を 行 った.<br />
2<br />
4<br />
3<br />
5<br />
1<br />
5.1. 単 語 抽 出 について<br />
イ ン デ ック ス 情 報 か ら 得 ら れ た 4000 万 ファイル 名<br />
を 対 象 と し 4 . 2 . 3 で 使 用 す る 閾 値 α , β を (α, β) =<br />
(10000,0.3)と し て 実 験 を 行 っ た と こ ろ 5164 単 語 を 抽<br />
出 した. α の 値 を 小 さ く 設 定 しすぎると, 余 りにもマ<br />
イ ナ ー な 単 語 や ファイル 名 の 誤 字 による 単 語 が 抽 出 さ<br />
れ て し まう. ま た , βの 値 を 大 き く し す ぎ る と 単 語 抽<br />
出 の 精 度 が 落 ち て し ま い , 単 語 で ない も の も 単 語 と し<br />
て 抽 出 され る . 本 手 法 で 抽 出 した 単 語 の 中 には 多 くの<br />
固 有 名 詞 が 含 ま れ て お り , Mecab[24]などの 従 来 の 日<br />
本 語 形 態 素 解 析 器 で は 抽 出 す る こ とが で き な い 多 く の<br />
名 詞 を 抽 出 す る こ とができた.<br />
5.2. クラスタリングの 出 力 結 果 について<br />
フ ァ イ ル 名 を 基 と し て , 単 語 の 共 起 率 に 基 づ い て 階<br />
層 型 ク ラス タ リ ン グ を 行 っ た 結 果 , 同 じ よ う な 系 統 ,<br />
あ る い は 似 た よ う な 意 味 を 持 つ 単 語 同 士 が 近 いクラス<br />
タ 位 置 を 得 る こ と が で き た . 図 12 に 本 実 験 で 抽 出 さ<br />
れた 単 語 5164 個 のうち,βの 値 が 小 さい 順 に 500 個<br />
を 選 ん でク ラ ス タ リ ン グ し た 結 果 を 示 す .<br />
同 じ 色 で 表 示 さ れ て い る 単 語 は 同 じ ク ラ ス タ に 属<br />
し て い るこ と を 意 味 す る .ま た , 図 13, 図 14 に 図 12<br />
中 の 1 ,2 の そ れ ぞ れ で 示 さ れ た 部 分 を 拡 大 し た 様 子<br />
を 示 す .1 の ク ラ ス タ に 含 ま れ て いる 単 語 は , 日 本 の<br />
有 名 な 歌 手 名 ま た は 歌 手 グ ル ー プ とい う 関 連 性 を 持 っ<br />
た 単 語 群 で あ り , 関 連 性 が あ る 単 語 同 士 が 同 一 の ク ラ<br />
ス タ に 分 類 さ れ て い る こ と を 示 し てい る . 図 14 は2<br />
で 示 さ れた ク ラ ス タ が 同 人 に 関 係 する 単 語 に よ っ て 構<br />
成 さ れ てい る こ と を 示 し て い る . 3は ア ダ ル ト 関 連 の<br />
単 語 に よっ て , 4 は 同 人 誌 , ア ニ メに 関 連 する 単 語 に<br />
よ っ て,5 は「 同 人 誌 」「 ア プ リ 」「 game」な ど と い っ<br />
た , フ ァイ ル の 種 類 を 表 す タ グ 情 報 に よ っ て 構 成 さ れ<br />
ている.<br />
図 12 ク ラ スタ リ ン グ 結 果 (500word)<br />
1<br />
図 13 歌 手 で 構 成 さ れ る ク ラ ス タ<br />
2<br />
図 14 同 人 関 連 で 構 成 さ れ る クラスタ
6. おわりに<br />
本 稿 で は,P2P ファイル 共 有 ネットワーク 上 を 流 通<br />
す る コ ンテ ン ツ の 分 類 を , 網 羅 的 かつ 視 覚 的 に 把 握 す<br />
る 手 法 を 提 案 し た .ま た , 実 際 に Winny ネットワーク<br />
を 解 析 対 象 と することにより, 提 案 手 法 が 有 効 である<br />
こ と を 示 し , 既 存 研 究 よ り も 粒 度 の 細 か い コ ン テ ン ツ<br />
の 分 析 結 果 を 取 得 す る こ と ができた. 今 後 の 課 題 と し<br />
ては, クラ ス タ リ ン グ の 結 果 を よ り 直 感 的 に 理 解 で き<br />
るように 表 示 方 法 を 改 善 することが 考 えられる.<br />
文 献<br />
[1] Clip2: “The Gnutella Protocol Specification v0.4”,<br />
http://www9.limewire.com/developer/gnutella_prot<br />
ocol_0.4.pdf<br />
[2] BitTorrent:“BitTorrent Home Page”, http://www.bit<br />
torrent.com/<br />
[3] Liang,J.,Kumar,R.and Ross, K.: “The FastTrack O<br />
verlay: A Measurement Study” Computer Network<br />
s Journal,Vol50,No6,pp.842-858 2006<br />
[4] Overnet: “Overnet.org”, http://www.overnet.org/<br />
[5] J. A. Pouwelse, P. Garbacki, D. H. J. Epema and<br />
H. J. Sips: “The Bittorrent P2P File-sharing Sys<br />
tem: Measurements and Analysis”, Proceedings of<br />
the 4th International Workshop on Peer-To-Peer<br />
Systems, pp.1-6, 2005Michael Balzer,M :“Voronoi<br />
Treemaps”, Proceedings / IEEE Symposium on I<br />
nformation Visualization, pp49, 2005<br />
[6] A. H. Rasti, D. Stutzbach and R. Rejaie: “On th<br />
e Long-term Evolution of the Two-Tier Gnutella<br />
Overlay”, Proceedings of the 9th IEEE Global Int<br />
ernet Symposium, pp.1-6, 2006.<br />
[7] M. Steiner, E. W. Biersack and T. Ennajjary: “A<br />
ctively Monitoring Peers in KAD”, Proceedings o<br />
f the 6th International Workshop on Peer-To-Peer<br />
Systems, pp.1-6, 2007.<br />
[8] NetAgent:“Winny とは?”, http://forensic.netagent.<br />
co.jp/winny_what.html<br />
[9] NetAgent:“Share とは?”, http://forensic.netagent.c<br />
o.jp/share_what.html<br />
[10] ( 社 )コ ン ピ ュ ー タ ソ フ ト ウ ェ ア 著 作 権 協 会 :“イン<br />
タ ー ネ ッ ト 上 で 流 通 し て い る 違 法 コ ン テ ン ツ の<br />
実 態 に つい て ”, 第 8 期 第 1 回 法 制 問 題 小 委 員 会 ,pp.<br />
1-7,2008.http://www.bunka.go.jp/chosakuken/sing<br />
ikai/housei/h20_08/pdf/sanko_3_2.pdf<br />
[11] 大 井 恵 太 , 亀 井 聡 , 森 達 哉 :“P2Pファイル 共 有 に<br />
お け る コ ン テ ン ツ 分 析 ”, 情 報 処 理 学 会 報 告 マル<br />
チ メ デ ィア 通 信 と 分 散 処 理 研 究 会 報 告 ,Vol.2003,<br />
No.87,pp.17-24, 2003.<br />
[12] 蜂 須 賀 大 紀 , 大 坐 畠 智 , 川 島 幸 之 助 :“ピュア P2P<br />
ネ ッ ト ワー ク 構 成 ピ ア 数 推 定 法 の 一 検 討 ”, 電 子 情<br />
報 通 信 学 会 技 術 研 究 報 告 , Vol.105, No.12,pp.1-<br />
4, 2005.<br />
[13] NetAgent:“Winny ノ ー ド 数 の 推 移 ”,http://www.one<br />
pointwall.jp/winny/winny-node.html<br />
[14] 大 坐 畠 智 , 鈴 木 秀 章 , 萩 原 洋 一 , 寺 田 松 昭 , 川 島<br />
幸 之 助 :“パッ シ ブ /アクティブ 検 知 を 用 いたP2Pト<br />
ラ ヒ ッ ク 特 定 法 ”, 情 報 処 理 学 会 研 究 報 告 分 散 シ<br />
ステム/イ ン タ ー ネ ッ ト 運 用 技 術 ,Vol.2005,No.3<br />
1, pp.79-84, 2005.<br />
[15] 松 田 崇 , 中 村 文 隆 , 若 原 恭 , 田 中 良 明 :“P2P 弁 別<br />
の た め のト ラ ヒ ッ ク 特 徴 量 の 提 案 ”, 電 子 情 報 通 信<br />
学 会 技 術 研 究 報 告 , Vol.105, No.12, pp.5-8,200<br />
5.<br />
[16] 中 川 裕 志 , 湯 本 紘 彰 , 森 辰 則 :“ 出 現 頻 度 と 連 接 頻<br />
度 に 基 づく 専 門 用 語 抽 出 ”, 自 然 言 語 処 理 ,Vol.10,<br />
No.1,pp.27-45,2003.<br />
[17] D. Klein, J. Smarr, H. Nguyen and C. D. Manni<br />
ng: “Named Entity Recognition with Character-Le<br />
vel Models”, Proceedings of the 7th Conference<br />
on Natural Language Learning, pp.180-183, 2003.<br />
[18] R. O. Duda, P. E. Hart and D. G. Stork: “Patter<br />
n Classification (2nd ed.)”, Wiley Interscience, p.<br />
680, 2001.<br />
[19] D. Arthur and S. Vassilvitskii: “k-means++: The<br />
Advantages of Careful Seeding”, Proceedings of t<br />
he 18th Annual ACM-SIAM Symposium on Discr<br />
ete Algorithms, pp.1027-1035, 2007.<br />
[20] D. Palleg and A. W. Moore: “X-means: Extendin<br />
g K-means with Efficient Estimation of the Num<br />
ber of Clusters”, Proceedings of the 17th Internat<br />
ional Conference on Machine Learning, pp.727-73<br />
4, 2000.<br />
[21] B. Shneiderman: “Tree Visualization with Tree-M<br />
aps: 2-d Space-Filling Approach”, ACM Transacti<br />
ons on Graphics, Vol.11, No.1, pp.92-99, 1992.<br />
[22] M. Bruls, K. Huizing and J. J. van Wijk: “Squar<br />
ified Treemaps”, Proceedings of the Joint Eurogra<br />
phics and IEEE TCVG Symposium on Visualizati<br />
on, pp.33-42, 1999.<br />
[23] M. Balzer and O. Deussen: “Voronoi Treemaps”,<br />
Proceedings of the 2005 IEEE Symposium on Inf<br />
ormation Visualization, pp.49-56, 2005.<br />
[24] Mecab: “Yet Another Part-of-Speech and Morphol<br />
ogical Analyzer”, http://mecab.sourceforge.net/