18.11.2014 Views

電子情報通信学会ワードテンプレート (タイトル) - 情報処理学会 ...

電子情報通信学会ワードテンプレート (タイトル) - 情報処理学会 ...

電子情報通信学会ワードテンプレート (タイトル) - 情報処理学会 ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

DEIM Forum 2010 D8-3<br />

Winny ネットワーク 上 を 流 通 するコンテンツの 傾 向 と 分 析 (O)<br />

†1<br />

打 田 研 二<br />

†2<br />

高 木 浩 光<br />

†3<br />

山 崎 邦 弘<br />

†4<br />

山 名 早 人<br />

†1,†3 早 稲 田 大 学 大 学 院 基 幹 理 工 学 研 究 科 〒169-8555 東 京 都 新 宿 区 大 久 保 3-4-1<br />

†2 産 業 技 術 総 合 研 究 所 〒101-0021 東 京 都 千 代 田 区 外 神 田 1-18-13 秋 葉 原 ダイビル<br />

†4 早 稲 田 大 学 理 工 学 術 院 〒169-8555 東 京 都 新 宿 区 大 久 保 3-4-1<br />

E-mail:<br />

†1, †3, †4<br />

{k_uchida,yaz79,yamana}@yama.info.waseda.ac.jp<br />

†2 takagi.hiromitu@aist.go.jp<br />

あらまし 近 年 、P2P(Peer to Peer) ファイル 共 有 ソフトの 利 用 が 一 般 世 帯 にまで 広 まっており, 様 々なコンテ<br />

ンツが P2P ファイル 共 有 ソフト 上 で 共 有 されている.しかし,P2P ファイル 共 有 ソフトのネットワーク 上 を 流<br />

通 しているコンテンツに 対 する 網 羅 的 な 調 査 報 告 は 存 在 しない.そこで 本 稿 では,Winny ネットワーク 上 の<br />

4,000 千 万 件 のインデックスを 解 析 することにより,コンテンツの 分 布 を 明 らかにする. 具 体 的 には,ファイ<br />

ル 名 についてその 分 布 をクラスタリングし 解 析 した.なお,ファイル 名 には 特 有 の 単 語 が 存 在 し, 既 存 の 形 態<br />

素 解 析 をそのまま 適 用 することができないため,シーケンシャルパターンマイニングを 応 用 することにより,<br />

未 知 の 単 語 についての 抽 出 を 試 みた. 実 験 の 結 果 ,Winny ネットワークを 流 通 するコンテンツを 単 語 単 位 の 粒<br />

度 で 知 ることができ, 特 に 同 人 ,アダルト,アニメに 関 連 するファイルが 多 いことが 判 明 した.<br />

キーワード P2P,Winny,ファイル 交 換 ソフトウェア, 単 語 抽 出<br />

The Analysis of Contents on the Winny Network(O)<br />

Kenji Uchida †1 Hiromitsu Takagi †2 Kunihiro Yamazaki †3 Hayato Yamana †4<br />

†1,†3 Graduate School of Fundamental Science and Engineering, Waseda University 3–4–1 Okubo, Shinjuku-ku, Tokyo, 169–8555, Japan<br />

†2 Research Center for Information Security, National Institute of Advanced Industrial Science and Technology<br />

Akihabara Daibiru, 1-18-13 Sotokanda, Chiyoda-ku, Tokyo 101-0021, Japan<br />

†4 Science and Engineering, Waseda University 3–4–1 Okubo, Shinjuku-ku, Tokyo, 169–8555, Japan<br />

†1, †3, †4<br />

E-mail:<br />

{k_uchida,yaz79,yamana}@yama.info.waseda.ac.jp<br />

†2 takagi.hiromitu@aist.go.jp<br />

Abstract Recently, the use of the P2P(Peer to Peer) file sharing software are spread and various contents are shared on the<br />

P2P software. However, there is no comprehensive research about the contents shared on P2P network. In this paper, we<br />

research what contents are shared on the Winny network. We collected four billion file indexes on the Winny network and<br />

analyzing those indexes for investigating what contents are much shared and we clustered similar contents about filename. We<br />

attempted extracting words by using sequential pattern mining. We couldn't use a normal morphological analysis machine<br />

because contents are named by particular way. As a result, we acquired word-level contents shared on the Winny network. We<br />

could find out a lot of contents are shared, especially that are relevant to coterie or adult or cartoon.<br />

Keyword Peer to Peer, Winny, File sharing software, word extraction<br />

1. はじめに<br />

昨 今 ,ユ ー ザ が 大 容 量 の デ ー タ を 高 速 に ダ ウ ン ロ ー<br />

ド , ア ップ ロ ー ド す る こ と が 可 能 にな る に 伴 い,<br />

P2P(Peer to Peer)アプ リ ケ ー シ ョン が 一 般 の 人 々 へ<br />

普 及 し てい っ た . な か で も フ ァ イ ル 共 有 ソ フ ト の 普 及<br />

は 特 に 目 覚 ま し い.Gnutella[1], BitTorrent[2],<br />

FastTrack[3], Overnet[4]な ど の プロ ト コ ル を 基 盤 に<br />

用 いて P2P ファイル 共 有 ソフトを 開 発 しやすいこと<br />

も あ り,こ れ ら の プ ロ トコ ル を 利 用 し た P2P ファイル<br />

共 有 ソ フト が 世 界 中 で 1 日 あ た り 数 百 万 人 規 模 の ユ ー<br />

ザ に 利 用 さ れ て い る [3][5][6][7]. 日 本 にお い て も<br />

Winny[8]や Share[9]と い っ た フ ァイ ル 共 有 ソ フ ト が<br />

多 数 の ユー ザ に 利 用 さ れ て い る . 一 方 で , コンピュー<br />

タ ソ フ トウ ェ ア 著 作 権 協 会 ( 以 下 ACCS)が 行 った 調 査<br />

に よ る と,P2P ネットワーク 上 で 共 有 されているファ<br />

イ ル に は 現 在 の 著 作 権 法 上 違 法 と され る フ ァ イ ル が 多<br />

い と 報 告 されている[10]. しかし, 従 来 の 調 査 では 音<br />

楽 や 動 画 な ど と い っ た 大 ま か な カ テゴ リ 単 位 で コ ン テ<br />

ン ツ の 流 通 状 況 を 明 らかにした 資 料 は 存 在 し て い る が ,


何 のコ ンテ ン ツ が P2P フ ァ イ ル 共 有 ソ フ ト で 共 有 さ<br />

れているかまでは 明 らかにされておら ず , 詳 細 は 不 明<br />

である.<br />

そ こ で 本 稿 で は 国 内 で 広 く 普 及 し てい る フ ァ イ ル<br />

共 有 ソフト Winny を 観 測 の 対 象 とし , 何 のコンテンツ<br />

が P2P フ ァ イル 共 有 ネ ッ ト ワ ー ク 上 を 流 通 し て い る<br />

かを 把 握 す る 手 法 を 提 案 する.Winny 上 でキーと 呼 ば<br />

れ る イ ンデ ッ ク ス 情 報 を 観 測 し , どの よ う な コ ン テ ン<br />

ツが Winny 上 で 流 通 し て い る か 推 定 す る .イ ン デ ッ ク<br />

ス 情 報 に 含 ま れ る ファイル 名 から,ヒューリスティッ<br />

ク な 手 法 を 用 い て Winny 上 で 使 用 さ れ て い る 単 語 を<br />

機 械 的 に 抽 出 す る .そ し て , 抽 出 さ れた 単 語 同 士 の フ ァ<br />

イ ル 名 に 対 す る 共 起 率 を 用 い る こ とに よ り , 類 似 す る<br />

単 語 同 士 で クラスタを 構 成 す る . 最 後 に 構 成 さ れ た ク<br />

ラ ス タ 群 を 出 力 す る こ と に よ り ,Winny 上 を 流 通 する<br />

コ ン テ ンツ を 視 覚 的 に 捉 え る こ と を 可 能 に す る .<br />

本 稿 で は 以 下 の 構 成 を と る .まず 第 2 節 で 既 存 研 究<br />

と そ の 問 題 点 を 述 べ , 第 3 節 で 提 案 手 法 で 用 い る 関 連<br />

技 術 に つい て 述 べ る . 次 に 第 4 節 で 提 案 手 法 の 詳 細 を<br />

述 べ る.そ し て 第 5 節 で は 実 験 の 結 果 を 記 す と と も に<br />

考 察 し , 最 後 に 第 6 節 でまとめる.<br />

2. P2P ファイル 共 有 ソフトに 関 わる 研 究<br />

本 節 で は,P2P ファイル 共 有 ソフトの 解 析 調 査 に 関<br />

連 し て いる 既 存 研 究 を 報 告 す る .<br />

2.1. コンテンツの 流 通 状 況<br />

こ れ ま で に P2P フ ァ イ ル 共 有 ソ フ ト 内 の コ ン テ ン<br />

ツ の 流 通 状 況 を ま と め た 報 告 は 少 ない . 本 節 で は , 拡<br />

張 子 で コ ン テ ン ツ の 統 計 を と っ た 大 井 ら の 研 究 [11]と ,<br />

大 ま か なカ テ ゴ リ に 人 手 で 分 類 した ACCS の 報 告 [10]<br />

について 示 す.<br />

2.1.1. 大 井 らの 調 査 [11]<br />

P2P ネッ ト ワ ー ク 内 を 流 通 す る フ ァイ ル の サ イ ズ や<br />

拡 張 子 の 分 布 が 大 井 らによって 調 査 さ れ , 報 告 されて<br />

い る . 大 井 ら の 実 験 で は WinMX, Gnutella, Winny<br />

の 3 つの P2P ネットワーク 内 に 流 通 するファイル 情 報<br />

を 収 集 し, 各 P2P ネ ット ワ ー ク に 対 し て 音 楽 (mp3),<br />

動 画 (mpg),ア ー カ イ ブ (zip), 画 像 フ ァ イル (jpg)などと<br />

いった 代 表 的 な 拡 張 子 で 集 計 し , ネッ ト ワ ー ク 全 体 に<br />

おける 拡 張 子 の 流 通 の 割 合 を 調 査 して い る .Winny に<br />

ついては 2003 年 4 月 18 日 から 20 日 まで の 3 日 間 (68<br />

時 間 ) 測 定 し て い る . 図 1 に 大 井 ら によ っ て 報 告 さ れ た<br />

Winny ネットワークにおける 拡 張 子 の 分 布 を 示 す.<br />

図 1 Winny で 流 通 している 拡 張 子 分 布<br />

( 文 献 [11]の 図 8 (a)のデータから 再 構 成 )<br />

2.1.2. ACCS の 報 告 [10]<br />

ACCS は , 実 際 に P2P フ ァ イ ル 共 有 ソ フ ト を 利 用 し<br />

た 経 験 があ る ユ ー ザ に 対 し て WEB ア ン ケ ート を 2007<br />

年 9 月 14 日 ~2007 年 9 月 24 日 の 期 間 で 実 施 し て い<br />

る . ユ ーザ は { 音 楽 , 映 像 , ソ フ ト ウェア, 写 真 ・ 画<br />

像 , 情 報 漏 洩 } の カ テ ゴ リ で 自 分 がダウンロードした<br />

こ と が ある ファイルを 回 答 している.<br />

ま た , 実 際 に ど の よ う な コ ン テ ン ツ が P2P ネ ッ ト<br />

ワ ー ク 上 で 流 通 しているかを 把 握 するため,Winny を<br />

対 象 と して 調 査 を 行 っ て い る.2007 年 9 月 28 日 17:00<br />

から 2007 年 9 月 29 日 17:00 までの 24 時 間 の 間 に<br />

Winny ネットワークから 得 られたファイル 名 から 約<br />

20,004 件 を ラ ン ダ ムに 抽 出 し , 人 手 に よ って 予 め 用 意<br />

された 6 つのカテゴリに 分 類 し , 著 作 権 物 の 割 合 を 推<br />

定 し て いる .そ の 際 の 調 査 結 果 を 図 2 に 示 す.しかし,<br />

図 2 に 示 さ れ て い る よ う に 集 計 外 とな る フ ァ イ ル が 全<br />

体 の 中 で 49%もの 割 合 を 占 めており, 半 分 のファイル<br />

に 対 し ては 不 明 瞭 な 結 果 に 終 わ っ てい る .<br />

2.1.3. 従 来 のコンテンツ 分 析 の 課 題<br />

大 井 ら の 研 究 では, 対 象 と す る P2P フ ァ イ ル 共 有<br />

ネ ッ ト ワー ク 内 を 流 通 す る フ ァ イ ルを い く つ か の 拡 張<br />

子 に よ って 分 類 し , そ れ ぞ れ の 拡 張 子 が ネ ッ ト ワ ー ク<br />

を 占 め る 割 合 を 示 し て い る . 一 方 ,ACCS は Winny ネッ<br />

ト ワ ー ク 上 を 流 通 し て い る フ ァ イ ル 名 を ラ ン ダ ム に 抽<br />

出 し , 人 手 に よ っ て そ れ ら の フ ァ イル 名 を 大 まかなカ<br />

テ ゴ リ へ 分 類 し て い る .しかし,どち ら の 研 究 も 流 通<br />

しているコンテンツの 大 ま か な 性 質 を 知 る こ と は で き<br />

て も , 具 体 的 に 何 の フ ァ イ ル が 共 有 さ れ て い る か 知 る<br />

こ と は でき な い .<br />

2.2. 参 加 ノード 数 分 析<br />

図 2 Winny にて 流 通 しているコンテンツ<br />

( 文 献 [10]の 図 2 のデータから 再 構 成 )<br />

P2P ファ イ ル 共 有 ネ ッ ト ワ ー ク が どの 程 度 の ノ ー ド<br />

数 に よ って 構 成 さ れ て い る か 調 査 した 研 究 は 多 数 報 告<br />

さ れ て いる [3][5][6][7].ま た , 本 稿 で 分 析 の 対 象 と し<br />

た Winny ネ ッ ト ワ ー ク に 関 し て の ノ ー ド 数 の 分 析 も<br />

既 に 行 われ て い る . 全 ノ ー ド 数 の 把 握 が 困 難 な Winny<br />

ネ ッ ト ワー ク の 規 模 を 推 定 す る た めに , 実 測 に よ っ て<br />

得 られた Winny の 通 信 デ ー タ を 使 用 し , シ ミ ュ レ ー<br />

ションによって Winny ネットワークの 規 模 を 推 定 す<br />

る 研 究 [12]や,11 台 の 観 測 装 置 を 用 い て Winny ネッ<br />

ト ワ ー クを 監 視 す る こ と に よ っ て 一 意 な ノ ー ド 数 を 算


出 す る 方 法 も あ り,Winny の ノ ー ド 数 の 規 模 は 2006<br />

年 8 月 地 点 で 「 平 日 で 39~ 41 万 , 土 日 で は 43~ 44<br />

万 以 上 のノ ー ド 数 」 で あ る と 報 告 され て いる[13].<br />

2.3. トラヒック 量 分 析<br />

1024 番 以 降 の ポ ー ト を 使 用 し て い る ト ラ ヒ ッ ク を<br />

観 測 す るこ と に よ っ て ,P2P フ ァイ ル 共 有 ソ フ ト が ど<br />

の 程 度 のト ラ ヒ ッ ク を 発 生 さ せ て いる か を 推 測 す る 研<br />

究 が 行 わ れ て い る [14][15]. し か し , ポ ー ト 番 号 だ け<br />

で は 実 際 に そ の 通 信 が P2P に よ る も の か ど う か を 判<br />

別 す る こ と は で き な い . そ こ で [14][15]で は , 通 信 に<br />

用 い ら れる ト ラ ヒ ッ ク の 特 徴 や , ノー ド 間 通 信 の サ ー<br />

バ /クラ イ ア ン ト 関 係 を 用 い る こ とに よ っ て ,ト ラ ヒ ッ<br />

クが P2P に よ る も の か ど う か を 特 定 す る 方 法 を 提 案<br />

し て い る.<br />

3. 関 連 技 術<br />

2.1 で 述 べ た 通 り , 既 存 研 究 で は コ ン テ ン ツ の 詳 細<br />

な 分 布 まで は 知 る こ と は で き な い .そ こ で 本 稿 で は ,<br />

単 語 単 位 の 粒 度 で 対 象 の<br />

P2P フ ァ イ ル 共 有 ソ フ ト<br />

ネ ッ ト ワー ク を 流 通 す る コ ン テ ン ツの 分 布 を 視 覚 的 に<br />

把 握 す る 手 法 を 提 案 す る . 提 案 手 法 で は , 図 3 に 示 す<br />

技 術 を 利 用 す る.<br />

1 対 象 と す る P2P フ ァ イ ル 共 有 ネ ッ ト ワ ー ク の 単 語 を 機<br />

械 的 に 抽 出 す る .<br />

2 1 で 抽 出 し た 単 語 同 士 を ク ラ ス タ リ ン グ す る .<br />

3 2 で 得 た ク ラ ス タ リ ン グ の 結 果 を 平 面 上 に 図 示 す る .<br />

図 3 本 稿 で 要 求 さ れ る 技 術<br />

以 下 , 単 語 抽 出 , ク ラ ス タ リ ン グ ,デ ー タ の 可 視 化<br />

に 関 わ るそ れ ぞ れ の 技 術 に つ い て 説 明 す る .<br />

3.1. 単 語 抽 出<br />

自 然 言 語 処 理 の 分 野 に お い て , 未 知 語 の 抽 出 に つ い<br />

て は 広 く 研 究 さ れ て き た [16][17]. 特 に 日 本 や 中 国 に<br />

は , 西 欧 の 言 語 と 違 っ て 空 白 の よ うな 明 確 な 単 語 の 境<br />

界 が 用 いら れ て い な い の で , 機 械 が 単 語 を 特 定 し , 抽<br />

出 す る こと は 難 し い . 一 般 に は 形 態 素 解 析 と 呼 ば れ る<br />

手 法 に より , 辞 書 を 基 に 文 を 単 語 毎 に 区 切 る 必 要 が あ<br />

る が , その 際 に は 辞 書 に な い 未 知 語 を う ま く 認 識 で き<br />

な い 問 題 が あ る . そ の た め , 例 え ば 中 川 ら は 未 知 語 で<br />

あ る 専 門 用 語 を 専 門 分 野 コ ー パ ス から 抽 出 す る 手 法 を<br />

提 案 し てい る [16].<br />

中 川 ら の 手 法 は ,「 連 続 す る 単 語 が あ る 場 合 に そ の<br />

単 語 が 出 て く る 順 番 の 確 率 に よ っ て 複 合 名 詞 が 専 門 用<br />

語 で あ るか ど う か を 判 断 す る 」 と いう 考 え 方 に 基 づい<br />

ている.し か し , 本 稿 の 場 合 は そ もそ も 未 知 語 の 範 囲<br />

が 幅 広 く 事 前 に 辞 書 を 用 意 す る こ とが で き な い .<br />

辞 書 を 用 いずに 未 知 語 を 抽 出 する 手 法 は Klein に<br />

よ っ て 行 わ れ て い る [17]. Klein は 単 語 抽 出 の 対 象 と<br />

す る ド キュ メ ン ト の 文 字 列 に 対 し て, 文 字 を 区 切 り 単<br />

位 とする N-gram を 総 当 た り で 作 成 し て い る .N-gram<br />

と は,あ る 文 字 列 から 文 字 や 単 語 など を 区 切 り と し て ,<br />

N 個 連 続 で 切 り 出 し た 並 び の 集 合 のこ と を 指 す .<br />

Klein の 提 案 したアルゴリズムは 以 下 の 通 りである.<br />

単 語 候 補 文 字 列 を S と す る. 文 字 列 S の 最 後 尾 へ 任 意<br />

の 1 文 字 を 足 し て , 予 め 作 成 し て おい た (S の 文 字 列 長<br />

+1)-gram の 中 か ら 一 致 す る 文 字 列 を 探 し , 該 当 す る 文<br />

字 列 集 合 Z を 作 成 す る . 次 に 対 象 とす る ド キ ュ メ ン ト<br />

中 で S が Z の 各 要 素 全 てに 対 して 状 態 遷 移 する 確 率 を<br />

調 べ る . 状 態 遷 移 の 確 率 モ デ ル に は 隠 れ マ ル コ フ モ デ<br />

ル を 採 用 し ている. 最 後 に 尤 度 が 高 か っ た も の か ら 順<br />

に 単 語 の 候 補 群 を 作 成 し て い く と いう も の で あ る . 対<br />

象 ド キ ュメ ン ト の 性 質 に 依 存 し な い 汎 用 性 の 高 い 手 法<br />

と 言 え る 反 面 , 解 析 対 象 と な る ド キュ メ ン ト の 文 字 数<br />

や 種 類 が 大 き く な る と 状 態 遷 移 数 の 増 大 に 従 っ て 計 算<br />

量 が 増 えてしまうという 難 点 がある.<br />

3.2. クラスタリング<br />

ド キ ュ メン ト を クラスタリングする 手 法 に は, 最 短<br />

距 離 法 など の 階 層 型 手 法 と ,k-means 法 [18]などの 非 階<br />

層 型 手 法 に 大 き く 分 け ら れ る .<br />

3.2.1. 階 層 型 クラスタリング<br />

階 層 型 クラ ス タ リ ン グ とは, ク ラス タ 間 の 距 離 関 数<br />

に 基 づ き, 最 も 距 離 の 近 い 二 つ の クラ ス タ を 逐 次 的 に<br />

併 合 する 手 法 である. そ し て , こ の 併 合 操 作 を 全 ての<br />

対 象 が 一 つ の ク ラ ス タ に 併 合 さ れ るま で 繰 り 返 す こ と<br />

に よ り 処 理 を 完 了 す る .<br />

ク ラ ス タ C 1 と C 2 の 距 離 関 数 D C 1 , C 2 の 違 い に よ り 以<br />

下 の よ うな 手 法 に 区 別 できる.<br />

最 短 距 離 法 D C 1 , C 2 = min<br />

x 1 ∈C 1 ,x 2 ∈C 2<br />

D x 1 , x 2 (3.1)<br />

最 長 距 離 法 D C 1 , C 2 = max<br />

x 1 ∈C 1 ,x 2 ∈C 2<br />

D x 1 , x 2 (3.2)<br />

1<br />

群 平 均 法 D C 1 , C 2 =<br />

D x<br />

n 1 × n 1 , x 2 (3.3)<br />

2<br />

x 1 ∈C 1 x 2 ∈C 2<br />

ここで x は 対 象 となるドキュメントを 表 す.これら<br />

の 方 法 は , 任 意 の 対 象 間 の 距 離 D x i , x j が 与 え ら れ て い<br />

る 場 合 に 適 用 可 能 で あ る . 対 象 が 数 値 ベ ク ト ル で 記 述<br />

さ れ て いる 場 合 に は , ベ ク ト ル 間 のユ ー ク リ ッ ド 距 離<br />

な ど を 求 め て 適 用 す る . す べ て の 対 象 間 の 距 離 を 計 算<br />

す る の で, 計 算 量 は 少 な く と も O N 2 に なる .<br />

3.2.2. 非 階 層 型 クラスタリング 手 法<br />

非 階 層 型 ク ラ ス タ リ ン グ 手 法 と は, 各 デ ー タ を 複 数<br />

の ク ラ スタ に 分 類 す る 手 法 で あ る . 非 階 層 型 クラスタ<br />

リ ン グ 手 法 と し て 代 表 的 な ア ル ゴ リ ズ ム に,k-means


法 [18]が 存 在 する. 一 般 的 な k-means 法 は, 図 4 に 記<br />

し た 手 順 で 実 行 される.<br />

1 ク ラ ス タ の 個 数 k を 決 め , 各 ク ラ ス タ の 初 期 ベ ク ト ル<br />

を 作 成 す る c 1 , ⋯ , c k .<br />

2 N 件 の 分 類 対 象 を , そ れ ぞ れ , 最 も 近 い ベ ク ト ル c k に<br />

従 っ て 分 類 し , そ の ク ラ ス タ に 割 り 当 て て , ベ ク ト ル<br />

c k を 更 新 す る .<br />

3 も し ベ ク ト ル c k が 変 化 し な く な れ ば 処 理 を 終 了 し ,そ う<br />

で な け れ ば 2 に 戻 る .<br />

図 4 k-means<br />

一 般 的 な k-means 法 で は ,ク ラ ス タ ベ クト ル c k が 安<br />

定 す る まで , 分 類 対 象 の ク ラ ス タ への 割 り 当 て と ク ラ<br />

ス タ ベ クト ル の 更 新 と が 反 復 的 に 繰 り 返 さ れ る . こ の<br />

反 復 回 数 を r と す れ ば, 一 般 的 な k-means 法 の 計 算 量<br />

は Ο N × M × k × r と な る.こ こ で N は 文 書 数 ,M は 語<br />

数 ( ベ クト ル の 次 元 ) で あ る . 階 層 型 ク ラ ス タ リ ン グ<br />

手 法 の 計 算 量 が O N 2 に な っ て し ま う の に 対 し て ,<br />

k-means 法 の 計 算 量 は Ο N × M × k × r と 少 な い とい う<br />

利 点 が ある .し かし ,ク ラ ス タ 数 k を 前 もって 与 える<br />

必 要 が あ り,ま た , ク ラ ス タ の 重 心 の 初 期 ベ ク ト ル<br />

c 1 , ⋯ , c k の 設 定 に よ っ て は 局 所 解 に 陥 っ て し ま い , 正<br />

し く ク ラス タ リ ン グ さ れ な い 可 能 性 が あ る . こ の 問 題<br />

を 解 消 す る た め に<br />

k-means++ 法 [19]が 考 案 された.<br />

k-means++は 初 期 ベクトルの 配 置 を 考 慮 す る も の で ,<br />

既 に 置 かれ た ベ ク ト ル の 近 く に 初 期 ベ ク ト ル が 配 置 さ<br />

れ る 確 率 を 減 ら し , な る べ く 等 距 離 上 に 初 期 ベ ク ト ル<br />

を 配 置 でき る よ う に 改 良 さ れ た も ので あ る .<br />

また, 適 切 と 思 われるクラスタ 数 を 自 動 的 に 決 定 す<br />

る こ と がで き る x-means[20]と い う 手 法 も 考 案 さ れ て<br />

いる.x-means は , k = 2 と し て 再 帰 的 に k-means 法<br />

を 実 行 する . ク ラ ス タ の 分 割 前 と 分 割 後 で 情 報 量 規 準<br />

の 一 つ であ る BIC( Bayesian Information Criterion)<br />

を 比 較 し,クラスタの 分 割 が 妥 当 と 判 断 されるまで 分<br />

割 を 続 け, 適 切 なクラスタ 群 が 構 成 される.<br />

3.3. データの 可 視 化<br />

本 節 で は 階 層 型 デ ー タ を 視 覚 化 す る 有 名 な 手 法 で<br />

ある treemaps と, 視 覚 化 だけでなくクラスタリング<br />

の プ ロ セス 自 体 も 受 け 持 つ こ と が でき る 自 己 組 織 写 像<br />

に つ い て 説 明 す る .<br />

3.3.1. treemaps<br />

treemaps は 木 構 造 デ ー タ を 視 覚 化 す る 方 法 で あ る.<br />

階 層 型 デー タ も 一 種 の 木 構 造 と し て 扱 う こ と が で き る .<br />

特 に 長 方 形 の 領 域 に 区 切 り 階 層 型 デー タ を 出 力 す る 方<br />

法 は , こ れ ま で に 多 数 報 告 さ れ て い る [21][22]. い ず<br />

れ も ル ート ノ ー ド か ら 内 部 ノ ー ド を 再 帰 的 に 辿 っ て い<br />

き , 内 部 ノ ー ド の 領 域 を 確 保 し て いっ た 後 に , 辿 っ た<br />

先 が リ ーフ ノ ー ド で あ れ ば そ の 確 保 し た 領 域 を リ ー フ<br />

ノ ー ド へ 割 り 当 て る と い う ア ル ゴ リズ ム に よ っ て 構 成<br />

さ れ て いる . また,リーフノードの 領 域 を 長 方 形 でな<br />

く ボ ロ ノイ 図 の よ う な 領 域 を 確 保 して 木 構 造 の デ ー タ<br />

を 視 覚 化 す る<br />

voronoi-treemaps[23] と い う 手 法 が<br />

Michael ら によって 考 案 されている.リーフの 重 心 を<br />

二 次 元 上 の ど こ に 位 置 に マ ッ ピ ン グす る か を 決 定 し ,<br />

ボ ロ ノ イ 図 で 領 域 を 確 保 する 点 が 前 者 と は 異 なる. 全<br />

て の リ ーフ の 重 心 が 二 次 元 上 にマッピングした 後 , 最<br />

後 に そ の 点 が 持 つ べ き 領 域 の 境 界 線 を 引 く こ と に よ り<br />

voronoi-treemaps は 完 了 する.<br />

3.3.2. 自 己 組 織 化 写 像 (Self-organizing-maps)<br />

Kohonen<br />

によって 提 唱 された 自 己 組 織 化 写 像<br />

(Self-organizing maps, 以 下 SOM)は ニ ュ ー ラル ネ ッ<br />

ト ワ ー クを 模 し た 基 本 学 習 ア ル ゴ リズ ム の 1 つであり,<br />

学 習 し た 結 果 を 様 々 な 形 式 へ マ ッ ピン グ で き る . 入 力<br />

層 と 競 合 層 か ら な る 2 層 構 造 を 用 いる こ と に よ り 学 習<br />

す る . 入 力 層 に は n 次 元 の デ ー タ を 与 え , 競 合 層 では<br />

m 次 元 上 に 配 置 さ れ た ノ ー ド が その ま ま 学 習 す る . 入<br />

力 層 と 競 合 層 の 次 元 は 自 由 に 設 定 でき る た め , 高 次 元<br />

デ ー タ の 視 覚 化 に よ く 用 い ら れ る . 現 在 で は SOM を<br />

教 師 な し 学 習 の ク ラ ス タ リ ン グ に も 応 用 さ れ て い る .<br />

4. 提 案 手 法<br />

本 節 では,4.1 節 において 要 求 条 件 を 示 し,4.2 節 で<br />

本 手 法 の 詳 細 に つ い て 述 べ , 4.3 節 に て 本 手 法 の 性 質<br />

や 適 用 範 囲 つ い て ま と め る .<br />

4.1. 要 求 条 件<br />

本 研 究 の 目 的 は P2P ネ ッ ト ワ ー ク を 流 通 し て い る コ<br />

ンテンツを 単 語 単 位 で 調 べ , そ の 結 果 を 視 覚 化 す る こ<br />

とである. 本 稿 で は 対 象 と す る P2P ネ ッ トワ ー ク を 流<br />

通 し て いる フ ァ イ ル 名 全 体 か ら 単 語 を 抽 出 し ,その 抽<br />

出 し た 単 語 同 士 の 関 連 性 を 求 め て ,そ の 結 果 を 図 示 す<br />

る プ ロ セス を 経 ることによりこれを 実 現 している.そ<br />

の 際 に 収 集 するデータに 偏 りが あ ると , 結 果 に 偏 りが<br />

生 じ て しま う の で 注 意 が 必 要 で あ る. ま た , 固 有 名 詞<br />

の 単 語 辞 書 を 予 め 用 意 できな い も のと す る . そのため<br />

には 図 5 に 示 す 要 求 条 件 を 満 た さ な く て は な ら な い .<br />

1 分 析 す る デ ー タ に 偏 り が 生 じ な い よ う に す る た め に , P2P<br />

ネ ッ ト ワ ー ク 全 体 か ら フ ァ イ ル 名 を 収 集 す る .<br />

2 収 集 し た フ ァ イ ル 名 か ら 単 語 を 抽 出 す る .<br />

3 抽 出 さ れ た 単 語 同 士 の 距 離 を 定 義 す る 関 数 が 存 在 し , 単 語 同<br />

士 の 関 連 性 の 強 さ が 定 義 で き る .<br />

4 得 ら れ た 単 語 同 士 の 関 連 性 を 平 面 上 に マ ッ ピ ン グ す る .<br />

図 5 コ ン テ ン ツ 分 析 の た め の 要 求 条 件


4.2. 提 案 手 法 詳 細<br />

本 節 では 4.1 で 述 べた 条 件 を 満 たすための 詳 細 なプ<br />

ロ セ ス を 記 載 す る . 始 め に 提 案 手 法 の 流 れ を 述 べ た 後<br />

に , そ のプ ロ セ ス の 中 で 用 い ら れ てい る 技 術 の 詳 細 に<br />

つ い て 説 明 す る .<br />

4.2.1. 提 案 手 法 の 流 れ<br />

P2P ネッ ト ワ ー ク 上 で 流 通 し て い るコ ン テ ン ツ を 視<br />

覚 的 に 把 握 す る た め に は, 図 5 で 示 し た 要 求 条 件 を 満<br />

たしつついくつかのプロセスを 経 る 必 要 がある.そこ<br />

で , 本 節 で は 図 6 に 提 案 手 法 全 体 の 流 れ を 示 し , 各 プ<br />

ロ セ ス が 図 5 で 示 し た 要 求 条 件 と ど の よ う に 対 応 す<br />

る の か を 説 明 し た 後 に , 各 プ ロ セ スの 概 要 に つ い て 説<br />

明 す る . 各 プ ロ セ ス の 詳 細 な 手 順 に つ い て は 4.2.2~<br />

4.2.5 で 述 べる .<br />

Start<br />

P2Pネットワーク 全 体 のファイル 名 収 集<br />

辞 書 を 作 成 ( 全 単 語 抽 出 )<br />

単 語 同 士 の 共 起 率 を 求 めクラスタリング<br />

クラスタリング 結 果 を 可 視 化 するよう 出 力<br />

End<br />

図 6 提 案 手 法 フ ロ ー チ ャ ー ト<br />

全 体 の 流 れ と し て は ,ま ず 対 象 と す る P2P ファイル<br />

共 有 ソ フ ト ネ ッ ト ワ ー ク を 流 れ て い る コ ン テ ン ツ の<br />

ファイル 名 を 万 遍 無 く 収 集 する. 本 稿 では 実 際 に<br />

Winny ネットワークを 流 通 しているインデックス 情<br />

報 を 自 動 的 に 収 集 す る プ ロ グ ラ ム を 作 成 す る こ と に よ<br />

り 解 決 して い る ( 図 5 1 ).<br />

次 に そ の 得 ら れ た フ ァ イ ル 名 の 情 報 か ら ,そ の P2P<br />

フ ァ イ ル 共 有 ソ フ ト 内 で 単 語 と し て 扱 わ れ て い る 語 を<br />

機 械 的 に 抽 出 す る ( 図 5 2 ).つ ま り ,こ れ に よ り 対 象<br />

と す る P2P フ ァ イ ル 共 有 ソ フ ト に 特 化 し た 単 語 リ ス<br />

ト D を 作 成 す る こ と が で き る .<br />

次 に ,フ ァ イ ル 名 単 位 で の 単 語 同 士 の 共 起 数 を 求 め<br />

る.い ま , D の i 番 目 の 要 素 をd i , 単 語 d i と d j との 共 起<br />

回 数 をC(d i , d j )と 表 現 す る と す る.ま た, 単 語 w が 他 の<br />

単 語 と 共 起 し た 回 数 の 合 計 を Sum(w)と す ると ,D の 要<br />

素 数 を N とし て 式 (4.1)の よ う に 表 現 で き る .<br />

( 図 5 3 ).な お , 本 稿 で は Ward 法 に よ っ て 単 語 同 士<br />

の 距 離 を 定 義 し て い る . Ward 法 ではクラスタPとQの<br />

間 の 距 離 distance P, Q を 以 下 の 通 り 定 義 す る .<br />

distance P, Q = E P ∪ Q − E P − E Q (4.3)<br />

ここでE X は,Xの す べて の 点 か ら Xの 重 心 ま で の 距<br />

離 の 二 乗 の 総 和 である.Ward 法 は 他 の 距 離 関 数 に 比<br />

べ 分 類 感 度 が 高 い と い わ れ て い る . 以 上 の プ ロ セ ス に<br />

よ り 単 語 同 士 の 距 離 が 計 算 できるので,これを 基 に 階<br />

層 型 ク ラス タ リ ン グ を 行 い , 類 似 した 単 語 同 士 や 性 質<br />

が 近 い 単 語 同 士 を ま と め る . 最 後 にク ラ ス タ リ ン グ に<br />

よって 得 られた 階 層 型 構 造 のデータを voronoi-treem<br />

aps の よう に 視 覚 化 することで, 本 稿 の 最 終 目 的 を 達<br />

成 す る こと が で き る ( 図 5 4 )<br />

4.2.2. Winny ネットワーク 全 体 のキー 収 集<br />

Winny ネットワーク 上 のコンテンツを 分 析 するため<br />

には,Winny ネットワー ク で 流 通 して い る フ ァ イ ル の<br />

フ ァ イ ル 名 を 偏 り な く 取 得 す る 必 要 が あ る .<br />

そ こで Winny ネ ッ ト ワ ー ク に 参 加 し て い る 全 て の<br />

ノ ー ド を 満 遍 なく 巡 回 するク ロ ー ラー プログラムを 作<br />

成 した. ク ロ ー ラ ー は Winny の プ ロ ト コ ル に 則 っ て<br />

Winny のピアと 通 信 を 試 み, フ ァ イル の イ ン デ ッ クス<br />

情 報 を 取 得 す る . 実 際 にファイル 転 送 に 関 わることは<br />

何 も せ ず, Winny ネ ッ ト ワ ー ク の キー を 収 集 し 続 け る<br />

プ ロ グ ラム で あ る . こ の プ ロ グ ラ ムを 連 続 稼 働 するこ<br />

とによって 、 一 定 期 間 に お け る 流 通 フ ァ イ ル の フ ァ イ<br />

ル 名 情 報 を 収 集 し た .<br />

4.2.3. Winny で 用 いられている 単 語 の 抽 出 方 法<br />

Winny ネットワークで 得 られるファイルにつけられ<br />

て い る ファ イ ル 名 は , 他 の 一 般 文 書 と 比 べ て 図 7 に 示<br />

す 特 徴 を 有 し て い る も の が 多 い .<br />

1. 同 じ フ ァ イ ル が 多 く 存 在 す る .<br />

2. 区 切 り 文 字 としてスペースが 入 っていることが 多 く,<br />

全 体 と し て 長 く て も 10 文 字 前 後 で ほ と ん ど の フ ァ イ<br />

ル 名 が ス ペ ー ス で 区 切 ら れ る .<br />

3. 比 較 的 短 い 単 語 同 士 の 連 続 に よ っ て 構 成 さ れ る . 助 詞<br />

や 副 助 詞 を あ ま り 含 ま な い .<br />

図 7 Winny ネ ッ ト ワ ー ク 上 の フ ァ イ ル 名 の 特 徴<br />

以 上 の 3 つ の 特 徴 を 利 用 す る こ と に よ り , Winny<br />

ネ ッ ト ワー ク 上 の 単 語 を 高 速 に 抽 出 で き る ヒ ュ ー リ ス<br />

テ ィ ッ クな 手 法 を 図 8 に 示 す.<br />

N−1<br />

Sum(d i ) = C(d i , d j )<br />

k=0,i≠k<br />

(4.1)<br />

次 に , 各 単 語 が 他 の 単 語 と 共 起 す る 確 率 ベ ク ト ル を<br />

定 義 す る. 単 語 d i のベクトル 成 分 v i は N 次 元 で 構 成 さ<br />

れ, 式 (4.2)により 計 算 する.<br />

v i = C d i , d 0 , C d i , d 1 , C d i , d 2 … C d i , d N−1 /sum(d i ) (4.2)<br />

以 上 の 計 算 に よ り , 各 単 語 の ベ ク ト ル が 定 義 さ れ ,<br />

単 語 同 士 の ベ ク ト ル 成 分 に よ っ て 距 離 を 定 義 で き る<br />

図 8 単 語 抽 出 と 前 処 理 フ ロ ー チ ャ ー ト


図 9 と 図 10 に 各 step の 説 明 を 示 す . な お , 文 字<br />

列 S が 文 字 列 Z の 部 分 文 字 列 であるということは,S<br />

が Z に 含 まれ る 文 字 列 で あ る こ と を 意 味 す る .<br />

step1. フ ァ イ ル 名 の 中 に は , 制 御 文 字 (ASCII コードで 1~<br />

31)や 特 殊 文 字 な ど 無 効 な 文 字 を 含 む も の が 僅 か な が ら 存<br />

在 す る .そ れ ら 無 効 な 文 字 が 存 在 し た 場 合 , 空 白 文 字 へ 変<br />

更 す る .<br />

step2. 大 文 字 小 文 字 や 全 角 半 角 の 異 な る 単 語 同 士 は 通 常 同<br />

じ 意 味 を 表 す .そ の た め , 英 字 や 記 号 の 大 文 字 小 文 字 ,カ<br />

ナ 文 字 や 空 白 文 字 の 全 角 半 角 の 形 式 を 統 一 す る .<br />

step3. 重 複 フ ァ イ ル 名 を カ ウ ン ト し て お く . 同 じ フ ァ イ ル<br />

名 を 繰 り 返 し 読 み 込 ま な く て も よ く な り , 後 の 処 理 を 大 幅<br />

に 高 速 化 で き る .<br />

step4. 実 際 に 単 語 の 抽 出 を 行 う プ ロ セ ス へ と 移 行 す る . 図<br />

10 に 記 す stepA~ stepE を 行 う こ と で , 単 語 を 機 械 的 に 抽<br />

出 す る こ と が で き る .<br />

図 9 前 処 理 ス テ ッ プ<br />

stepA. 収 集 し た フ ァ イ ル 名 の 文 字 列 か ら 形 成 さ れ る 部 分 文<br />

字 列 の 全 て の パ タ ー ン を 作 成 す る . 作 成 さ れ た 部 分 文 字 列<br />

群 が そ れ ぞ れ 単 語 候 補 と な る .<br />

stepB. 作 成 さ れ た 部 分 文 字 列 全 て に 対 し て , 全 て の フ ァ イ<br />

ル 名 か ら 出 現 回 数 を カ ウ ン ト し , 全 て の 部 分 文 字 列 か ら 構<br />

成 さ れ る prefix-tree を 作 成 す る . 次 に 作 成 さ れ た 部 分 文 字<br />

列 全 て に 対 し て stepC 以 降 を 行 う . こ の 際 に 単 語 候 補 と<br />

stepC.<br />

な っ て い る 部 分 文 字 列 を S と す る .<br />

S が 単 語 の 候 補 と な り 得 る か ど う か を , S の 出 現 回<br />

数 t に 応 じ て α を 閾 値 と し て 判 断 す る .<br />

stepD. prefix-tree の 中 か ら ,S に 任 意 の 1 文 字 を 足 し た 場 合<br />

存 在 す る リ ー フ が あ る か ど う か を 探 す . 存 在 し な け れ ば<br />

S を 単 語 で あ る と 判 断 し , 存 在 す る な ら ば stepE へ 進 む<br />

stepE. prefix-tree から S に 任 意 の 1 文 字 を 足 し た も の の う<br />

ち , 出 現 回 数 が 最 大 も の を 探 し そ の 出 現 回 数 を u と す る .<br />

次 に t に 対 す る u の 割 合 を 計 算 し ,そ の 割 合 が 閾 値 β 以 下<br />

な ら ば S を 単 語 と 判 断 し , β 以 上 な ら ば 単 語 で な い と 判<br />

断 す る .<br />

図 10 単 語 抽 出 ス テ ッ プ<br />

な お , 本 実 験 で は 4000 万 の フ ァ イル 名 を 対 象 に 実<br />

験 を 行 った. フ ァ イ ル 名 の 重 複 を 取 り 除 い た 結 果 ユ<br />

ニークなファイル 名 は 300 万 程 で あり , 最 も 多 いもの<br />

では 1 つの フ ァ イ ル 名 で 10 万 もの 重 複 が 見 ら れた .<br />

実 際 の 実 験 で は α =10000,β =0.3 に 設 定 す る こ と に<br />

より,5164 個 の 単 語 と 見 な さ れ る 語 を 抽 出 し た .<br />

4.2.4. 関 連 する 単 語 のグループ 化<br />

4.2.3 ま で のプ ロ セ ス により,Winny 上 での 単 語 を 抽<br />

出 す る こ と が できた. 単 語 を 定 義 す る こ と に よ り ,<br />

Winny のファイル 名 から 単 語 同 士 の 共 起 率 を 求 めるこ<br />

と が で きる . 図 11 で ク ラ ス タ リ ング の 結 果 を 得 ら れ<br />

る ま で のス テップを 説 明 する.<br />

step1. 4.2.3 で 抽 出 し た 任 意 の 2 単 語 が , 収 集 さ れ た フ ァ イ<br />

ル 名 上 で 共 起 す る 回 数 を カ ウ ン ト す る .こ れ を 全 て の 単 語<br />

の 組 み 合 わ せ に 対 し て 行 う .<br />

step2. 単 語 の 共 起 回 数 で は , 単 語 自 体 の 出 現 頻 度 が 大 き く<br />

異 な る 単 語 同 士 で は , 同 様 の 使 わ れ 方 を し て い て も , 距 離<br />

の 差 が 開 い て し ま う .そ こ で , 共 起 回 数 ベ ク ト ル を 正 規 化<br />

す る こ と で ,マ イ ナ ー な 言 い 回 し の 単 語 で も 同 様 な 使 わ れ<br />

方 を し て い る 他 の 単 語 と 距 離 を 近 く す る こ と が で き る .<br />

step3. step2 で 正 規 化 さ れ た 共 起 率 ベ ク ト ル を 用 い て 階 層 型<br />

ク ラ ス タ リ ン グ を 実 行 す る .<br />

step4. ク ラ ス タ 間 距 離 が γ 以 内 同 士 の 類 似 度 が 高 い 単 語 同<br />

士 を 同 一 ク ラ ス タ と し て 結 合 す る .<br />

図 11 ク ラ ス タ リ ン グ ス テ ッ プ<br />

な お,step3,step4 で 用 いるクラスタ 間 の 距 離 は(4.3)<br />

式 の Ward 法 を 用 いて 計 算 している.<br />

4.2.5. データの 視 覚 化<br />

階 層 型 クラスタリングによって 得 られた 階 層 型 構<br />

造 を 持 った デ ー タ を , voronoi-treemaps の 考 え 方 を<br />

用 いて 出 力 する. 本 稿 では, 単 語 同 士 の 距 離 が 近 く<br />

同 一 のクラスタに 属 するとみなされた 単 語 同 士 は 同<br />

一 色 で 表 示 するように 考 案 し て い る.<br />

あるクラスタC を 示 す 色 は C を 構 成 する 単 語<br />

s(s ∈ C )の RGB 値 の 平 均 値 によって 定 義 される.C<br />

を 構 成 するsの 色 は,Winny ネットワーク 上 でのsの<br />

出 現 頻 度 αと,sを ク エ リと し て Yahoo! Japan で 検 索<br />

したときのヒット 件 数 βの 比 率 γ(= α/β)によって 決 定<br />

さ れ る . 本 稿 で は , γの 値 が 大 き い ,つ ま り Web 上<br />

で の ヒ ット 件 数 βに 対 し,Winny 上 での 出 現 回 数 αの<br />

比 率 が 大 き い 値 を よ り Winny に 特 徴 的 な 語 と し て 考<br />

え, 赤 色 に 近 くなるようにS の 色 が 定 義 される. 逆<br />

に γの 値 が 小 さ い ,つ ま り Web 上 で の ヒ ッ ト 件 数 βに<br />

対 し,Winny 上 での 出 現 回 数 αの 比 率 が 小 さ い 値 を よ<br />

り 一 般 的 に 用 いられる 語 として 青 色 に 近 くなるよう<br />

に sの 色 が 定 義 し さ れ る . そ し て , あ ま り ど ち ら に<br />

偏 っ て い る と も 言 え な い 単 語 は sの 色 が 緑 色 に 近 く<br />

なるように 以 下 に 示 される 式 によってそれぞれ 定 義<br />

される.<br />

な お , 式 中 で 用 い ら れ る 定 数 M は 全 ての 単 語 の 平 均<br />

出 現 回 数 で あ る .<br />

R = min(255,128 × M × γ) (5.1)<br />

B = min(255,128 × M × 1 γ ) (5.2)<br />

G = min(0,128 − abs R − B ) (5.3)<br />

mi n a, b は aと bの 2 つで 最 小 の 値 を 返 す 関 数 であり,<br />

max a, b は aと bの 2 つ で 最 大 の 値 を 返 す 関 数 であ る .<br />

また,abs(x)は xの 絶 対 値 を 返 す 関 数 で あ る.<br />

4.3. 本 手 法 が 適 用 される 範 囲<br />

本 節 で 説 明 し た 各 プ ロ セ ス を 経 る こ と に よ っ て 最<br />

終 的 に コン テ ン ツ の 分 布 を 示 し た 平 面 図 を 得 る こ と が


で き る . 特 に 4.2.3 で 説 明 し た 単 語 の 抽 出 方 法 は 本 稿<br />

独 自 の アル ゴ リ ズ ム で あ り ,P2P ネッ ト ワ ー ク で 流 通<br />

す る フ ァイ ル 名 の 付 け ら れ 方 の 特 性 を 利 用 し た 方 法 と<br />

な っ て いる .また, 西 欧 な ど の 文 化 圏 で P2P ファイル<br />

共 有 ソ フト ネ ッ ト ワ ー ク を 流 通 し てい る コ ン テ ン ツ を<br />

解 析 の 対 象 と する 場 合 には,ファイル 名 を 空 白 文 字 で<br />

区 切 っ て 単 語 と す る よ う に 単 語 抽 出 の ア ル ゴ リ ズ ム の<br />

部 分 を 変 更 す る こ と で , 本 手 法 が その ま ま 適 用 で き る<br />

と 考 え られ る .<br />

5. 結 果<br />

本 稿 では 2009 年 7 月 1 日 の 24 時 間 に Winny ネッ<br />

ト ワ ー クか ら 収 集 し た 4000 万 個 のインデックス 情 報<br />

に 対 して 分 析 を 行 った.<br />

2<br />

4<br />

3<br />

5<br />

1<br />

5.1. 単 語 抽 出 について<br />

イ ン デ ック ス 情 報 か ら 得 ら れ た 4000 万 ファイル 名<br />

を 対 象 と し 4 . 2 . 3 で 使 用 す る 閾 値 α , β を (α, β) =<br />

(10000,0.3)と し て 実 験 を 行 っ た と こ ろ 5164 単 語 を 抽<br />

出 した. α の 値 を 小 さ く 設 定 しすぎると, 余 りにもマ<br />

イ ナ ー な 単 語 や ファイル 名 の 誤 字 による 単 語 が 抽 出 さ<br />

れ て し まう. ま た , βの 値 を 大 き く し す ぎ る と 単 語 抽<br />

出 の 精 度 が 落 ち て し ま い , 単 語 で ない も の も 単 語 と し<br />

て 抽 出 され る . 本 手 法 で 抽 出 した 単 語 の 中 には 多 くの<br />

固 有 名 詞 が 含 ま れ て お り , Mecab[24]などの 従 来 の 日<br />

本 語 形 態 素 解 析 器 で は 抽 出 す る こ とが で き な い 多 く の<br />

名 詞 を 抽 出 す る こ とができた.<br />

5.2. クラスタリングの 出 力 結 果 について<br />

フ ァ イ ル 名 を 基 と し て , 単 語 の 共 起 率 に 基 づ い て 階<br />

層 型 ク ラス タ リ ン グ を 行 っ た 結 果 , 同 じ よ う な 系 統 ,<br />

あ る い は 似 た よ う な 意 味 を 持 つ 単 語 同 士 が 近 いクラス<br />

タ 位 置 を 得 る こ と が で き た . 図 12 に 本 実 験 で 抽 出 さ<br />

れた 単 語 5164 個 のうち,βの 値 が 小 さい 順 に 500 個<br />

を 選 ん でク ラ ス タ リ ン グ し た 結 果 を 示 す .<br />

同 じ 色 で 表 示 さ れ て い る 単 語 は 同 じ ク ラ ス タ に 属<br />

し て い るこ と を 意 味 す る .ま た , 図 13, 図 14 に 図 12<br />

中 の 1 ,2 の そ れ ぞ れ で 示 さ れ た 部 分 を 拡 大 し た 様 子<br />

を 示 す .1 の ク ラ ス タ に 含 ま れ て いる 単 語 は , 日 本 の<br />

有 名 な 歌 手 名 ま た は 歌 手 グ ル ー プ とい う 関 連 性 を 持 っ<br />

た 単 語 群 で あ り , 関 連 性 が あ る 単 語 同 士 が 同 一 の ク ラ<br />

ス タ に 分 類 さ れ て い る こ と を 示 し てい る . 図 14 は2<br />

で 示 さ れた ク ラ ス タ が 同 人 に 関 係 する 単 語 に よ っ て 構<br />

成 さ れ てい る こ と を 示 し て い る . 3は ア ダ ル ト 関 連 の<br />

単 語 に よっ て , 4 は 同 人 誌 , ア ニ メに 関 連 する 単 語 に<br />

よ っ て,5 は「 同 人 誌 」「 ア プ リ 」「 game」な ど と い っ<br />

た , フ ァイ ル の 種 類 を 表 す タ グ 情 報 に よ っ て 構 成 さ れ<br />

ている.<br />

図 12 ク ラ スタ リ ン グ 結 果 (500word)<br />

1<br />

図 13 歌 手 で 構 成 さ れ る ク ラ ス タ<br />

2<br />

図 14 同 人 関 連 で 構 成 さ れ る クラスタ


6. おわりに<br />

本 稿 で は,P2P ファイル 共 有 ネットワーク 上 を 流 通<br />

す る コ ンテ ン ツ の 分 類 を , 網 羅 的 かつ 視 覚 的 に 把 握 す<br />

る 手 法 を 提 案 し た .ま た , 実 際 に Winny ネットワーク<br />

を 解 析 対 象 と することにより, 提 案 手 法 が 有 効 である<br />

こ と を 示 し , 既 存 研 究 よ り も 粒 度 の 細 か い コ ン テ ン ツ<br />

の 分 析 結 果 を 取 得 す る こ と ができた. 今 後 の 課 題 と し<br />

ては, クラ ス タ リ ン グ の 結 果 を よ り 直 感 的 に 理 解 で き<br />

るように 表 示 方 法 を 改 善 することが 考 えられる.<br />

文 献<br />

[1] Clip2: “The Gnutella Protocol Specification v0.4”,<br />

http://www9.limewire.com/developer/gnutella_prot<br />

ocol_0.4.pdf<br />

[2] BitTorrent:“BitTorrent Home Page”, http://www.bit<br />

torrent.com/<br />

[3] Liang,J.,Kumar,R.and Ross, K.: “The FastTrack O<br />

verlay: A Measurement Study” Computer Network<br />

s Journal,Vol50,No6,pp.842-858 2006<br />

[4] Overnet: “Overnet.org”, http://www.overnet.org/<br />

[5] J. A. Pouwelse, P. Garbacki, D. H. J. Epema and<br />

H. J. Sips: “The Bittorrent P2P File-sharing Sys<br />

tem: Measurements and Analysis”, Proceedings of<br />

the 4th International Workshop on Peer-To-Peer<br />

Systems, pp.1-6, 2005Michael Balzer,M :“Voronoi<br />

Treemaps”, Proceedings / IEEE Symposium on I<br />

nformation Visualization, pp49, 2005<br />

[6] A. H. Rasti, D. Stutzbach and R. Rejaie: “On th<br />

e Long-term Evolution of the Two-Tier Gnutella<br />

Overlay”, Proceedings of the 9th IEEE Global Int<br />

ernet Symposium, pp.1-6, 2006.<br />

[7] M. Steiner, E. W. Biersack and T. Ennajjary: “A<br />

ctively Monitoring Peers in KAD”, Proceedings o<br />

f the 6th International Workshop on Peer-To-Peer<br />

Systems, pp.1-6, 2007.<br />

[8] NetAgent:“Winny とは?”, http://forensic.netagent.<br />

co.jp/winny_what.html<br />

[9] NetAgent:“Share とは?”, http://forensic.netagent.c<br />

o.jp/share_what.html<br />

[10] ( 社 )コ ン ピ ュ ー タ ソ フ ト ウ ェ ア 著 作 権 協 会 :“イン<br />

タ ー ネ ッ ト 上 で 流 通 し て い る 違 法 コ ン テ ン ツ の<br />

実 態 に つい て ”, 第 8 期 第 1 回 法 制 問 題 小 委 員 会 ,pp.<br />

1-7,2008.http://www.bunka.go.jp/chosakuken/sing<br />

ikai/housei/h20_08/pdf/sanko_3_2.pdf<br />

[11] 大 井 恵 太 , 亀 井 聡 , 森 達 哉 :“P2Pファイル 共 有 に<br />

お け る コ ン テ ン ツ 分 析 ”, 情 報 処 理 学 会 報 告 マル<br />

チ メ デ ィア 通 信 と 分 散 処 理 研 究 会 報 告 ,Vol.2003,<br />

No.87,pp.17-24, 2003.<br />

[12] 蜂 須 賀 大 紀 , 大 坐 畠 智 , 川 島 幸 之 助 :“ピュア P2P<br />

ネ ッ ト ワー ク 構 成 ピ ア 数 推 定 法 の 一 検 討 ”, 電 子 情<br />

報 通 信 学 会 技 術 研 究 報 告 , Vol.105, No.12,pp.1-<br />

4, 2005.<br />

[13] NetAgent:“Winny ノ ー ド 数 の 推 移 ”,http://www.one<br />

pointwall.jp/winny/winny-node.html<br />

[14] 大 坐 畠 智 , 鈴 木 秀 章 , 萩 原 洋 一 , 寺 田 松 昭 , 川 島<br />

幸 之 助 :“パッ シ ブ /アクティブ 検 知 を 用 いたP2Pト<br />

ラ ヒ ッ ク 特 定 法 ”, 情 報 処 理 学 会 研 究 報 告 分 散 シ<br />

ステム/イ ン タ ー ネ ッ ト 運 用 技 術 ,Vol.2005,No.3<br />

1, pp.79-84, 2005.<br />

[15] 松 田 崇 , 中 村 文 隆 , 若 原 恭 , 田 中 良 明 :“P2P 弁 別<br />

の た め のト ラ ヒ ッ ク 特 徴 量 の 提 案 ”, 電 子 情 報 通 信<br />

学 会 技 術 研 究 報 告 , Vol.105, No.12, pp.5-8,200<br />

5.<br />

[16] 中 川 裕 志 , 湯 本 紘 彰 , 森 辰 則 :“ 出 現 頻 度 と 連 接 頻<br />

度 に 基 づく 専 門 用 語 抽 出 ”, 自 然 言 語 処 理 ,Vol.10,<br />

No.1,pp.27-45,2003.<br />

[17] D. Klein, J. Smarr, H. Nguyen and C. D. Manni<br />

ng: “Named Entity Recognition with Character-Le<br />

vel Models”, Proceedings of the 7th Conference<br />

on Natural Language Learning, pp.180-183, 2003.<br />

[18] R. O. Duda, P. E. Hart and D. G. Stork: “Patter<br />

n Classification (2nd ed.)”, Wiley Interscience, p.<br />

680, 2001.<br />

[19] D. Arthur and S. Vassilvitskii: “k-means++: The<br />

Advantages of Careful Seeding”, Proceedings of t<br />

he 18th Annual ACM-SIAM Symposium on Discr<br />

ete Algorithms, pp.1027-1035, 2007.<br />

[20] D. Palleg and A. W. Moore: “X-means: Extendin<br />

g K-means with Efficient Estimation of the Num<br />

ber of Clusters”, Proceedings of the 17th Internat<br />

ional Conference on Machine Learning, pp.727-73<br />

4, 2000.<br />

[21] B. Shneiderman: “Tree Visualization with Tree-M<br />

aps: 2-d Space-Filling Approach”, ACM Transacti<br />

ons on Graphics, Vol.11, No.1, pp.92-99, 1992.<br />

[22] M. Bruls, K. Huizing and J. J. van Wijk: “Squar<br />

ified Treemaps”, Proceedings of the Joint Eurogra<br />

phics and IEEE TCVG Symposium on Visualizati<br />

on, pp.33-42, 1999.<br />

[23] M. Balzer and O. Deussen: “Voronoi Treemaps”,<br />

Proceedings of the 2005 IEEE Symposium on Inf<br />

ormation Visualization, pp.49-56, 2005.<br />

[24] Mecab: “Yet Another Part-of-Speech and Morphol<br />

ogical Analyzer”, http://mecab.sourceforge.net/

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!