ラベルに基づく文書クラスタリング手法の提案と評価 Evaluation of ...
ラベルに基づく文書クラスタリング手法の提案と評価 Evaluation of ...
ラベルに基づく文書クラスタリング手法の提案と評価 Evaluation of ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
4. 実 験<br />
4.1. 実 験 の 概 要<br />
本曓 稿 では 約 33 万 件 の 論 文 抄 録 である NTCIR1 に 対 し<br />
て 単 連 結 法沵 と 提 案 手 法沵 によるクラスタシリンルエを 行 い,<br />
両 手 法沵 において 作 成 されたクラスタシに 対 して, 同 じク<br />
ラスタシ 内 の 2 つの 文 書暯 間 の 類 似 度 の 重 み 付 き 期曋 待 値 と<br />
いう 評 価 尺 度 の 下 で 比 較 ・ 評 価 を 行 った.<br />
単 連 結 法沵 は, 与 えられた N 件 の 文 書暯 に 対 して 全 ての<br />
文 書暯 間 の 類 似 度 を 計 算 するため, 計 算 量 は O (N 2 )に 比<br />
例 する.そのため, 実 際 には 単 連 結 法沵 の 手 順 通 りに 全<br />
ての 文 書暯 間 の 類 似 度 は 計 算 せず, 山 本曓 らの DP ブッセチス<br />
ンルエによる 類 似 度 算 出 プハロエラム[2]を 使 用 し, 各 文 書暯<br />
に 対 する 類 似 文 書暯 上 位 30 件 とその 類 似 度 のリスダを<br />
用 意 した.そして 文 書暯 1と 文 書暯 2, 文 書暯 2 と 文 書暯 3 の<br />
類 似 度 がある 一 定 の 値 よりも 高 ければ, 文 書暯 1 と 文 書暯<br />
3 が 類 似 している 可 能 性 が 高 いという 仮 定 の 下 ,リス<br />
ダ 1 に 示 す 手 順 によりクラスタシリンルエを 行 った.<br />
ラベルに 基 づくクラスタシリンルエでは,ラベルの 数 =<br />
クラスタシの 数 となることに 加 え,ラベルとして 採 用 す<br />
るキゥーワョーチがクラスタシリンルエの 結 果 を 大 きく 左 右 す<br />
る. 実 験 では, 小 規 模 なクラスタシができることを 期曋 待<br />
して, 抽 出 されたキゥーワョーチ 群 の 中 から NTCIR1 にお<br />
ける 出 現 回 数 が 10~20 回 のキゥーワョーチをラベルの 候<br />
補 とし,また 大 規 模 なクラスタシができることを 期曋 待 し<br />
て 出 現 回 数 が 100 から 500 回 のキゥーワョーチもラベルの<br />
候 補 として, 出 現 回 数 が 10~20 回 のキゥーワョーチと<br />
100~500 回 のキゥーワョーチを 組 合 せてラベルを 構 成 し,<br />
リスダ 2 に 示 す 手 順 によりクラスタシリンルエを 行 った.<br />
リスダ 1 実 験 での 単 連 結 法沵 の 手 順<br />
1. 山 本曓 らの DP ブッセチスンルエプハロエラムを 用 いて,<br />
NTCIR1 の 各 文 書暯 d i に 対 する 類 似 文 書暯 上 位 30 件 と<br />
その 類 似 度 のリスダを 作 成 し,この 30 件 を 文 書暯<br />
d i に 対 するクラスタシ C i とする<br />
2. クラスタシ 数 が NTCIR1 の 文 書暯 数 の 1/10 程 度 にな<br />
るように 類 似 度 の 閾 値 を 63 に 設 定<br />
3. 手 順 1 で 作 成 した 各 クラスタシ C i から, 設 定 した 閾<br />
値 以 下 の 類 似 度 の 文 書暯 を 除 外 する<br />
4. もし, 文 書暯 d 1 に 対 するクラスタシ C 1 に 文 書暯 d 2 が 含<br />
まれていれば, 文 書暯 d 2 に 対 するクラスタシ C 2 と C 1<br />
を 併 合 して 新 たに C 1 とする<br />
5. 手 順 4 を 全 てのクラスタシに 対 して 行 う<br />
リスダ 2 実 験 での 提 案 手 法沵 の 手 順<br />
1. 武 田 らのキゥーワョーチ 抽 出 プハロエラムを 使 用 して<br />
NTCIR1 からキゥーワョーチ 群 を 抽 出<br />
2. NTCIR1 における 出 現 回 数 が 10~20 回 のキゥーワョー<br />
チ 191 個 と 出 現 回 数 が 100~500 回 のキゥーワョーチ<br />
71 個 をラベルに 使 用 するキゥーワョーチの 候 補 とす<br />
る<br />
3. 出 現 回 数 が 10~20 回 のキゥーワョーチ 191 個 と, 出<br />
現 回 数 が 100~500 個 のキゥーワョーチ 71 個 を 組 み 合<br />
わわせて 191×71=13,561 個 のラベルを 用 意<br />
4. 手 順 3 で 用 意 した 全 てのラベルに 対 して,ラベル<br />
のキゥーワョーチを 共 に 含 む 文 書暯 をまとめてクラスタシ<br />
を 作 成<br />
4.2. 実 験 結 果<br />
10 5<br />
10 4<br />
31608<br />
12737<br />
単 連 結 法沵<br />
提 案 手 法沵<br />
両 手 法沵 により 作 成 されたクラスタシの 数 を 規 模 別 に 示<br />
したエラフネを 図 1 に 示 す. 単 連 結 法沵 では,クラスタシの<br />
数 が NTCIR1 の 文 書暯 数 の 1/10 程 度 になるように 類 似<br />
度 の 閾 値 63 におけるクラスタシを 取 得 した. 両 手 法沵 に<br />
おいて 規 模 が 0~10 のクラスタシが 非 常 に 多 くなった.<br />
提 案 手 法沵 では 規 模 が 0~10 のクラスタシが 12,737 個 得 ら<br />
れたが,そのうち 10,115 個 が 規 模 0 のクラスタシであ<br />
り,ほとんどのラベルでクラスタシが 作 成 されない 結 果<br />
となった.しかし, 規 模 が 20~40 のクラスタシに 関 して<br />
は 両 手 法沵 においてほぼ 同 じ 数 のクラスタシを 得 ることが<br />
できた.そのため, 評 価 対 象 は 規 模 が 20~40 のクラス<br />
タシに 限 定 し,それ 以 外 の 規 模 のクラスタシは 両 手 法沵 でク<br />
ラスタシ 数 に 大 きな 差 があるため 比 較 には 不 適 切 である<br />
と 考 え 評 価 の 対 象 外 とした.<br />
クラスタシ 数<br />
E =<br />
10 3<br />
872<br />
316<br />
144<br />
136<br />
66<br />
80<br />
10 2<br />
10 1<br />
10 0<br />
0~10 10~20 20~30 30~40 40~<br />
クラスタシの 規 模<br />
L<br />
∑<br />
k=<br />
1<br />
図 1 作 成 されたクラスタシ<br />
285<br />
31<br />
⎛<br />
⎞<br />
⎜<br />
L<br />
n ⎜<br />
1 ∑ ( ) ∑<br />
⎜ ∈ ∈<br />
⎟ ⎟⎟ k<br />
similarity di,<br />
d<br />
j<br />
n<br />
(2)<br />
2 k<br />
nk<br />
di Ck<br />
, d j Ck<br />
k=<br />
1<br />
⎝<br />
rank ( di<br />
, d j ) ≤ 30<br />
⎠