23.10.2014 Views

ラベルに基づく文書クラスタリング手法の提案と評価 Evaluation of ...

ラベルに基づく文書クラスタリング手法の提案と評価 Evaluation of ...

ラベルに基づく文書クラスタリング手法の提案と評価 Evaluation of ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

4. 実 験<br />

4.1. 実 験 の 概 要<br />

本曓 稿 では 約 33 万 件 の 論 文 抄 録 である NTCIR1 に 対 し<br />

て 単 連 結 法沵 と 提 案 手 法沵 によるクラスタシリンルエを 行 い,<br />

両 手 法沵 において 作 成 されたクラスタシに 対 して, 同 じク<br />

ラスタシ 内 の 2 つの 文 書暯 間 の 類 似 度 の 重 み 付 き 期曋 待 値 と<br />

いう 評 価 尺 度 の 下 で 比 較 ・ 評 価 を 行 った.<br />

単 連 結 法沵 は, 与 えられた N 件 の 文 書暯 に 対 して 全 ての<br />

文 書暯 間 の 類 似 度 を 計 算 するため, 計 算 量 は O (N 2 )に 比<br />

例 する.そのため, 実 際 には 単 連 結 法沵 の 手 順 通 りに 全<br />

ての 文 書暯 間 の 類 似 度 は 計 算 せず, 山 本曓 らの DP ブッセチス<br />

ンルエによる 類 似 度 算 出 プハロエラム[2]を 使 用 し, 各 文 書暯<br />

に 対 する 類 似 文 書暯 上 位 30 件 とその 類 似 度 のリスダを<br />

用 意 した.そして 文 書暯 1と 文 書暯 2, 文 書暯 2 と 文 書暯 3 の<br />

類 似 度 がある 一 定 の 値 よりも 高 ければ, 文 書暯 1 と 文 書暯<br />

3 が 類 似 している 可 能 性 が 高 いという 仮 定 の 下 ,リス<br />

ダ 1 に 示 す 手 順 によりクラスタシリンルエを 行 った.<br />

ラベルに 基 づくクラスタシリンルエでは,ラベルの 数 =<br />

クラスタシの 数 となることに 加 え,ラベルとして 採 用 す<br />

るキゥーワョーチがクラスタシリンルエの 結 果 を 大 きく 左 右 す<br />

る. 実 験 では, 小 規 模 なクラスタシができることを 期曋 待<br />

して, 抽 出 されたキゥーワョーチ 群 の 中 から NTCIR1 にお<br />

ける 出 現 回 数 が 10~20 回 のキゥーワョーチをラベルの 候<br />

補 とし,また 大 規 模 なクラスタシができることを 期曋 待 し<br />

て 出 現 回 数 が 100 から 500 回 のキゥーワョーチもラベルの<br />

候 補 として, 出 現 回 数 が 10~20 回 のキゥーワョーチと<br />

100~500 回 のキゥーワョーチを 組 合 せてラベルを 構 成 し,<br />

リスダ 2 に 示 す 手 順 によりクラスタシリンルエを 行 った.<br />

リスダ 1 実 験 での 単 連 結 法沵 の 手 順<br />

1. 山 本曓 らの DP ブッセチスンルエプハロエラムを 用 いて,<br />

NTCIR1 の 各 文 書暯 d i に 対 する 類 似 文 書暯 上 位 30 件 と<br />

その 類 似 度 のリスダを 作 成 し,この 30 件 を 文 書暯<br />

d i に 対 するクラスタシ C i とする<br />

2. クラスタシ 数 が NTCIR1 の 文 書暯 数 の 1/10 程 度 にな<br />

るように 類 似 度 の 閾 値 を 63 に 設 定<br />

3. 手 順 1 で 作 成 した 各 クラスタシ C i から, 設 定 した 閾<br />

値 以 下 の 類 似 度 の 文 書暯 を 除 外 する<br />

4. もし, 文 書暯 d 1 に 対 するクラスタシ C 1 に 文 書暯 d 2 が 含<br />

まれていれば, 文 書暯 d 2 に 対 するクラスタシ C 2 と C 1<br />

を 併 合 して 新 たに C 1 とする<br />

5. 手 順 4 を 全 てのクラスタシに 対 して 行 う<br />

リスダ 2 実 験 での 提 案 手 法沵 の 手 順<br />

1. 武 田 らのキゥーワョーチ 抽 出 プハロエラムを 使 用 して<br />

NTCIR1 からキゥーワョーチ 群 を 抽 出<br />

2. NTCIR1 における 出 現 回 数 が 10~20 回 のキゥーワョー<br />

チ 191 個 と 出 現 回 数 が 100~500 回 のキゥーワョーチ<br />

71 個 をラベルに 使 用 するキゥーワョーチの 候 補 とす<br />

る<br />

3. 出 現 回 数 が 10~20 回 のキゥーワョーチ 191 個 と, 出<br />

現 回 数 が 100~500 個 のキゥーワョーチ 71 個 を 組 み 合<br />

わわせて 191×71=13,561 個 のラベルを 用 意<br />

4. 手 順 3 で 用 意 した 全 てのラベルに 対 して,ラベル<br />

のキゥーワョーチを 共 に 含 む 文 書暯 をまとめてクラスタシ<br />

を 作 成<br />

4.2. 実 験 結 果<br />

10 5<br />

10 4<br />

31608<br />

12737<br />

単 連 結 法沵<br />

提 案 手 法沵<br />

両 手 法沵 により 作 成 されたクラスタシの 数 を 規 模 別 に 示<br />

したエラフネを 図 1 に 示 す. 単 連 結 法沵 では,クラスタシの<br />

数 が NTCIR1 の 文 書暯 数 の 1/10 程 度 になるように 類 似<br />

度 の 閾 値 63 におけるクラスタシを 取 得 した. 両 手 法沵 に<br />

おいて 規 模 が 0~10 のクラスタシが 非 常 に 多 くなった.<br />

提 案 手 法沵 では 規 模 が 0~10 のクラスタシが 12,737 個 得 ら<br />

れたが,そのうち 10,115 個 が 規 模 0 のクラスタシであ<br />

り,ほとんどのラベルでクラスタシが 作 成 されない 結 果<br />

となった.しかし, 規 模 が 20~40 のクラスタシに 関 して<br />

は 両 手 法沵 においてほぼ 同 じ 数 のクラスタシを 得 ることが<br />

できた.そのため, 評 価 対 象 は 規 模 が 20~40 のクラス<br />

タシに 限 定 し,それ 以 外 の 規 模 のクラスタシは 両 手 法沵 でク<br />

ラスタシ 数 に 大 きな 差 があるため 比 較 には 不 適 切 である<br />

と 考 え 評 価 の 対 象 外 とした.<br />

クラスタシ 数<br />

E =<br />

10 3<br />

872<br />

316<br />

144<br />

136<br />

66<br />

80<br />

10 2<br />

10 1<br />

10 0<br />

0~10 10~20 20~30 30~40 40~<br />

クラスタシの 規 模<br />

L<br />

∑<br />

k=<br />

1<br />

図 1 作 成 されたクラスタシ<br />

285<br />

31<br />

⎛<br />

⎞<br />

⎜<br />

L<br />

n ⎜<br />

1 ∑ ( ) ∑<br />

⎜ ∈ ∈<br />

⎟ ⎟⎟ k<br />

similarity di,<br />

d<br />

j<br />

n<br />

(2)<br />

2 k<br />

nk<br />

di Ck<br />

, d j Ck<br />

k=<br />

1<br />

⎝<br />

rank ( di<br />

, d j ) ≤ 30<br />

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!