23.10.2014 Views

ラベルに基づく文書クラスタリング手法の提案と評価 Evaluation of ...

ラベルに基づく文書クラスタリング手法の提案と評価 Evaluation of ...

ラベルに基づく文書クラスタリング手法の提案と評価 Evaluation of ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

クラスタシリンルエに 先 立 ってまずラベルを 作 成 し,ラベ<br />

ルに 即 する 文 書暯 をまとめてソサフネダクラスタシを 作 成 する<br />

手 法沵 を 提 案 する.あるクラスタシについてそのラベルが<br />

分 かっていれば 表 示 の 際 に 便 利 であると 考 えられ, 検<br />

索 効 率 の 更暬 なる 向 上 およびより 良 い 検 索 支 援 になるこ<br />

とが 期曋 待 できる.<br />

実 験 では, 武 田 らのキゥーワョーチ 抽 出 プハロエラム[1]<br />

を 利 用 して NTCIR1 からキゥーワョーチを 抽 出 し, 抽 出 さ<br />

れたキゥーワョーチ 群 の 中 から, 出 現 回 数 に 基 づいて 選 ん<br />

だ 2 つのキゥーワョーチを 用 いてラベルを 構 成 し,ラベル<br />

のキゥーワョーチが 共 に 出 現 する 文 書暯 をまとめることでソサ<br />

フネダクラスタシを 作 成 した.そして 提 案 手 法沵 により 作 成<br />

されたクラスタシと, 単 連 結 法沵 により 作 成 されたクラス<br />

タシとの 妥 当 性 の 比 較 を 行 った.その 結 果 , 同 じクラス<br />

タシ 内 の 2 つの 文 書暯 間 の 類 似 度 の 重 み 付 き 期曋 待 値 という<br />

評 価 尺 度 の 下 に, 我 々の 提 案 する 手 法沵 は 単 連 結 法沵 より<br />

もクラスタシの 妥 当 性 が 低 い 結 果 となった.しかしその<br />

後 の 改 善 の 試 みの 中 で, 出 現 回 数 別 にキゥーワョーチを 組<br />

合 せていくことで 妥 当 性 が 改 善 されるのではないかと<br />

いう 見 込 みがあったことを 報 告 する.<br />

2. 単 連 結 法沵<br />

2 つの 文 書暯 d i と d j の 類 似 度 を s ij と 表 記 する. 文 書暯 集<br />

合 に 対 して 単 連 結 法沵 を 適 用 する 場 合 ,2 つのクラスタシ<br />

C m と C n との 類 似 度 S mn は<br />

S<br />

mn<br />

{ s | d ∈C<br />

d ∈C<br />

}<br />

= max ,<br />

(1)<br />

ij<br />

i<br />

m<br />

で 定 義 される.つまり,それぞれのクラスタシに 含 まれ<br />

る 文 書暯 のうち, 内 容 的 に 最暷 も 近 い 文 書暯 間 の 類 似 度 をク<br />

ラスタシ 間 の 類 似 度 として 採 用 する.゚ルゴガリズム 1 に<br />

単 連 結 法沵 の 手 順 を 示 す.<br />

3. ラベルに 基 づくクラスタシリンルエ<br />

単 連 結 法沵 や k-means 法沵 などの 一 般 的 な 文 書暯 クラスタシ<br />

リンルエ 手 法沵 では, 文 書暯 を 各 語 の 重 みから 構 成 されるベ<br />

クダルとして 表 現 し,2 つの 文 書暯 ベクダル 間 の 類 似 度<br />

に 基 づいてクラスタシリンルエを 行 うが, 提 案 手 法沵 では 文<br />

書暯 をベクダルとして 表 現 せず,その 代 わわりに, 文 書暯 集<br />

合 から 抽 出 されたキゥーワョーチに 基 づいてクラスタシリンル<br />

エを 行 う. 文 書暯 集 合 に 含 まれる 文 書暯 件 数 を N とすると,<br />

多 くの 場 合 , 抽 出 されたキゥーワョーチの 総 数 K は K 1<br />

6. S = { s | d ∈ C , d ∈ C }<br />

mn<br />

max となるような<br />

ij<br />

i<br />

C m , C n ∈G を 選 択<br />

7. C new =C m ∪C n とする<br />

8. 現 在 の 類 似 度 S mn と 併 合 した C new の 情 報 をフネ゙<br />

゜ルに 書暯 き 出 す<br />

9. G から C m と C n を 削 除<br />

10. G に C new を 挿 入 する<br />

11. end<br />

゚ルゴガリズム 2 ラベルに 基 づくクラスタシリンルエ<br />

1. 文 書暯 集 合 D からキゥーワョーチ 群 を 抽 出 し,キゥーワョー<br />

チのリスダを 作 成<br />

2. リスダから 特 定 の 条曵 件 を 満 たすキゥーワョーチ 群 を 選<br />

択 し,これをラベルの 候 補 とする<br />

3. ラベル 候 補 のキゥーワョーチ 群 の 中 から 規 則 に 従 って<br />

2 つ 選 択 し,このキゥーワョーチのピをラベルとす<br />

る<br />

4. ラベルのキゥーワョーチを 共 に 含 む 文 書暯 をまとめてク<br />

ラスタシを 作 成<br />

5. ラベルとして 使 用 されたキゥーワョーチをリスダから<br />

除 外 する<br />

6. 手 順 3~ 手 順 5 をリスダが 空 になるまで 繰 り 返 す<br />

m<br />

j<br />

n

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!