ラベルに基づく文書クラスタリング手法の提案と評価 Evaluation of ...

db.event.jpn.org

ラベルに基づく文書クラスタリング手法の提案と評価 Evaluation of ...

DEIM Forum 2011 B6-1

ラベルに 基 づく 文 書暯 クラスタシリンルエ 手 法沵 の 提 案 と 評 価


田 之 上 和 誠

††

岡 部 正 幸


梅 村曪 恭 司

†‡ 豊 橋 技 術 科 学 大 学 情 報 工 学 系 〒441-8580 愛 知 県 豊 橋 市 天 伯 町 雲 雀 ヶヮ 丘 1-1

†† 豊 橋 技 術 科 学 大 学 情 報 ベタ゛゚ 基 盤 センルタシー 〒441-8580 愛 知 県 豊 橋 市 天 伯 町 雲 雀 ヶヮ 丘 1-1

E-mail: †tanoue@ss.cs.tut.ac.jp, ††okabe@imc.tut.ac.jp, ‡umemura@tut.jp

あらまし 本曓 稿 では, 文 書暯 ベクダルを 構 成 せずラベルに 基 づいてソサフネダクラスタシを 作 成 する 文 書暯 クラスタシリンルエ 手

法沵 を 提 案 し, 提 案 手 法沵 により 作 成 されたクラスタシの 妥 当 性 の 評 価 を 行 う.ラベルは, 文 書暯 集 合 から 抽 出 したキゥーワョー

チ 群 の 中 から 出 現 回 数 に 基 づいて 選 んだ 2 つのキゥーワョーチで 構 成 し,この 2 つのキゥーワョーチが 共 に 出 現 する 文 書暯 をま

とめることでクラスタシリンルエを 行 う.この 方 法沵 にはクラスタシのラベルが 当 初 より 決 まっているという 利 点 がある. 評

価 は, 単 連 結 法沵 と 呼 ばれる 文 書暯 間 の 類 似 度 に 基 づいたクラスタシリンルエ 手 法沵 により 作 成 されたクラスタシと 妥 当 性 を 比 較

することで 行 い, 妥 当 性 の 尺 度 には 同 じクラスタシ 内 の 2 つの 文 書暯 間 の 類 似 度 の 重 み 付 き 期曋 待 値 を 使 用 した.その 結 果 ,

クラスタシのラベルは 存 在 するものの, 提 案 手 法沵 は 単 連 結 法沵 に 比 べてクラスタシの 妥 当 性 は 低 かった.

キーワード 文 書暯 クラスタシリンルエ,キゥーワョーチ 抽 出

Evaluation of Proposed Document Clustering based on Labels

Kazumasa TANOUE † Masayuki OKABE †† Kyoji UMEMURA ‡

†‡Department of Information and Computer Sciences, Toyohashi University of Technology

††Information and Media Center, Toyohashi University of Technology

1-1 Hibarigaoka, Tempaku, Toyohashi, Aichi, 441-8580 Japan

E-mail: †tanoue@ss.cs.tut.ac.jp, ††okabe@imc.tut.ac.jp, ‡umemura@tut.jp

Abstract In this paper, we propose a new soft clustering method for documents based on labels without document

vectors, and evaluate adequacy of clusters created by our method. Labels consist of two keywords selected by their

frequency, and clustering can be carried out by gathering documents which include both keywords of label. Our

method has an advantage that the labels of clusters are initially obvious. We carry out evaluation by comparing the

adequacy of the clusters created by our method and single linkage method which is based on the similarity between

two documents. Adopted adequacy criterion is weighted expectation value of similarity between two documents in

same cluster. Experimental evaluation shows that our method gets lower adequacy than single linkage method, but

our method has the initially obvious label advantage.

Keyword Document Clustering,Keyword Extraction

1. はじめに

情 報 検 索 の 分 野 では, 図 書暯 や 雑 誌 論 文 などの 文 書暯 集

合 を, 内 容 的 に 均 質 ないくつかの 群 に 分 けるための 文

書暯 クラスタシリンルエの 研 究 が 長 年 にわわたって 試 みられて

きた. 文 書暯 クラスタシリンルエの 手 法沵 は 階 層 型 と 非 階 層 型

に 大 別 でき, 代 表 的 なクラスタシリンルエ 手 法沵 として, 階

層 型 では 単 連 結 法沵 , 非 階 層 型 では k-means 法沵 がある.

いずれにしろ, 一 般 的 な 文 書暯 クラスタシリンルエ 手 法沵 では

文 書暯 を 各 語 の 重 みから 構 成 されるベクダルとして 表 現

し,ある 類 似 尺 度 をもって 2 つの 文 書暯 ベクダル 間 の 類

似 度 を 定 義 した 後 ,この 類 似 度 に 基 づいてクラスタシリ

ンルエを 行 う.しかし, 作 成 されたクラスタシに 属 する 文

書暯 の 内 容 を 一 通 り 読 まなければ,そのクラスタシがどの

ような 内 容 の 文 書暯 群 なのかが 把 握 できないため,クラ

スタシリンルエ 結 果 の 概 要 を 一 目 で 確 認 することができず

不 便 である.

本曓 稿 では,あるクラスタシがどのような 内 容 の 文 書暯 群

なのかを 端 的 に 表 すものとして,クラスタシに 共 通 な 主

題 (ラベル)が 分 かっていることは 重 要 であると 考 え,


クラスタシリンルエに 先 立 ってまずラベルを 作 成 し,ラベ

ルに 即 する 文 書暯 をまとめてソサフネダクラスタシを 作 成 する

手 法沵 を 提 案 する.あるクラスタシについてそのラベルが

分 かっていれば 表 示 の 際 に 便 利 であると 考 えられ, 検

索 効 率 の 更暬 なる 向 上 およびより 良 い 検 索 支 援 になるこ

とが 期曋 待 できる.

実 験 では, 武 田 らのキゥーワョーチ 抽 出 プハロエラム[1]

を 利 用 して NTCIR1 からキゥーワョーチを 抽 出 し, 抽 出 さ

れたキゥーワョーチ 群 の 中 から, 出 現 回 数 に 基 づいて 選 ん

だ 2 つのキゥーワョーチを 用 いてラベルを 構 成 し,ラベル

のキゥーワョーチが 共 に 出 現 する 文 書暯 をまとめることでソサ

フネダクラスタシを 作 成 した.そして 提 案 手 法沵 により 作 成

されたクラスタシと, 単 連 結 法沵 により 作 成 されたクラス

タシとの 妥 当 性 の 比 較 を 行 った.その 結 果 , 同 じクラス

タシ 内 の 2 つの 文 書暯 間 の 類 似 度 の 重 み 付 き 期曋 待 値 という

評 価 尺 度 の 下 に, 我 々の 提 案 する 手 法沵 は 単 連 結 法沵 より

もクラスタシの 妥 当 性 が 低 い 結 果 となった.しかしその

後 の 改 善 の 試 みの 中 で, 出 現 回 数 別 にキゥーワョーチを 組

合 せていくことで 妥 当 性 が 改 善 されるのではないかと

いう 見 込 みがあったことを 報 告 する.

2. 単 連 結 法沵

2 つの 文 書暯 d i と d j の 類 似 度 を s ij と 表 記 する. 文 書暯 集

合 に 対 して 単 連 結 法沵 を 適 用 する 場 合 ,2 つのクラスタシ

C m と C n との 類 似 度 S mn は

S

mn

{ s | d ∈C

d ∈C

}

= max ,

(1)

ij

i

m

で 定 義 される.つまり,それぞれのクラスタシに 含 まれ

る 文 書暯 のうち, 内 容 的 に 最暷 も 近 い 文 書暯 間 の 類 似 度 をク

ラスタシ 間 の 類 似 度 として 採 用 する.゚ルゴガリズム 1 に

単 連 結 法沵 の 手 順 を 示 す.

3. ラベルに 基 づくクラスタシリンルエ

単 連 結 法沵 や k-means 法沵 などの 一 般 的 な 文 書暯 クラスタシ

リンルエ 手 法沵 では, 文 書暯 を 各 語 の 重 みから 構 成 されるベ

クダルとして 表 現 し,2 つの 文 書暯 ベクダル 間 の 類 似 度

に 基 づいてクラスタシリンルエを 行 うが, 提 案 手 法沵 では 文

書暯 をベクダルとして 表 現 せず,その 代 わわりに, 文 書暯 集

合 から 抽 出 されたキゥーワョーチに 基 づいてクラスタシリンル

エを 行 う. 文 書暯 集 合 に 含 まれる 文 書暯 件 数 を N とすると,

多 くの 場 合 , 抽 出 されたキゥーワョーチの 総 数 K は K 1

6. S = { s | d ∈ C , d ∈ C }

mn

max となるような

ij

i

C m , C n ∈G を 選 択

7. C new =C m ∪C n とする

8. 現 在 の 類 似 度 S mn と 併 合 した C new の 情 報 をフネ゙

゜ルに 書暯 き 出 す

9. G から C m と C n を 削 除

10. G に C new を 挿 入 する

11. end

゚ルゴガリズム 2 ラベルに 基 づくクラスタシリンルエ

1. 文 書暯 集 合 D からキゥーワョーチ 群 を 抽 出 し,キゥーワョー

チのリスダを 作 成

2. リスダから 特 定 の 条曵 件 を 満 たすキゥーワョーチ 群 を 選

択 し,これをラベルの 候 補 とする

3. ラベル 候 補 のキゥーワョーチ 群 の 中 から 規 則 に 従 って

2 つ 選 択 し,このキゥーワョーチのピをラベルとす


4. ラベルのキゥーワョーチを 共 に 含 む 文 書暯 をまとめてク

ラスタシを 作 成

5. ラベルとして 使 用 されたキゥーワョーチをリスダから

除 外 する

6. 手 順 3~ 手 順 5 をリスダが 空 になるまで 繰 り 返 す

m

j

n


4. 実 験

4.1. 実 験 の 概 要

本曓 稿 では 約 33 万 件 の 論 文 抄 録 である NTCIR1 に 対 し

て 単 連 結 法沵 と 提 案 手 法沵 によるクラスタシリンルエを 行 い,

両 手 法沵 において 作 成 されたクラスタシに 対 して, 同 じク

ラスタシ 内 の 2 つの 文 書暯 間 の 類 似 度 の 重 み 付 き 期曋 待 値 と

いう 評 価 尺 度 の 下 で 比 較 ・ 評 価 を 行 った.

単 連 結 法沵 は, 与 えられた N 件 の 文 書暯 に 対 して 全 ての

文 書暯 間 の 類 似 度 を 計 算 するため, 計 算 量 は O (N 2 )に 比

例 する.そのため, 実 際 には 単 連 結 法沵 の 手 順 通 りに 全

ての 文 書暯 間 の 類 似 度 は 計 算 せず, 山 本曓 らの DP ブッセチス

ンルエによる 類 似 度 算 出 プハロエラム[2]を 使 用 し, 各 文 書暯

に 対 する 類 似 文 書暯 上 位 30 件 とその 類 似 度 のリスダを

用 意 した.そして 文 書暯 1と 文 書暯 2, 文 書暯 2 と 文 書暯 3 の

類 似 度 がある 一 定 の 値 よりも 高 ければ, 文 書暯 1 と 文 書暯

3 が 類 似 している 可 能 性 が 高 いという 仮 定 の 下 ,リス

ダ 1 に 示 す 手 順 によりクラスタシリンルエを 行 った.

ラベルに 基 づくクラスタシリンルエでは,ラベルの 数 =

クラスタシの 数 となることに 加 え,ラベルとして 採 用 す

るキゥーワョーチがクラスタシリンルエの 結 果 を 大 きく 左 右 す

る. 実 験 では, 小 規 模 なクラスタシができることを 期曋 待

して, 抽 出 されたキゥーワョーチ 群 の 中 から NTCIR1 にお

ける 出 現 回 数 が 10~20 回 のキゥーワョーチをラベルの 候

補 とし,また 大 規 模 なクラスタシができることを 期曋 待 し

て 出 現 回 数 が 100 から 500 回 のキゥーワョーチもラベルの

候 補 として, 出 現 回 数 が 10~20 回 のキゥーワョーチと

100~500 回 のキゥーワョーチを 組 合 せてラベルを 構 成 し,

リスダ 2 に 示 す 手 順 によりクラスタシリンルエを 行 った.

リスダ 1 実 験 での 単 連 結 法沵 の 手 順

1. 山 本曓 らの DP ブッセチスンルエプハロエラムを 用 いて,

NTCIR1 の 各 文 書暯 d i に 対 する 類 似 文 書暯 上 位 30 件 と

その 類 似 度 のリスダを 作 成 し,この 30 件 を 文 書暯

d i に 対 するクラスタシ C i とする

2. クラスタシ 数 が NTCIR1 の 文 書暯 数 の 1/10 程 度 にな

るように 類 似 度 の 閾 値 を 63 に 設 定

3. 手 順 1 で 作 成 した 各 クラスタシ C i から, 設 定 した 閾

値 以 下 の 類 似 度 の 文 書暯 を 除 外 する

4. もし, 文 書暯 d 1 に 対 するクラスタシ C 1 に 文 書暯 d 2 が 含

まれていれば, 文 書暯 d 2 に 対 するクラスタシ C 2 と C 1

を 併 合 して 新 たに C 1 とする

5. 手 順 4 を 全 てのクラスタシに 対 して 行 う

リスダ 2 実 験 での 提 案 手 法沵 の 手 順

1. 武 田 らのキゥーワョーチ 抽 出 プハロエラムを 使 用 して

NTCIR1 からキゥーワョーチ 群 を 抽 出

2. NTCIR1 における 出 現 回 数 が 10~20 回 のキゥーワョー

チ 191 個 と 出 現 回 数 が 100~500 回 のキゥーワョーチ

71 個 をラベルに 使 用 するキゥーワョーチの 候 補 とす


3. 出 現 回 数 が 10~20 回 のキゥーワョーチ 191 個 と, 出

現 回 数 が 100~500 個 のキゥーワョーチ 71 個 を 組 み 合

わわせて 191×71=13,561 個 のラベルを 用 意

4. 手 順 3 で 用 意 した 全 てのラベルに 対 して,ラベル

のキゥーワョーチを 共 に 含 む 文 書暯 をまとめてクラスタシ

を 作 成

4.2. 実 験 結 果

10 5

10 4

31608

12737

単 連 結 法沵

提 案 手 法沵

両 手 法沵 により 作 成 されたクラスタシの 数 を 規 模 別 に 示

したエラフネを 図 1 に 示 す. 単 連 結 法沵 では,クラスタシの

数 が NTCIR1 の 文 書暯 数 の 1/10 程 度 になるように 類 似

度 の 閾 値 63 におけるクラスタシを 取 得 した. 両 手 法沵 に

おいて 規 模 が 0~10 のクラスタシが 非 常 に 多 くなった.

提 案 手 法沵 では 規 模 が 0~10 のクラスタシが 12,737 個 得 ら

れたが,そのうち 10,115 個 が 規 模 0 のクラスタシであ

り,ほとんどのラベルでクラスタシが 作 成 されない 結 果

となった.しかし, 規 模 が 20~40 のクラスタシに 関 して

は 両 手 法沵 においてほぼ 同 じ 数 のクラスタシを 得 ることが

できた.そのため, 評 価 対 象 は 規 模 が 20~40 のクラス

タシに 限 定 し,それ 以 外 の 規 模 のクラスタシは 両 手 法沵 でク

ラスタシ 数 に 大 きな 差 があるため 比 較 には 不 適 切 である

と 考 え 評 価 の 対 象 外 とした.

クラスタシ 数

E =

10 3

872

316

144

136

66

80

10 2

10 1

10 0

0~10 10~20 20~30 30~40 40~

クラスタシの 規 模

L


k=

1

図 1 作 成 されたクラスタシ

285

31




L

n ⎜

1 ∑ ( ) ∑

⎜ ∈ ∈

⎟ ⎟⎟ k

similarity di,

d

j

n

(2)

2 k

nk

di Ck

, d j Ck

k=

1


rank ( di

, d j ) ≤ 30


4.3. 評 価 と 考 察

文 書暯 クラスタシリンルエの 結 果 の 妥 当 性 の 評 価 には, 直

接 的 な 評 価 と 間 接 的 な 評 価 の 2 つが 考 えられる[3].

NTCIR1 では 正 解 を 利 用 することができないため,ク

ラスタシリンルエ 結 果 の 妥 当 性 の 評 価 尺 度 には,(2) 式 に 示

す 同 じクラスタシ 内 の 2 つの 文 書暯 間 の 類 似 度 の 重 み 付 き

期曋 待 値 を 用 いた.(2) 式 では 分 子 のシクエブの 直 後 にある

n k がヒヂルテ゛ 項 となっており,n k の 大 小 によって 不

公 平 が 生 じないようになっている.L は 評 価 対 象 とな

るクラスタシ 数 ,n k はクラスタシ C k に 属 する 文 書暯 数 ,

similarity(d i , d j )は d i , d j 間 の 類 似 度 ,rank(d i , d j )は d i

をもとに 検 索 したときに d j が 出 てくる 順 位 である.ま

た(2) 式 において similarity(d i , d j )を 求 める 際 に, 事 前

に 用 意 した 類 似 文 書暯 上 位 30 件 のリスダに 類 似 度 が 存

在 する 場 合 にはその 値 を 使 用 し, 存 在 しない 場 合 には

類 似 度 を 0 としたため, 得 られた 期曋 待 値 は 実 際 には 近

似 的 な 値 である.

表 1 にクラスタシの 妥 当 性 の 評 価 結 果 を 示 す. 提 案 手

法沵 のクラスタシの 妥 当 性 は 単 連 結 法沵 の 約 1/10 と 低 く,

良 い 結 果 が 得 られなかった.クラスタシ 数 は, 規 模 が

20~40 の 間 に 限 定 すれば 単 連 結 法沵 とほぼ 同 じ 数 が 得

られたので, 内 容 的 にもほぼ 同 じクラスタシが 生 成 され

ているのではないかと 予 想 したが, 予 想 を 裏 切 る 結 果

となった.

提 案 手 法沵 により 作 成 したクラスタシの 妥 当 性 が 低 い 結

果 となった 原 因 として,ラベルとして 採 用 したキゥーワョ

ーチがクラスタシを 構 成 するのに 不 適 切 であったのでは

ないかと 考 え, 参 考 のためにラベルを 単 一 のキゥーワョー

チとした 場 合 と 比 較 した. 表 2 に 比 較 結 果 を 示 す. 出

現 回 数 が 10~20 回 のキゥーワョーチ 191 個 をそれぞれラ

ベルとしてクラスタシを 作 成 した 場 合 と, 出 現 回 数 が

100~500 回 のキゥーワョーチ 71 個 をそれぞれラベルとし

てクラスタシを 作 成 した 場 合 の 両 方 において, 提 案 手 法沵

よりも 妥 当 性 は 改 善 された.しかし 評 価 対 象 となるク

ラスタシ 数 は 減浦 少 してまった.ラベルを 単 一 のキゥーワョー

チとした 場 合 ,NTCIR1 から 抽 出 した 単 語 をキゥーワョー

チとしているので, 用 意 したキゥーワョーチの 数 だけクラ

スタシが 作 成 されるが, 比 較 のために 評 価 対 象 となるク

ラスタシを 規 模 が 20~40 の 間 に 限 定 しているのでこの

ような 結 果 になってしまったと 考 えられる.しかし 出

現 回 数 が 10~20 回 のキゥーワョーチ 単 体 のラベルにより

クラスタシを 作 成 した 場 合 , 評 価 対 象 となるクラスタシ 数

は 68 で, 提 案 手 法沵 の 約 1/3 に 現 象 したのに 対 し, 期曋

待 値 は 提 案 手 法沵 の 約 3 倍 に 伸 びた.そのため 出 現 回 数

が 10~20 回 のキゥーワョーチはラベルとして 有暼 効 なキゥー

ワョーチ 群 であると 考 えられ, 組 み 合 わわせるキゥーワョーチ

次 第 ではクラスタシの 妥 当 性 を 向 上 させることが 期曋 待 で

きる.

表 1 妥 当 性 の 評 価 結 果

評 価 対 象 クラスタシ 数

類 似 度 の 期曋 待 値

単 連 結 法沵 214 8.706×10 -2

提 案 手 法沵 223 0.911×10 -2

表 2 単 一 キゥーワョーチのラベルとの 比 較

ラベルの 種 類

出 現 回 数 が

10~20 回 の

キゥーワョーチ 単 体

出 現 回 数 が

100~500 回 の

キゥーワョーチ 単 体

評 価 対 象

クラスタシ 数

類 似 度 の

期曋 待 値

68 2.686×10 -2

6 1.261×10 -2

提 案 手 法沵 223 0.911×10 -2

5. まとめ

本曓 稿 では,ラベルに 基 づく 文 書暯 クラスタシリンルエ 手 法沵

を 提 案 し, 提 案 手 法沵 により 作 成 したクラスタシの 妥 当 性

の 評 価 を 行 った. 実 際 には,NTCIR1 に 対 して 単 連 結

法沵 と 提 案 手 法沵 によるクラスタシリンルエを 行 い, 両 手 法沵 に

おいて 作 成 されたクラスタシに 対 して, 同 じクラスタシ 内

の 2 つの 文 書暯 間 の 類 似 度 の 重 み 付 き 期曋 待 値 という 評 価

尺 度 の 下 で 比 較 ・ 評 価 を 行 った.その 結 果 , 提 案 手 法沵

により 作 成 したクラスタシの 妥 当 性 は, 単 連 結 法沵 のそれ

よりも 約 1/10 程 度 低 い 結 果 となった.

しかし, 提 案 手 法沵 はクラスタシのラベルが 分 かってい

るため,クラスタシリンルエの 結 果 の 概 要 を 一 目 で 確 認 す

ることができる.また 単 一 のキゥーワョーチをラベルとし

てクラスタシリンルエを 試 みたところ, 出 現 回 数 が 10~20

回 のキゥーワョーチ 群 がラベルとして 有暼 効 ではないかとい

うことが 分 かった.

参 考 文 献

[1] 武 田 善 行 , 梅 村曪 恭 司 , “キゥーワョーチ 抽 出 を 実 現 す

る 文 書暯 頻 度 分 析 ”, Mathematical Linguistics vol.23

no.2, pp.65-90, 2001.

[2] E. Yamamoto and M. Kishida and Y. Takenami and

Y. Takeda and K. Umemura, “Dynamic

programming matching for large scale

information retrieval”, Proceedings of the sixth

international workshop on Information retrieval

with Asian languages, pp.100-108, 2003.

[3] 岸 田 和 明 , “ 文 書暯 クラスタシリンルエの 技 法沵 : 文 献 レ

ビニュポー”, Library and Information Science (49),

pp.33-75, 2003.

More magazines by this user
Similar magazines