ラベルに基づく文書クラスタリング手法の提案と評価 Evaluation of ...
ラベルに基づく文書クラスタリング手法の提案と評価 Evaluation of ...
ラベルに基づく文書クラスタリング手法の提案と評価 Evaluation of ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
DEIM Forum 2011 B6-1<br />
ラベルに 基 づく 文 書暯 クラスタシリンルエ 手 法沵 の 提 案 と 評 価<br />
†<br />
田 之 上 和 誠<br />
††<br />
岡 部 正 幸<br />
‡<br />
梅 村曪 恭 司<br />
†‡ 豊 橋 技 術 科 学 大 学 情 報 工 学 系 〒441-8580 愛 知 県 豊 橋 市 天 伯 町 雲 雀 ヶヮ 丘 1-1<br />
†† 豊 橋 技 術 科 学 大 学 情 報 ベタ゛゚ 基 盤 センルタシー 〒441-8580 愛 知 県 豊 橋 市 天 伯 町 雲 雀 ヶヮ 丘 1-1<br />
E-mail: †tanoue@ss.cs.tut.ac.jp, ††okabe@imc.tut.ac.jp, ‡umemura@tut.jp<br />
あらまし 本曓 稿 では, 文 書暯 ベクダルを 構 成 せずラベルに 基 づいてソサフネダクラスタシを 作 成 する 文 書暯 クラスタシリンルエ 手<br />
法沵 を 提 案 し, 提 案 手 法沵 により 作 成 されたクラスタシの 妥 当 性 の 評 価 を 行 う.ラベルは, 文 書暯 集 合 から 抽 出 したキゥーワョー<br />
チ 群 の 中 から 出 現 回 数 に 基 づいて 選 んだ 2 つのキゥーワョーチで 構 成 し,この 2 つのキゥーワョーチが 共 に 出 現 する 文 書暯 をま<br />
とめることでクラスタシリンルエを 行 う.この 方 法沵 にはクラスタシのラベルが 当 初 より 決 まっているという 利 点 がある. 評<br />
価 は, 単 連 結 法沵 と 呼 ばれる 文 書暯 間 の 類 似 度 に 基 づいたクラスタシリンルエ 手 法沵 により 作 成 されたクラスタシと 妥 当 性 を 比 較<br />
することで 行 い, 妥 当 性 の 尺 度 には 同 じクラスタシ 内 の 2 つの 文 書暯 間 の 類 似 度 の 重 み 付 き 期曋 待 値 を 使 用 した.その 結 果 ,<br />
クラスタシのラベルは 存 在 するものの, 提 案 手 法沵 は 単 連 結 法沵 に 比 べてクラスタシの 妥 当 性 は 低 かった.<br />
キーワード 文 書暯 クラスタシリンルエ,キゥーワョーチ 抽 出<br />
<strong>Evaluation</strong> <strong>of</strong> Proposed Document Clustering based on Labels<br />
Kazumasa TANOUE † Masayuki OKABE †† Kyoji UMEMURA ‡<br />
†‡Department <strong>of</strong> Information and Computer Sciences, Toyohashi University <strong>of</strong> Technology<br />
††Information and Media Center, Toyohashi University <strong>of</strong> Technology<br />
1-1 Hibarigaoka, Tempaku, Toyohashi, Aichi, 441-8580 Japan<br />
E-mail: †tanoue@ss.cs.tut.ac.jp, ††okabe@imc.tut.ac.jp, ‡umemura@tut.jp<br />
Abstract In this paper, we propose a new s<strong>of</strong>t clustering method for documents based on labels without document<br />
vectors, and evaluate adequacy <strong>of</strong> clusters created by our method. Labels consist <strong>of</strong> two keywords selected by their<br />
frequency, and clustering can be carried out by gathering documents which include both keywords <strong>of</strong> label. Our<br />
method has an advantage that the labels <strong>of</strong> clusters are initially obvious. We carry out evaluation by comparing the<br />
adequacy <strong>of</strong> the clusters created by our method and single linkage method which is based on the similarity between<br />
two documents. Adopted adequacy criterion is weighted expectation value <strong>of</strong> similarity between two documents in<br />
same cluster. Experimental evaluation shows that our method gets lower adequacy than single linkage method, but<br />
our method has the initially obvious label advantage.<br />
Keyword Document Clustering,Keyword Extraction<br />
1. はじめに<br />
情 報 検 索 の 分 野 では, 図 書暯 や 雑 誌 論 文 などの 文 書暯 集<br />
合 を, 内 容 的 に 均 質 ないくつかの 群 に 分 けるための 文<br />
書暯 クラスタシリンルエの 研 究 が 長 年 にわわたって 試 みられて<br />
きた. 文 書暯 クラスタシリンルエの 手 法沵 は 階 層 型 と 非 階 層 型<br />
に 大 別 でき, 代 表 的 なクラスタシリンルエ 手 法沵 として, 階<br />
層 型 では 単 連 結 法沵 , 非 階 層 型 では k-means 法沵 がある.<br />
いずれにしろ, 一 般 的 な 文 書暯 クラスタシリンルエ 手 法沵 では<br />
文 書暯 を 各 語 の 重 みから 構 成 されるベクダルとして 表 現<br />
し,ある 類 似 尺 度 をもって 2 つの 文 書暯 ベクダル 間 の 類<br />
似 度 を 定 義 した 後 ,この 類 似 度 に 基 づいてクラスタシリ<br />
ンルエを 行 う.しかし, 作 成 されたクラスタシに 属 する 文<br />
書暯 の 内 容 を 一 通 り 読 まなければ,そのクラスタシがどの<br />
ような 内 容 の 文 書暯 群 なのかが 把 握 できないため,クラ<br />
スタシリンルエ 結 果 の 概 要 を 一 目 で 確 認 することができず<br />
不 便 である.<br />
本曓 稿 では,あるクラスタシがどのような 内 容 の 文 書暯 群<br />
なのかを 端 的 に 表 すものとして,クラスタシに 共 通 な 主<br />
題 (ラベル)が 分 かっていることは 重 要 であると 考 え,
クラスタシリンルエに 先 立 ってまずラベルを 作 成 し,ラベ<br />
ルに 即 する 文 書暯 をまとめてソサフネダクラスタシを 作 成 する<br />
手 法沵 を 提 案 する.あるクラスタシについてそのラベルが<br />
分 かっていれば 表 示 の 際 に 便 利 であると 考 えられ, 検<br />
索 効 率 の 更暬 なる 向 上 およびより 良 い 検 索 支 援 になるこ<br />
とが 期曋 待 できる.<br />
実 験 では, 武 田 らのキゥーワョーチ 抽 出 プハロエラム[1]<br />
を 利 用 して NTCIR1 からキゥーワョーチを 抽 出 し, 抽 出 さ<br />
れたキゥーワョーチ 群 の 中 から, 出 現 回 数 に 基 づいて 選 ん<br />
だ 2 つのキゥーワョーチを 用 いてラベルを 構 成 し,ラベル<br />
のキゥーワョーチが 共 に 出 現 する 文 書暯 をまとめることでソサ<br />
フネダクラスタシを 作 成 した.そして 提 案 手 法沵 により 作 成<br />
されたクラスタシと, 単 連 結 法沵 により 作 成 されたクラス<br />
タシとの 妥 当 性 の 比 較 を 行 った.その 結 果 , 同 じクラス<br />
タシ 内 の 2 つの 文 書暯 間 の 類 似 度 の 重 み 付 き 期曋 待 値 という<br />
評 価 尺 度 の 下 に, 我 々の 提 案 する 手 法沵 は 単 連 結 法沵 より<br />
もクラスタシの 妥 当 性 が 低 い 結 果 となった.しかしその<br />
後 の 改 善 の 試 みの 中 で, 出 現 回 数 別 にキゥーワョーチを 組<br />
合 せていくことで 妥 当 性 が 改 善 されるのではないかと<br />
いう 見 込 みがあったことを 報 告 する.<br />
2. 単 連 結 法沵<br />
2 つの 文 書暯 d i と d j の 類 似 度 を s ij と 表 記 する. 文 書暯 集<br />
合 に 対 して 単 連 結 法沵 を 適 用 する 場 合 ,2 つのクラスタシ<br />
C m と C n との 類 似 度 S mn は<br />
S<br />
mn<br />
{ s | d ∈C<br />
d ∈C<br />
}<br />
= max ,<br />
(1)<br />
ij<br />
i<br />
m<br />
で 定 義 される.つまり,それぞれのクラスタシに 含 まれ<br />
る 文 書暯 のうち, 内 容 的 に 最暷 も 近 い 文 書暯 間 の 類 似 度 をク<br />
ラスタシ 間 の 類 似 度 として 採 用 する.゚ルゴガリズム 1 に<br />
単 連 結 法沵 の 手 順 を 示 す.<br />
3. ラベルに 基 づくクラスタシリンルエ<br />
単 連 結 法沵 や k-means 法沵 などの 一 般 的 な 文 書暯 クラスタシ<br />
リンルエ 手 法沵 では, 文 書暯 を 各 語 の 重 みから 構 成 されるベ<br />
クダルとして 表 現 し,2 つの 文 書暯 ベクダル 間 の 類 似 度<br />
に 基 づいてクラスタシリンルエを 行 うが, 提 案 手 法沵 では 文<br />
書暯 をベクダルとして 表 現 せず,その 代 わわりに, 文 書暯 集<br />
合 から 抽 出 されたキゥーワョーチに 基 づいてクラスタシリンル<br />
エを 行 う. 文 書暯 集 合 に 含 まれる 文 書暯 件 数 を N とすると,<br />
多 くの 場 合 , 抽 出 されたキゥーワョーチの 総 数 K は K 1<br />
6. S = { s | d ∈ C , d ∈ C }<br />
mn<br />
max となるような<br />
ij<br />
i<br />
C m , C n ∈G を 選 択<br />
7. C new =C m ∪C n とする<br />
8. 現 在 の 類 似 度 S mn と 併 合 した C new の 情 報 をフネ゙<br />
゜ルに 書暯 き 出 す<br />
9. G から C m と C n を 削 除<br />
10. G に C new を 挿 入 する<br />
11. end<br />
゚ルゴガリズム 2 ラベルに 基 づくクラスタシリンルエ<br />
1. 文 書暯 集 合 D からキゥーワョーチ 群 を 抽 出 し,キゥーワョー<br />
チのリスダを 作 成<br />
2. リスダから 特 定 の 条曵 件 を 満 たすキゥーワョーチ 群 を 選<br />
択 し,これをラベルの 候 補 とする<br />
3. ラベル 候 補 のキゥーワョーチ 群 の 中 から 規 則 に 従 って<br />
2 つ 選 択 し,このキゥーワョーチのピをラベルとす<br />
る<br />
4. ラベルのキゥーワョーチを 共 に 含 む 文 書暯 をまとめてク<br />
ラスタシを 作 成<br />
5. ラベルとして 使 用 されたキゥーワョーチをリスダから<br />
除 外 する<br />
6. 手 順 3~ 手 順 5 をリスダが 空 になるまで 繰 り 返 す<br />
m<br />
j<br />
n
4. 実 験<br />
4.1. 実 験 の 概 要<br />
本曓 稿 では 約 33 万 件 の 論 文 抄 録 である NTCIR1 に 対 し<br />
て 単 連 結 法沵 と 提 案 手 法沵 によるクラスタシリンルエを 行 い,<br />
両 手 法沵 において 作 成 されたクラスタシに 対 して, 同 じク<br />
ラスタシ 内 の 2 つの 文 書暯 間 の 類 似 度 の 重 み 付 き 期曋 待 値 と<br />
いう 評 価 尺 度 の 下 で 比 較 ・ 評 価 を 行 った.<br />
単 連 結 法沵 は, 与 えられた N 件 の 文 書暯 に 対 して 全 ての<br />
文 書暯 間 の 類 似 度 を 計 算 するため, 計 算 量 は O (N 2 )に 比<br />
例 する.そのため, 実 際 には 単 連 結 法沵 の 手 順 通 りに 全<br />
ての 文 書暯 間 の 類 似 度 は 計 算 せず, 山 本曓 らの DP ブッセチス<br />
ンルエによる 類 似 度 算 出 プハロエラム[2]を 使 用 し, 各 文 書暯<br />
に 対 する 類 似 文 書暯 上 位 30 件 とその 類 似 度 のリスダを<br />
用 意 した.そして 文 書暯 1と 文 書暯 2, 文 書暯 2 と 文 書暯 3 の<br />
類 似 度 がある 一 定 の 値 よりも 高 ければ, 文 書暯 1 と 文 書暯<br />
3 が 類 似 している 可 能 性 が 高 いという 仮 定 の 下 ,リス<br />
ダ 1 に 示 す 手 順 によりクラスタシリンルエを 行 った.<br />
ラベルに 基 づくクラスタシリンルエでは,ラベルの 数 =<br />
クラスタシの 数 となることに 加 え,ラベルとして 採 用 す<br />
るキゥーワョーチがクラスタシリンルエの 結 果 を 大 きく 左 右 す<br />
る. 実 験 では, 小 規 模 なクラスタシができることを 期曋 待<br />
して, 抽 出 されたキゥーワョーチ 群 の 中 から NTCIR1 にお<br />
ける 出 現 回 数 が 10~20 回 のキゥーワョーチをラベルの 候<br />
補 とし,また 大 規 模 なクラスタシができることを 期曋 待 し<br />
て 出 現 回 数 が 100 から 500 回 のキゥーワョーチもラベルの<br />
候 補 として, 出 現 回 数 が 10~20 回 のキゥーワョーチと<br />
100~500 回 のキゥーワョーチを 組 合 せてラベルを 構 成 し,<br />
リスダ 2 に 示 す 手 順 によりクラスタシリンルエを 行 った.<br />
リスダ 1 実 験 での 単 連 結 法沵 の 手 順<br />
1. 山 本曓 らの DP ブッセチスンルエプハロエラムを 用 いて,<br />
NTCIR1 の 各 文 書暯 d i に 対 する 類 似 文 書暯 上 位 30 件 と<br />
その 類 似 度 のリスダを 作 成 し,この 30 件 を 文 書暯<br />
d i に 対 するクラスタシ C i とする<br />
2. クラスタシ 数 が NTCIR1 の 文 書暯 数 の 1/10 程 度 にな<br />
るように 類 似 度 の 閾 値 を 63 に 設 定<br />
3. 手 順 1 で 作 成 した 各 クラスタシ C i から, 設 定 した 閾<br />
値 以 下 の 類 似 度 の 文 書暯 を 除 外 する<br />
4. もし, 文 書暯 d 1 に 対 するクラスタシ C 1 に 文 書暯 d 2 が 含<br />
まれていれば, 文 書暯 d 2 に 対 するクラスタシ C 2 と C 1<br />
を 併 合 して 新 たに C 1 とする<br />
5. 手 順 4 を 全 てのクラスタシに 対 して 行 う<br />
リスダ 2 実 験 での 提 案 手 法沵 の 手 順<br />
1. 武 田 らのキゥーワョーチ 抽 出 プハロエラムを 使 用 して<br />
NTCIR1 からキゥーワョーチ 群 を 抽 出<br />
2. NTCIR1 における 出 現 回 数 が 10~20 回 のキゥーワョー<br />
チ 191 個 と 出 現 回 数 が 100~500 回 のキゥーワョーチ<br />
71 個 をラベルに 使 用 するキゥーワョーチの 候 補 とす<br />
る<br />
3. 出 現 回 数 が 10~20 回 のキゥーワョーチ 191 個 と, 出<br />
現 回 数 が 100~500 個 のキゥーワョーチ 71 個 を 組 み 合<br />
わわせて 191×71=13,561 個 のラベルを 用 意<br />
4. 手 順 3 で 用 意 した 全 てのラベルに 対 して,ラベル<br />
のキゥーワョーチを 共 に 含 む 文 書暯 をまとめてクラスタシ<br />
を 作 成<br />
4.2. 実 験 結 果<br />
10 5<br />
10 4<br />
31608<br />
12737<br />
単 連 結 法沵<br />
提 案 手 法沵<br />
両 手 法沵 により 作 成 されたクラスタシの 数 を 規 模 別 に 示<br />
したエラフネを 図 1 に 示 す. 単 連 結 法沵 では,クラスタシの<br />
数 が NTCIR1 の 文 書暯 数 の 1/10 程 度 になるように 類 似<br />
度 の 閾 値 63 におけるクラスタシを 取 得 した. 両 手 法沵 に<br />
おいて 規 模 が 0~10 のクラスタシが 非 常 に 多 くなった.<br />
提 案 手 法沵 では 規 模 が 0~10 のクラスタシが 12,737 個 得 ら<br />
れたが,そのうち 10,115 個 が 規 模 0 のクラスタシであ<br />
り,ほとんどのラベルでクラスタシが 作 成 されない 結 果<br />
となった.しかし, 規 模 が 20~40 のクラスタシに 関 して<br />
は 両 手 法沵 においてほぼ 同 じ 数 のクラスタシを 得 ることが<br />
できた.そのため, 評 価 対 象 は 規 模 が 20~40 のクラス<br />
タシに 限 定 し,それ 以 外 の 規 模 のクラスタシは 両 手 法沵 でク<br />
ラスタシ 数 に 大 きな 差 があるため 比 較 には 不 適 切 である<br />
と 考 え 評 価 の 対 象 外 とした.<br />
クラスタシ 数<br />
E =<br />
10 3<br />
872<br />
316<br />
144<br />
136<br />
66<br />
80<br />
10 2<br />
10 1<br />
10 0<br />
0~10 10~20 20~30 30~40 40~<br />
クラスタシの 規 模<br />
L<br />
∑<br />
k=<br />
1<br />
図 1 作 成 されたクラスタシ<br />
285<br />
31<br />
⎛<br />
⎞<br />
⎜<br />
L<br />
n ⎜<br />
1 ∑ ( ) ∑<br />
⎜ ∈ ∈<br />
⎟ ⎟⎟ k<br />
similarity di,<br />
d<br />
j<br />
n<br />
(2)<br />
2 k<br />
nk<br />
di Ck<br />
, d j Ck<br />
k=<br />
1<br />
⎝<br />
rank ( di<br />
, d j ) ≤ 30<br />
⎠
4.3. 評 価 と 考 察<br />
文 書暯 クラスタシリンルエの 結 果 の 妥 当 性 の 評 価 には, 直<br />
接 的 な 評 価 と 間 接 的 な 評 価 の 2 つが 考 えられる[3].<br />
NTCIR1 では 正 解 を 利 用 することができないため,ク<br />
ラスタシリンルエ 結 果 の 妥 当 性 の 評 価 尺 度 には,(2) 式 に 示<br />
す 同 じクラスタシ 内 の 2 つの 文 書暯 間 の 類 似 度 の 重 み 付 き<br />
期曋 待 値 を 用 いた.(2) 式 では 分 子 のシクエブの 直 後 にある<br />
n k がヒヂルテ゛ 項 となっており,n k の 大 小 によって 不<br />
公 平 が 生 じないようになっている.L は 評 価 対 象 とな<br />
るクラスタシ 数 ,n k はクラスタシ C k に 属 する 文 書暯 数 ,<br />
similarity(d i , d j )は d i , d j 間 の 類 似 度 ,rank(d i , d j )は d i<br />
をもとに 検 索 したときに d j が 出 てくる 順 位 である.ま<br />
た(2) 式 において similarity(d i , d j )を 求 める 際 に, 事 前<br />
に 用 意 した 類 似 文 書暯 上 位 30 件 のリスダに 類 似 度 が 存<br />
在 する 場 合 にはその 値 を 使 用 し, 存 在 しない 場 合 には<br />
類 似 度 を 0 としたため, 得 られた 期曋 待 値 は 実 際 には 近<br />
似 的 な 値 である.<br />
表 1 にクラスタシの 妥 当 性 の 評 価 結 果 を 示 す. 提 案 手<br />
法沵 のクラスタシの 妥 当 性 は 単 連 結 法沵 の 約 1/10 と 低 く,<br />
良 い 結 果 が 得 られなかった.クラスタシ 数 は, 規 模 が<br />
20~40 の 間 に 限 定 すれば 単 連 結 法沵 とほぼ 同 じ 数 が 得<br />
られたので, 内 容 的 にもほぼ 同 じクラスタシが 生 成 され<br />
ているのではないかと 予 想 したが, 予 想 を 裏 切 る 結 果<br />
となった.<br />
提 案 手 法沵 により 作 成 したクラスタシの 妥 当 性 が 低 い 結<br />
果 となった 原 因 として,ラベルとして 採 用 したキゥーワョ<br />
ーチがクラスタシを 構 成 するのに 不 適 切 であったのでは<br />
ないかと 考 え, 参 考 のためにラベルを 単 一 のキゥーワョー<br />
チとした 場 合 と 比 較 した. 表 2 に 比 較 結 果 を 示 す. 出<br />
現 回 数 が 10~20 回 のキゥーワョーチ 191 個 をそれぞれラ<br />
ベルとしてクラスタシを 作 成 した 場 合 と, 出 現 回 数 が<br />
100~500 回 のキゥーワョーチ 71 個 をそれぞれラベルとし<br />
てクラスタシを 作 成 した 場 合 の 両 方 において, 提 案 手 法沵<br />
よりも 妥 当 性 は 改 善 された.しかし 評 価 対 象 となるク<br />
ラスタシ 数 は 減浦 少 してまった.ラベルを 単 一 のキゥーワョー<br />
チとした 場 合 ,NTCIR1 から 抽 出 した 単 語 をキゥーワョー<br />
チとしているので, 用 意 したキゥーワョーチの 数 だけクラ<br />
スタシが 作 成 されるが, 比 較 のために 評 価 対 象 となるク<br />
ラスタシを 規 模 が 20~40 の 間 に 限 定 しているのでこの<br />
ような 結 果 になってしまったと 考 えられる.しかし 出<br />
現 回 数 が 10~20 回 のキゥーワョーチ 単 体 のラベルにより<br />
クラスタシを 作 成 した 場 合 , 評 価 対 象 となるクラスタシ 数<br />
は 68 で, 提 案 手 法沵 の 約 1/3 に 現 象 したのに 対 し, 期曋<br />
待 値 は 提 案 手 法沵 の 約 3 倍 に 伸 びた.そのため 出 現 回 数<br />
が 10~20 回 のキゥーワョーチはラベルとして 有暼 効 なキゥー<br />
ワョーチ 群 であると 考 えられ, 組 み 合 わわせるキゥーワョーチ<br />
次 第 ではクラスタシの 妥 当 性 を 向 上 させることが 期曋 待 で<br />
きる.<br />
表 1 妥 当 性 の 評 価 結 果<br />
評 価 対 象 クラスタシ 数<br />
類 似 度 の 期曋 待 値<br />
単 連 結 法沵 214 8.706×10 -2<br />
提 案 手 法沵 223 0.911×10 -2<br />
表 2 単 一 キゥーワョーチのラベルとの 比 較<br />
ラベルの 種 類<br />
出 現 回 数 が<br />
10~20 回 の<br />
キゥーワョーチ 単 体<br />
出 現 回 数 が<br />
100~500 回 の<br />
キゥーワョーチ 単 体<br />
評 価 対 象<br />
クラスタシ 数<br />
類 似 度 の<br />
期曋 待 値<br />
68 2.686×10 -2<br />
6 1.261×10 -2<br />
提 案 手 法沵 223 0.911×10 -2<br />
5. まとめ<br />
本曓 稿 では,ラベルに 基 づく 文 書暯 クラスタシリンルエ 手 法沵<br />
を 提 案 し, 提 案 手 法沵 により 作 成 したクラスタシの 妥 当 性<br />
の 評 価 を 行 った. 実 際 には,NTCIR1 に 対 して 単 連 結<br />
法沵 と 提 案 手 法沵 によるクラスタシリンルエを 行 い, 両 手 法沵 に<br />
おいて 作 成 されたクラスタシに 対 して, 同 じクラスタシ 内<br />
の 2 つの 文 書暯 間 の 類 似 度 の 重 み 付 き 期曋 待 値 という 評 価<br />
尺 度 の 下 で 比 較 ・ 評 価 を 行 った.その 結 果 , 提 案 手 法沵<br />
により 作 成 したクラスタシの 妥 当 性 は, 単 連 結 法沵 のそれ<br />
よりも 約 1/10 程 度 低 い 結 果 となった.<br />
しかし, 提 案 手 法沵 はクラスタシのラベルが 分 かってい<br />
るため,クラスタシリンルエの 結 果 の 概 要 を 一 目 で 確 認 す<br />
ることができる.また 単 一 のキゥーワョーチをラベルとし<br />
てクラスタシリンルエを 試 みたところ, 出 現 回 数 が 10~20<br />
回 のキゥーワョーチ 群 がラベルとして 有暼 効 ではないかとい<br />
うことが 分 かった.<br />
参 考 文 献<br />
[1] 武 田 善 行 , 梅 村曪 恭 司 , “キゥーワョーチ 抽 出 を 実 現 す<br />
る 文 書暯 頻 度 分 析 ”, Mathematical Linguistics vol.23<br />
no.2, pp.65-90, 2001.<br />
[2] E. Yamamoto and M. Kishida and Y. Takenami and<br />
Y. Takeda and K. Umemura, “Dynamic<br />
programming matching for large scale<br />
information retrieval”, Proceedings <strong>of</strong> the sixth<br />
international workshop on Information retrieval<br />
with Asian languages, pp.100-108, 2003.<br />
[3] 岸 田 和 明 , “ 文 書暯 クラスタシリンルエの 技 法沵 : 文 献 レ<br />
ビニュポー”, Library and Information Science (49),<br />
pp.33-75, 2003.