23.10.2014 Views

ラベルに基づく文書クラスタリング手法の提案と評価 Evaluation of ...

ラベルに基づく文書クラスタリング手法の提案と評価 Evaluation of ...

ラベルに基づく文書クラスタリング手法の提案と評価 Evaluation of ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

DEIM Forum 2011 B6-1<br />

ラベルに 基 づく 文 書暯 クラスタシリンルエ 手 法沵 の 提 案 と 評 価<br />

†<br />

田 之 上 和 誠<br />

††<br />

岡 部 正 幸<br />

‡<br />

梅 村曪 恭 司<br />

†‡ 豊 橋 技 術 科 学 大 学 情 報 工 学 系 〒441-8580 愛 知 県 豊 橋 市 天 伯 町 雲 雀 ヶヮ 丘 1-1<br />

†† 豊 橋 技 術 科 学 大 学 情 報 ベタ゛゚ 基 盤 センルタシー 〒441-8580 愛 知 県 豊 橋 市 天 伯 町 雲 雀 ヶヮ 丘 1-1<br />

E-mail: †tanoue@ss.cs.tut.ac.jp, ††okabe@imc.tut.ac.jp, ‡umemura@tut.jp<br />

あらまし 本曓 稿 では, 文 書暯 ベクダルを 構 成 せずラベルに 基 づいてソサフネダクラスタシを 作 成 する 文 書暯 クラスタシリンルエ 手<br />

法沵 を 提 案 し, 提 案 手 法沵 により 作 成 されたクラスタシの 妥 当 性 の 評 価 を 行 う.ラベルは, 文 書暯 集 合 から 抽 出 したキゥーワョー<br />

チ 群 の 中 から 出 現 回 数 に 基 づいて 選 んだ 2 つのキゥーワョーチで 構 成 し,この 2 つのキゥーワョーチが 共 に 出 現 する 文 書暯 をま<br />

とめることでクラスタシリンルエを 行 う.この 方 法沵 にはクラスタシのラベルが 当 初 より 決 まっているという 利 点 がある. 評<br />

価 は, 単 連 結 法沵 と 呼 ばれる 文 書暯 間 の 類 似 度 に 基 づいたクラスタシリンルエ 手 法沵 により 作 成 されたクラスタシと 妥 当 性 を 比 較<br />

することで 行 い, 妥 当 性 の 尺 度 には 同 じクラスタシ 内 の 2 つの 文 書暯 間 の 類 似 度 の 重 み 付 き 期曋 待 値 を 使 用 した.その 結 果 ,<br />

クラスタシのラベルは 存 在 するものの, 提 案 手 法沵 は 単 連 結 法沵 に 比 べてクラスタシの 妥 当 性 は 低 かった.<br />

キーワード 文 書暯 クラスタシリンルエ,キゥーワョーチ 抽 出<br />

<strong>Evaluation</strong> <strong>of</strong> Proposed Document Clustering based on Labels<br />

Kazumasa TANOUE † Masayuki OKABE †† Kyoji UMEMURA ‡<br />

†‡Department <strong>of</strong> Information and Computer Sciences, Toyohashi University <strong>of</strong> Technology<br />

††Information and Media Center, Toyohashi University <strong>of</strong> Technology<br />

1-1 Hibarigaoka, Tempaku, Toyohashi, Aichi, 441-8580 Japan<br />

E-mail: †tanoue@ss.cs.tut.ac.jp, ††okabe@imc.tut.ac.jp, ‡umemura@tut.jp<br />

Abstract In this paper, we propose a new s<strong>of</strong>t clustering method for documents based on labels without document<br />

vectors, and evaluate adequacy <strong>of</strong> clusters created by our method. Labels consist <strong>of</strong> two keywords selected by their<br />

frequency, and clustering can be carried out by gathering documents which include both keywords <strong>of</strong> label. Our<br />

method has an advantage that the labels <strong>of</strong> clusters are initially obvious. We carry out evaluation by comparing the<br />

adequacy <strong>of</strong> the clusters created by our method and single linkage method which is based on the similarity between<br />

two documents. Adopted adequacy criterion is weighted expectation value <strong>of</strong> similarity between two documents in<br />

same cluster. Experimental evaluation shows that our method gets lower adequacy than single linkage method, but<br />

our method has the initially obvious label advantage.<br />

Keyword Document Clustering,Keyword Extraction<br />

1. はじめに<br />

情 報 検 索 の 分 野 では, 図 書暯 や 雑 誌 論 文 などの 文 書暯 集<br />

合 を, 内 容 的 に 均 質 ないくつかの 群 に 分 けるための 文<br />

書暯 クラスタシリンルエの 研 究 が 長 年 にわわたって 試 みられて<br />

きた. 文 書暯 クラスタシリンルエの 手 法沵 は 階 層 型 と 非 階 層 型<br />

に 大 別 でき, 代 表 的 なクラスタシリンルエ 手 法沵 として, 階<br />

層 型 では 単 連 結 法沵 , 非 階 層 型 では k-means 法沵 がある.<br />

いずれにしろ, 一 般 的 な 文 書暯 クラスタシリンルエ 手 法沵 では<br />

文 書暯 を 各 語 の 重 みから 構 成 されるベクダルとして 表 現<br />

し,ある 類 似 尺 度 をもって 2 つの 文 書暯 ベクダル 間 の 類<br />

似 度 を 定 義 した 後 ,この 類 似 度 に 基 づいてクラスタシリ<br />

ンルエを 行 う.しかし, 作 成 されたクラスタシに 属 する 文<br />

書暯 の 内 容 を 一 通 り 読 まなければ,そのクラスタシがどの<br />

ような 内 容 の 文 書暯 群 なのかが 把 握 できないため,クラ<br />

スタシリンルエ 結 果 の 概 要 を 一 目 で 確 認 することができず<br />

不 便 である.<br />

本曓 稿 では,あるクラスタシがどのような 内 容 の 文 書暯 群<br />

なのかを 端 的 に 表 すものとして,クラスタシに 共 通 な 主<br />

題 (ラベル)が 分 かっていることは 重 要 であると 考 え,


クラスタシリンルエに 先 立 ってまずラベルを 作 成 し,ラベ<br />

ルに 即 する 文 書暯 をまとめてソサフネダクラスタシを 作 成 する<br />

手 法沵 を 提 案 する.あるクラスタシについてそのラベルが<br />

分 かっていれば 表 示 の 際 に 便 利 であると 考 えられ, 検<br />

索 効 率 の 更暬 なる 向 上 およびより 良 い 検 索 支 援 になるこ<br />

とが 期曋 待 できる.<br />

実 験 では, 武 田 らのキゥーワョーチ 抽 出 プハロエラム[1]<br />

を 利 用 して NTCIR1 からキゥーワョーチを 抽 出 し, 抽 出 さ<br />

れたキゥーワョーチ 群 の 中 から, 出 現 回 数 に 基 づいて 選 ん<br />

だ 2 つのキゥーワョーチを 用 いてラベルを 構 成 し,ラベル<br />

のキゥーワョーチが 共 に 出 現 する 文 書暯 をまとめることでソサ<br />

フネダクラスタシを 作 成 した.そして 提 案 手 法沵 により 作 成<br />

されたクラスタシと, 単 連 結 法沵 により 作 成 されたクラス<br />

タシとの 妥 当 性 の 比 較 を 行 った.その 結 果 , 同 じクラス<br />

タシ 内 の 2 つの 文 書暯 間 の 類 似 度 の 重 み 付 き 期曋 待 値 という<br />

評 価 尺 度 の 下 に, 我 々の 提 案 する 手 法沵 は 単 連 結 法沵 より<br />

もクラスタシの 妥 当 性 が 低 い 結 果 となった.しかしその<br />

後 の 改 善 の 試 みの 中 で, 出 現 回 数 別 にキゥーワョーチを 組<br />

合 せていくことで 妥 当 性 が 改 善 されるのではないかと<br />

いう 見 込 みがあったことを 報 告 する.<br />

2. 単 連 結 法沵<br />

2 つの 文 書暯 d i と d j の 類 似 度 を s ij と 表 記 する. 文 書暯 集<br />

合 に 対 して 単 連 結 法沵 を 適 用 する 場 合 ,2 つのクラスタシ<br />

C m と C n との 類 似 度 S mn は<br />

S<br />

mn<br />

{ s | d ∈C<br />

d ∈C<br />

}<br />

= max ,<br />

(1)<br />

ij<br />

i<br />

m<br />

で 定 義 される.つまり,それぞれのクラスタシに 含 まれ<br />

る 文 書暯 のうち, 内 容 的 に 最暷 も 近 い 文 書暯 間 の 類 似 度 をク<br />

ラスタシ 間 の 類 似 度 として 採 用 する.゚ルゴガリズム 1 に<br />

単 連 結 法沵 の 手 順 を 示 す.<br />

3. ラベルに 基 づくクラスタシリンルエ<br />

単 連 結 法沵 や k-means 法沵 などの 一 般 的 な 文 書暯 クラスタシ<br />

リンルエ 手 法沵 では, 文 書暯 を 各 語 の 重 みから 構 成 されるベ<br />

クダルとして 表 現 し,2 つの 文 書暯 ベクダル 間 の 類 似 度<br />

に 基 づいてクラスタシリンルエを 行 うが, 提 案 手 法沵 では 文<br />

書暯 をベクダルとして 表 現 せず,その 代 わわりに, 文 書暯 集<br />

合 から 抽 出 されたキゥーワョーチに 基 づいてクラスタシリンル<br />

エを 行 う. 文 書暯 集 合 に 含 まれる 文 書暯 件 数 を N とすると,<br />

多 くの 場 合 , 抽 出 されたキゥーワョーチの 総 数 K は K 1<br />

6. S = { s | d ∈ C , d ∈ C }<br />

mn<br />

max となるような<br />

ij<br />

i<br />

C m , C n ∈G を 選 択<br />

7. C new =C m ∪C n とする<br />

8. 現 在 の 類 似 度 S mn と 併 合 した C new の 情 報 をフネ゙<br />

゜ルに 書暯 き 出 す<br />

9. G から C m と C n を 削 除<br />

10. G に C new を 挿 入 する<br />

11. end<br />

゚ルゴガリズム 2 ラベルに 基 づくクラスタシリンルエ<br />

1. 文 書暯 集 合 D からキゥーワョーチ 群 を 抽 出 し,キゥーワョー<br />

チのリスダを 作 成<br />

2. リスダから 特 定 の 条曵 件 を 満 たすキゥーワョーチ 群 を 選<br />

択 し,これをラベルの 候 補 とする<br />

3. ラベル 候 補 のキゥーワョーチ 群 の 中 から 規 則 に 従 って<br />

2 つ 選 択 し,このキゥーワョーチのピをラベルとす<br />

る<br />

4. ラベルのキゥーワョーチを 共 に 含 む 文 書暯 をまとめてク<br />

ラスタシを 作 成<br />

5. ラベルとして 使 用 されたキゥーワョーチをリスダから<br />

除 外 する<br />

6. 手 順 3~ 手 順 5 をリスダが 空 になるまで 繰 り 返 す<br />

m<br />

j<br />

n


4. 実 験<br />

4.1. 実 験 の 概 要<br />

本曓 稿 では 約 33 万 件 の 論 文 抄 録 である NTCIR1 に 対 し<br />

て 単 連 結 法沵 と 提 案 手 法沵 によるクラスタシリンルエを 行 い,<br />

両 手 法沵 において 作 成 されたクラスタシに 対 して, 同 じク<br />

ラスタシ 内 の 2 つの 文 書暯 間 の 類 似 度 の 重 み 付 き 期曋 待 値 と<br />

いう 評 価 尺 度 の 下 で 比 較 ・ 評 価 を 行 った.<br />

単 連 結 法沵 は, 与 えられた N 件 の 文 書暯 に 対 して 全 ての<br />

文 書暯 間 の 類 似 度 を 計 算 するため, 計 算 量 は O (N 2 )に 比<br />

例 する.そのため, 実 際 には 単 連 結 法沵 の 手 順 通 りに 全<br />

ての 文 書暯 間 の 類 似 度 は 計 算 せず, 山 本曓 らの DP ブッセチス<br />

ンルエによる 類 似 度 算 出 プハロエラム[2]を 使 用 し, 各 文 書暯<br />

に 対 する 類 似 文 書暯 上 位 30 件 とその 類 似 度 のリスダを<br />

用 意 した.そして 文 書暯 1と 文 書暯 2, 文 書暯 2 と 文 書暯 3 の<br />

類 似 度 がある 一 定 の 値 よりも 高 ければ, 文 書暯 1 と 文 書暯<br />

3 が 類 似 している 可 能 性 が 高 いという 仮 定 の 下 ,リス<br />

ダ 1 に 示 す 手 順 によりクラスタシリンルエを 行 った.<br />

ラベルに 基 づくクラスタシリンルエでは,ラベルの 数 =<br />

クラスタシの 数 となることに 加 え,ラベルとして 採 用 す<br />

るキゥーワョーチがクラスタシリンルエの 結 果 を 大 きく 左 右 す<br />

る. 実 験 では, 小 規 模 なクラスタシができることを 期曋 待<br />

して, 抽 出 されたキゥーワョーチ 群 の 中 から NTCIR1 にお<br />

ける 出 現 回 数 が 10~20 回 のキゥーワョーチをラベルの 候<br />

補 とし,また 大 規 模 なクラスタシができることを 期曋 待 し<br />

て 出 現 回 数 が 100 から 500 回 のキゥーワョーチもラベルの<br />

候 補 として, 出 現 回 数 が 10~20 回 のキゥーワョーチと<br />

100~500 回 のキゥーワョーチを 組 合 せてラベルを 構 成 し,<br />

リスダ 2 に 示 す 手 順 によりクラスタシリンルエを 行 った.<br />

リスダ 1 実 験 での 単 連 結 法沵 の 手 順<br />

1. 山 本曓 らの DP ブッセチスンルエプハロエラムを 用 いて,<br />

NTCIR1 の 各 文 書暯 d i に 対 する 類 似 文 書暯 上 位 30 件 と<br />

その 類 似 度 のリスダを 作 成 し,この 30 件 を 文 書暯<br />

d i に 対 するクラスタシ C i とする<br />

2. クラスタシ 数 が NTCIR1 の 文 書暯 数 の 1/10 程 度 にな<br />

るように 類 似 度 の 閾 値 を 63 に 設 定<br />

3. 手 順 1 で 作 成 した 各 クラスタシ C i から, 設 定 した 閾<br />

値 以 下 の 類 似 度 の 文 書暯 を 除 外 する<br />

4. もし, 文 書暯 d 1 に 対 するクラスタシ C 1 に 文 書暯 d 2 が 含<br />

まれていれば, 文 書暯 d 2 に 対 するクラスタシ C 2 と C 1<br />

を 併 合 して 新 たに C 1 とする<br />

5. 手 順 4 を 全 てのクラスタシに 対 して 行 う<br />

リスダ 2 実 験 での 提 案 手 法沵 の 手 順<br />

1. 武 田 らのキゥーワョーチ 抽 出 プハロエラムを 使 用 して<br />

NTCIR1 からキゥーワョーチ 群 を 抽 出<br />

2. NTCIR1 における 出 現 回 数 が 10~20 回 のキゥーワョー<br />

チ 191 個 と 出 現 回 数 が 100~500 回 のキゥーワョーチ<br />

71 個 をラベルに 使 用 するキゥーワョーチの 候 補 とす<br />

る<br />

3. 出 現 回 数 が 10~20 回 のキゥーワョーチ 191 個 と, 出<br />

現 回 数 が 100~500 個 のキゥーワョーチ 71 個 を 組 み 合<br />

わわせて 191×71=13,561 個 のラベルを 用 意<br />

4. 手 順 3 で 用 意 した 全 てのラベルに 対 して,ラベル<br />

のキゥーワョーチを 共 に 含 む 文 書暯 をまとめてクラスタシ<br />

を 作 成<br />

4.2. 実 験 結 果<br />

10 5<br />

10 4<br />

31608<br />

12737<br />

単 連 結 法沵<br />

提 案 手 法沵<br />

両 手 法沵 により 作 成 されたクラスタシの 数 を 規 模 別 に 示<br />

したエラフネを 図 1 に 示 す. 単 連 結 法沵 では,クラスタシの<br />

数 が NTCIR1 の 文 書暯 数 の 1/10 程 度 になるように 類 似<br />

度 の 閾 値 63 におけるクラスタシを 取 得 した. 両 手 法沵 に<br />

おいて 規 模 が 0~10 のクラスタシが 非 常 に 多 くなった.<br />

提 案 手 法沵 では 規 模 が 0~10 のクラスタシが 12,737 個 得 ら<br />

れたが,そのうち 10,115 個 が 規 模 0 のクラスタシであ<br />

り,ほとんどのラベルでクラスタシが 作 成 されない 結 果<br />

となった.しかし, 規 模 が 20~40 のクラスタシに 関 して<br />

は 両 手 法沵 においてほぼ 同 じ 数 のクラスタシを 得 ることが<br />

できた.そのため, 評 価 対 象 は 規 模 が 20~40 のクラス<br />

タシに 限 定 し,それ 以 外 の 規 模 のクラスタシは 両 手 法沵 でク<br />

ラスタシ 数 に 大 きな 差 があるため 比 較 には 不 適 切 である<br />

と 考 え 評 価 の 対 象 外 とした.<br />

クラスタシ 数<br />

E =<br />

10 3<br />

872<br />

316<br />

144<br />

136<br />

66<br />

80<br />

10 2<br />

10 1<br />

10 0<br />

0~10 10~20 20~30 30~40 40~<br />

クラスタシの 規 模<br />

L<br />

∑<br />

k=<br />

1<br />

図 1 作 成 されたクラスタシ<br />

285<br />

31<br />

⎛<br />

⎞<br />

⎜<br />

L<br />

n ⎜<br />

1 ∑ ( ) ∑<br />

⎜ ∈ ∈<br />

⎟ ⎟⎟ k<br />

similarity di,<br />

d<br />

j<br />

n<br />

(2)<br />

2 k<br />

nk<br />

di Ck<br />

, d j Ck<br />

k=<br />

1<br />

⎝<br />

rank ( di<br />

, d j ) ≤ 30<br />


4.3. 評 価 と 考 察<br />

文 書暯 クラスタシリンルエの 結 果 の 妥 当 性 の 評 価 には, 直<br />

接 的 な 評 価 と 間 接 的 な 評 価 の 2 つが 考 えられる[3].<br />

NTCIR1 では 正 解 を 利 用 することができないため,ク<br />

ラスタシリンルエ 結 果 の 妥 当 性 の 評 価 尺 度 には,(2) 式 に 示<br />

す 同 じクラスタシ 内 の 2 つの 文 書暯 間 の 類 似 度 の 重 み 付 き<br />

期曋 待 値 を 用 いた.(2) 式 では 分 子 のシクエブの 直 後 にある<br />

n k がヒヂルテ゛ 項 となっており,n k の 大 小 によって 不<br />

公 平 が 生 じないようになっている.L は 評 価 対 象 とな<br />

るクラスタシ 数 ,n k はクラスタシ C k に 属 する 文 書暯 数 ,<br />

similarity(d i , d j )は d i , d j 間 の 類 似 度 ,rank(d i , d j )は d i<br />

をもとに 検 索 したときに d j が 出 てくる 順 位 である.ま<br />

た(2) 式 において similarity(d i , d j )を 求 める 際 に, 事 前<br />

に 用 意 した 類 似 文 書暯 上 位 30 件 のリスダに 類 似 度 が 存<br />

在 する 場 合 にはその 値 を 使 用 し, 存 在 しない 場 合 には<br />

類 似 度 を 0 としたため, 得 られた 期曋 待 値 は 実 際 には 近<br />

似 的 な 値 である.<br />

表 1 にクラスタシの 妥 当 性 の 評 価 結 果 を 示 す. 提 案 手<br />

法沵 のクラスタシの 妥 当 性 は 単 連 結 法沵 の 約 1/10 と 低 く,<br />

良 い 結 果 が 得 られなかった.クラスタシ 数 は, 規 模 が<br />

20~40 の 間 に 限 定 すれば 単 連 結 法沵 とほぼ 同 じ 数 が 得<br />

られたので, 内 容 的 にもほぼ 同 じクラスタシが 生 成 され<br />

ているのではないかと 予 想 したが, 予 想 を 裏 切 る 結 果<br />

となった.<br />

提 案 手 法沵 により 作 成 したクラスタシの 妥 当 性 が 低 い 結<br />

果 となった 原 因 として,ラベルとして 採 用 したキゥーワョ<br />

ーチがクラスタシを 構 成 するのに 不 適 切 であったのでは<br />

ないかと 考 え, 参 考 のためにラベルを 単 一 のキゥーワョー<br />

チとした 場 合 と 比 較 した. 表 2 に 比 較 結 果 を 示 す. 出<br />

現 回 数 が 10~20 回 のキゥーワョーチ 191 個 をそれぞれラ<br />

ベルとしてクラスタシを 作 成 した 場 合 と, 出 現 回 数 が<br />

100~500 回 のキゥーワョーチ 71 個 をそれぞれラベルとし<br />

てクラスタシを 作 成 した 場 合 の 両 方 において, 提 案 手 法沵<br />

よりも 妥 当 性 は 改 善 された.しかし 評 価 対 象 となるク<br />

ラスタシ 数 は 減浦 少 してまった.ラベルを 単 一 のキゥーワョー<br />

チとした 場 合 ,NTCIR1 から 抽 出 した 単 語 をキゥーワョー<br />

チとしているので, 用 意 したキゥーワョーチの 数 だけクラ<br />

スタシが 作 成 されるが, 比 較 のために 評 価 対 象 となるク<br />

ラスタシを 規 模 が 20~40 の 間 に 限 定 しているのでこの<br />

ような 結 果 になってしまったと 考 えられる.しかし 出<br />

現 回 数 が 10~20 回 のキゥーワョーチ 単 体 のラベルにより<br />

クラスタシを 作 成 した 場 合 , 評 価 対 象 となるクラスタシ 数<br />

は 68 で, 提 案 手 法沵 の 約 1/3 に 現 象 したのに 対 し, 期曋<br />

待 値 は 提 案 手 法沵 の 約 3 倍 に 伸 びた.そのため 出 現 回 数<br />

が 10~20 回 のキゥーワョーチはラベルとして 有暼 効 なキゥー<br />

ワョーチ 群 であると 考 えられ, 組 み 合 わわせるキゥーワョーチ<br />

次 第 ではクラスタシの 妥 当 性 を 向 上 させることが 期曋 待 で<br />

きる.<br />

表 1 妥 当 性 の 評 価 結 果<br />

評 価 対 象 クラスタシ 数<br />

類 似 度 の 期曋 待 値<br />

単 連 結 法沵 214 8.706×10 -2<br />

提 案 手 法沵 223 0.911×10 -2<br />

表 2 単 一 キゥーワョーチのラベルとの 比 較<br />

ラベルの 種 類<br />

出 現 回 数 が<br />

10~20 回 の<br />

キゥーワョーチ 単 体<br />

出 現 回 数 が<br />

100~500 回 の<br />

キゥーワョーチ 単 体<br />

評 価 対 象<br />

クラスタシ 数<br />

類 似 度 の<br />

期曋 待 値<br />

68 2.686×10 -2<br />

6 1.261×10 -2<br />

提 案 手 法沵 223 0.911×10 -2<br />

5. まとめ<br />

本曓 稿 では,ラベルに 基 づく 文 書暯 クラスタシリンルエ 手 法沵<br />

を 提 案 し, 提 案 手 法沵 により 作 成 したクラスタシの 妥 当 性<br />

の 評 価 を 行 った. 実 際 には,NTCIR1 に 対 して 単 連 結<br />

法沵 と 提 案 手 法沵 によるクラスタシリンルエを 行 い, 両 手 法沵 に<br />

おいて 作 成 されたクラスタシに 対 して, 同 じクラスタシ 内<br />

の 2 つの 文 書暯 間 の 類 似 度 の 重 み 付 き 期曋 待 値 という 評 価<br />

尺 度 の 下 で 比 較 ・ 評 価 を 行 った.その 結 果 , 提 案 手 法沵<br />

により 作 成 したクラスタシの 妥 当 性 は, 単 連 結 法沵 のそれ<br />

よりも 約 1/10 程 度 低 い 結 果 となった.<br />

しかし, 提 案 手 法沵 はクラスタシのラベルが 分 かってい<br />

るため,クラスタシリンルエの 結 果 の 概 要 を 一 目 で 確 認 す<br />

ることができる.また 単 一 のキゥーワョーチをラベルとし<br />

てクラスタシリンルエを 試 みたところ, 出 現 回 数 が 10~20<br />

回 のキゥーワョーチ 群 がラベルとして 有暼 効 ではないかとい<br />

うことが 分 かった.<br />

参 考 文 献<br />

[1] 武 田 善 行 , 梅 村曪 恭 司 , “キゥーワョーチ 抽 出 を 実 現 す<br />

る 文 書暯 頻 度 分 析 ”, Mathematical Linguistics vol.23<br />

no.2, pp.65-90, 2001.<br />

[2] E. Yamamoto and M. Kishida and Y. Takenami and<br />

Y. Takeda and K. Umemura, “Dynamic<br />

programming matching for large scale<br />

information retrieval”, Proceedings <strong>of</strong> the sixth<br />

international workshop on Information retrieval<br />

with Asian languages, pp.100-108, 2003.<br />

[3] 岸 田 和 明 , “ 文 書暯 クラスタシリンルエの 技 法沵 : 文 献 レ<br />

ビニュポー”, Library and Information Science (49),<br />

pp.33-75, 2003.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!