12.07.2015 Views

電子情報通信学会ワードテンプレート (タイトル) - 情報処理学会 ...

電子情報通信学会ワードテンプレート (タイトル) - 情報処理学会 ...

電子情報通信学会ワードテンプレート (タイトル) - 情報処理学会 ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

ス 集 合 をメンバに 持 ち、 集 合 演 算 のための 識 別 子 id を持 つ。Field クラスは、 名 前 とそれに 対 応 した 値 を 持 ち、検 索 対 象 データ 内 の 特 定 のフィールドに 対 応 する。Lucene の Field クラスは、 文 字 列 型 しか 扱 えないが、提 案 システムの Field クラスでは 任 意 の 型 のデータを扱 うことが 可 能 である。 例 えば、 名 前 "date" と、Date型 の 値 "2009-01-01" のペアで 構 成 される Field インスタンスと 名 前 "BBOX" と、Polygon 型 の 値"(0,0)(0,1)(1,1)(1,0)" で 構 成 される Field インスタンスを 一 つの Document インスタンス 内 に 格 納 することが 可 能 である。また Field クラスには、Analyzer クラスのインスタンスを 定 義 することで、ストップワードや 表 記 ゆれなどの 問 題 を 解 消 する。Index クラスは 抽 象 クラスで、これを 継 承 したサブクラスとして、 転 置 ファイルのためのクラスや、B 木索 引 のためのクラス、R 木 索 引 のためのクラスなど、任 意 の 索 引 アルゴリズムを 実 装 する。Index クラスのメンバである、fieldName はこの 索 引 が 扱 う Field の名 前 で、path は 実 際 に 索 引 データが 格 納 される 場 所 を示 し、ranking は 要 素 の 順 序 を 定 義 するクラスである。Ranking クラスも 同 様 に 抽 象 クラスで、サブクラスとして、 例 えば、 数 字 の 大 小 に 基 づいた 順 序 や、 要 素間 の 距 離 に 基 づいた 順 序 などを 定 義 したクラスを 実 装する。この Ranking クラスのサブクラスによる 順 序 定義 を 各 索 引 ごとに 直 接 関 連 づける。IndexDirectory クラスは、データの 格 納 、および 検索 のインターフェイスとなるクラスである。IndexDirectory クラスは、 複 数 の Index インスタンスをメンバとし、 例 えば、Date 型 データを 格 納 できる 名前 が "date" である B 木 索 引 や、Polygon 型 データを 格納 できる 名 前 が "bbox" である R 木 索 引 などをメンバとして 追 加 する。また、 文 字 列 型 やテキスト 型 データを 格 納 できる 匿 名 の 転 置 ファイル 索 引 は、デフォルトで 追 加 されることを 前 提 としている。IndexDirectoryクラスに Index を 追 加 した 後 にデータを 格 納 する。データの 格 納 は、 与 えられた 文 書 を 構 文 解 析 し、Field インスタンスの 集 合 から 構 成 される Document インスタンスを 生 成 し、それを IndexDirectory クラスに 追 加 する。この 際 、 追 加 される Document 内 のすべての Fieldの 名 前 に 対 応 して、 存 在 するように 索 引 を 事 前 に 定 義しておく 必 要 がある。 例 えば、Date 型 の B 木 索 引 "date"や、Polygon 型 の R 木 索 引 "BBOX" 、 文 字 列 型 の 転 置ファイル 索 引 が 定 義 されていた 場 合 、Date 型 で 名 前 が"date" である Field は 格 納 できるが、Date 型 で 名 前 が" 作 成 日 時 " であるような Field は 格 納 できない。IndexDirectory クラスに 対 して 検 索 を 行 なう 場 合 、Query クラスのインスタンスを 渡 すと、 解 としてDocument の 列 あるいは id の 列 が 返 される。Query クラスも Document クラスと 同 様 に、Field インスタンスの 集 合 をメンバに 持 ち、さらに 解 のサイズやオフセット、ソートのキーとなる Filed などを 持 つQueryConfig をメンバに 持 つ。後 述 のように 実 装 では、id に 基 づいた Field 間 のAND や OR 演 算 などを 支 援 するが、 簡 単 のため 割 愛する。この 段 階 でランキングの 集 約 を 行 うことがフレームワークとしては 可 能 であるが、これも 詳 細 は 今 後の 課 題 となっている。3. カタログサービスの 実 装 :3.1. 要 求 要 件次 に、 本 提 案 システムを 用 いた 地 球 観 測 情 報 資 源 のレジストリの 実 装 について 述 べる。まず、OGC(OpenGeospatial Consortium) の 規 定 する、CSW(CatalogService Web)という、メタデータの 検 索 ・ 登 録 のための規 格 [8]をサポートする 必 要 があり、これには 以 下 のような 機 能 要 件 がある。1. HTTP GET/POST に 基 づき、 資 源 に 対 するフォーム検 索 をサポートすること。2. 日 付 型 、 雲 量 などの 数 値 型 ,BBOX(Bounding BOX)のような 空 間 型 、および 全 文 検 索 の 検 索 をサポートすること。3. Transaction/Harvest といったメタデータ 収 集 ・ 登 録の 仕 組 みを 有 すること。GEO Grid における 要 件 : さらに、 以 下 のようなGEO Grid 固 有 の 要 求 が 考 えられる。A) 異 種 ・ 多 様 なプロファイル(スキーマ)をサポートすること。 衛 星 画 像 だけでなく、さまざまな 地物 のレジストリや、その 上 でのサービスのレジストリとしての 機 能 が 要 求 され、 異 種 のメタデータスキーマの 支 援 と、それに 対 する 統 合 的 な 検 索 が必 要 である。スキーマの 変 更 や 追 加 や 要 素 の 拡 張などにも 柔 軟 に 対 応 する 必 要 がある。B) 大 量 データに 対 する 検 索 を 効 果 的 にサポートすること。 提 案 システムでは 数 百 万 というオブジェクトを 扱 うが、 既 に 述 べたようにある 緯 度 経 度 で 検索 をした 場 合 、 答 えの 個 数 が 数 万 個 になったり、あるいは 逆 に 一 つもないような 場 合 がある。このような 場 合 に 対 しても、 十 分 な 応 答 性 能 と 必 要 な結 果 を 効 果 的 に 検 索 ・ 表 示 できること。C) オントロジに 基 づく 検 索 をサポートすること。 地物 に 対 する 検 索 要 求 はたとえば 検 索 用 語 間 に 階 層関 係 や 包 含 関 係 があるので、 単 にキーワード 検 索だけでは 不 十 分 である。


3.2. アプローチこれらの 要 求 に 対 して、 従 来 の CSW の 実 装 では、関 係 データベースを 基 礎 とした 実 装 がほとんど[12]であるが、 我 々は 本 論 文 で 示 したアーキテクチャに 基 づき、 全 文 検 索 ソフトウェアを 基 礎 に 実 現 することとした。これは GEO Grid における 上 述 の 要 件 に 対 する 利点 を 考 慮 したためである。A) 全 文 検 索 ソフトウェアに 基 づく 実 装 は、 基 本 的 にスキーマレスであるため、 多 様 なスキーマの 扱 いやスキーマの 追 加 変 更 に 対 して 極 めて 柔 軟 な 対 応が 可 能 である。B) ランキング・ページングといった 全 文 検 索 ソフトウェアが 標 準 的 に 持 つ 機 能 は、 結 果 の 個 数 が 膨 大な 場 合 のページングや、ランキングに 基 づく 条 件式 の 緩 和 や 絞 り 込 みなどの 検 索 に 有 利 である。C) オントロジによる 検 索 は、 検 索 語 の 階 層 関 係 を 展開 する 程 度 でも 十 分 な 場 合 が 多 く、これは 類 語 辞書 など 情 報 検 索 に 基 づく 手 法 で 対 応 できる。また、CSW の 支 援 においても、 次 のような 利 点 が 考 えられる。1. 多 くの 全 文 検 索 ソフトウェアは HTTP GET/POSTによる 検 索 インターフェイスを 有 しているので、実 装 が 容 易 である。2. データ 型 ごとの 検 索 は 型 ごとの 索 引 を 用 いた 本 論文 での 手 法 により 実 装 することができる。3. 登 録 については、 特 に Harvest は 全 文 検 索 ソフトウェアにおいて 基 本 的 な 機 能 であるクローリングに基 づくデータ 収 集 の 機 能 であるため、 追 加 的 な 実装 が 少 なくて 済 む。以 上 のような 特 徴 から、 本 提 案 システムに 基 づく 実装 が 適 していると 考 えられる。3.3. 実 装 の 詳 細本 実 装 では、WISE[19]と 呼 ばれる 全 文 検 索 ソフトウェアを 基 礎 に 実 装 を 行 った。これは、 商 用 の 全 文 検 索ソフトウェアであり、1)データ 型 毎 の 索 引 構 築 の 機 能 、2)HTTP に 基 づく API, 3) 類 語 辞 書 による 検 索 の 拡 張などが 可 能 で、 本 レジストリの 実 装 に 必 要 な 基 本 的 な機 能 を 有 している。これに 対 して、 提 案 システム 実 現 のため、2 章 で 示したクラス 構 成 の 実 装 を 行 いながら、データ 型 索 引 の構 築 を 行 った。まず、 対 象 データの XML スキーマの基 本 データ 型 に 基 づき 索 引 を 構 築 し、あわせて 同 じタイプのスキーマ 要 素 は 統 合 した。したがって、 例 えば日 付 型 のデータはすべて 同 じ 索 引 で 管 理 され、 作 成 日付 、 修 正 日 付 、 観 測 日 付 といった 特 定 属 性 に 対 する 検索 は、それぞれのタグを 指 定 して 行 うことになる。 次に、ポリゴンなど、XML スキーマの 基 本 データ 型 では処 理 できないものや、 特 別 な 検 索 索 引 を 構 築 したい 場合 などは、 前 述 のインターフェイスに 従 って 索 引 用 のライブラリを 登 録 することで 独 自 の 索 引 を 構 築 した。本 実 装 では、ポリゴンに 対 して 範 囲 検 索 を 行 うため、R-Tree のライブラリを 基 礎 とした 索 引 を 定 義 し、 緯 度経 度 で 示 されるポリゴンをこの 索 引 に 登 録 した。さらにその 上 で、CSW の 実 装 と GEO Grid で 管 理 するためのデータの 登 録 などを 行 った。対 象 データは、GEO Grid における 衛 星 画 像 や、 地 質図 などのメタデータであり、XML のドキュメント 数 で約 130 万 件 である。スキーマは 地 理 国 際 標 準 のISO19115[18],その 国 内 標 準 の JMP2.0[21]、Web サービス 記 述 の ebRim に 基 づくもの[22]など 多 岐 にわたる。さらに、 問 い 合 わせ 側 の 機 能 として、 類 語 辞 書 を 利用 したオントロジ 検 索 を 実 装 しつつある。これは 全 文検 索 によるキーワード 検 索 において、 類 語 辞 書 を 利 用してキーワード 展 開 を 行 う 機 能 である。これにより、上 位 概 念 を 下 位 概 念 に 展 開 したり、 下 位 概 念 のキーワードに 対 して 上 位 概 念 の 用 語 を 含 んだ 結 果 を 返 すなどの 検 索 が 可 能 となる。3.4. 検 索 例検 索 条 件 例 を 図 3 に 示 す。これは CSW に 基 づき、複 数 のデータ 型 に 対 する 検 索 条 件 を 論 理 演 算 で 結 合 した 問 い 合 わせ 条 件 である。JMPcreateDate 2000‐12‐01 createDate 2008‐12‐01 cloudCoverage 20 AnyText 鹿 児 島 ows:BoundingBox128.0287 109375 30.37070312514 6.793359375 47.0259765625 図 3 検 索 条 件 例図 の XML は、createDate( 作 成 日 付 )がある 範 囲 で、(GreaterThanOrEqualTo と LessThanOrEqualTo で 指 定 )、雲 量 がある 量 以 下 のレコードをある 緯 度 経 度 範 囲(BBOX)の 中 から 求 めるものである。この 検 索 は、 日付 、 雲 量 、 全 文 、ポリゴン(BBOX)それぞれのデータ型 に 対 応 した 索 引 に 対 する 検 索 に 分 割 されて 処 理 され、AND/OR の 集 合 演 算 を 行 って 結 果 を 返 すものである。図 4 に 検 索 結 果 のメタデータの 例 を 示 す。検 索 結 果 データのスキーマ、 特 に 緯 度 経 度 に 対 する索 引 は 独 自 に 定 義 されているため、 検 索 条 件 の 与 え 方と 結 果 のデータのスキーマとが 一 致 していない 点 に 注意 されたい。


20 万 分 の1 数 値 地 質 図 幅 「 鹿 児 島 」 2004‐12‐01 002 20 万 分 の1 地 質 図 幅 は、 既 存 の 地 質 資 料 に 基 づいて、 国 土 地 理 院 発 行 の20 万 分 の1 地 勢 図 のそれぞれの 区 画 毎 に 編 集した 地 質 図 です。この 数 値 地 質 図 は、 原 資 料 である 地 質 図 を 数 値 化 したものです。CD‐ROM 編 集 総 括 : 鹿 野 和 彦 ・ 長 谷 川 功 、 表 示 システム 作 成 : 巖 谷 敏 光 ・ 川 畑 晶 、データ 編 集 : 宮 崎 純一 ・ 巖 谷 敏 光 、ベクトルデータ 作 成 : 宮 崎 純 一 ・ 中 島 和 敏 、ラスター 画 像 データ 作 成 : 川 畑 晶 、メタデータ 作 成 : 渡 辺 和 明 、 装 丁 : 中 島 和 敏 産 業 技 術 総 合 研 究 所 地 質 調 査 総 合 センター http://www.gsj.jp/HomePageJP.html 009 20 万 分 の1、ベクトル、 数 値 地 質 図 、 鹿 児 島 、 中 国 西 部 , 九 州 及 び 南 西 諸 島 、 日 本 jpn 023008 測 量 法 1960‐07‐01 003 TD / (B, L) 13013131.33333332( 以 下 略 )図 4 検 索 結 果 メタデータの 例3.5. 性 能 評 価本 システムはなお 実 装 中 であるが、 基 本 的 な 性 能 の評 価 を 行 った。 現 在 格 納 しているデータとしては、ISO19115[20]、 JMP[21]、 ebRIM[22]に 基 づくメタデータであり、それぞれの 個 数 は 1,208,718 個 と 222 個 、20 個 である。 主 としてデータ 数 の 多 い ISO に 基 づくデータで 評 価 を 行 った。 平 均 レコードサイズはハードウェアのスペックは Xeon2.66Ghz,メモリ 8GB,ディスク250GBx4( RAID0)、 OS は CentOS 64bit である。基 本 検 索 性 能 :まず、 検 索 結 果 の URL の 列 を 返 すまでの 応 答 時 間 (ms、 縦 軸 )を 評 価 した、これは 検 索 エンジンの 提 供 する 応 答 時 間 についての 基 本 性 能 である。特 に、ページング(1 度 に 取 得 する 結 果 のレコード 件数 、 横 軸 )についての 影 響 を 評 価 した。30002500200015001000500010 50 100150200250図 5.1 基 本 応 答 性 能14 件 ヒット13480 件ヒット全 件 ヒット図 5.1 のように、 結 果 データの 個 数 が 支 配 的 なため、検 索 結 果 の 個 数 に 応 じて 応 答 時 間 が 増 えるが、100 万個 程 度 の 結 果 でもおおむね 実 用 に 耐 える 応 答 時 間 である。ページングの 影 響 は 小 さい。型 ごとの 索 引 とその 論 理 演 算 : 次 に 各 データ 型 ごとの 索 引 と、その 論 理 演 算 について 評 価 した。 評 価 軸 は同 じで、 検 索 結 果 としてその 型 の 全 件 を 返 す。3000250020001500100050003000250020001500100050010 50 100150200250図 5.2 データ 型 ごとの 応 答 性 能010 50 100150200250図 5.3 5.2 の 結 果 同 士 の 論 理 演 算雲 量(FLOAT)303419 件テキスト1208718 件生 成 日 付(DATE 型419972 件 )TEXT& 雲 量TEXT& 雲 量 & 日付TEXT OR 雲量TEXT OR 雲量 OR 日 付図 5.2 および 5.3 のように、 基 本 的 にはデータ 型 に対 する 検 索 結 果 と、その 論 理 演 算 の 結 果 には 大 きな 差がない。これは、 各 索 引 からの 検 索 結 果 が 識 別 子 の 順なため、 単 純 なマージ 処 理 で 済 むからである。 図 5.3のように、この 方 法 は 多 数 の 索 引 を 用 いても 性 能 低 下が 少 なく、 索 引 の 数 に 対 するスケーラビリティがあると 考 えられる。利 用 者 定 義 の 索 引 を 含 む 性 能 : 次 に、 利 用 者 定 義 の索 引 処 理 として、ポリゴン 型 とそのオーバーラップを処 理 できる 索 引 とライブラリ[23]を 導 入 した 場 合 の 評価 を、 大 規 模 な 取 得 件 数 の 場 合 とあわせて 行 った。これは、R 木 のライブラリでは 点 の 包 含 関 係 しか 判 定 できないので、BBOX のようなジオメトリ 演 算 のためにはライブラリで 処 理 をする 必 要 があるからである。 全文 検 索 の 結 果 と、BBOX 処 理 を 結 合 し、 処 理 するレコード 数 に 対 する 応 答 時 間 を 調 べた。 結 果 を 図 6 に 示 す。


応 答 時 間 (ms)7000006000005000004000003000002000001000000( 取 得 件 数 )テキストのみ テキストANDポリゴン ポリゴンのみ図 6 大 規 模 な 取 得 を 行 った 場 合 。図 6 ではテキストのみの 場 合 とテキストとポリゴン処 理 の 場 合 の 2 本 の 線 が 殆 ど 重 なっており、 索 引 の 組み 合 わせによる 処 理 のオーバーヘッドは 小 さく、 本 実装 における 利 用 者 定 義 の 索 引 の 組 み 込 みの 問 題 点 は 少ないと 考 えられる。 一 方 、 取 得 件 数 がある 一 定 以 上 の量 になると 急 激 に 性 能 が 悪 化 する。これは 取 得 結 果 のテキストをメモリ 上 に 保 持 できないという 理 由 が 考 えられる。しかし、 一 度 に 数 万 件 を 取 得 する、という 利用 は 現 実 的 でなく、 実 用 上 の 問 題 点 としては 無 視 できると 考 えられる。4. 問 題 とまとめ本 論 文 では、データ 型 ごとの 索 引 の 定 義 機 能 に 基 づく 拡 張 可 能 な 情 報 検 索 システムとその 基 本 機 能 、 応 用システムとしての 地 理 情 報 レジストリの 実 装 について述 べた。 本 システムは、OpenLayers[24]を 用 いた UI に接 続 され、メタデータの 検 索 環 境 を 構 築 しつつあり、索 引 処 理 の 結 果 が 膨 大 な 場 合 の 最 適 化 など 改 良 を 行 う予 定 である。次 の 課 題 としてはランキングの 集 約 がある。ランキングの 集 約 は 様 々な 研 究 が 知 られているが、 一 般 に 結合 演 算 以 上 の 計 算 量 がかかるものが 多 い[17]ので、その 効 果 的 な 処 理 方 法 が 課 題 となる。また、すでに 述 べた 通 り、ページ 単 位 で 結 果 を 返 す 場 合 には、 正 確 な 結果 の 個 数 が 最 後 に 分 かるといった 欠 点 がある。実 装 の 方 向 性 としては、 格 納 対 象 データの 定 義 ファイルを 読 み 込 んで 自 動 的 に 索 引 付 けしたり、そのデータ 型 に 応 じた Parser を 結 びつけて、データ 収 集 時 にデータを 自 動 的 に 解 析 、 登 録 できるようなユーティリティなどを 提 供 することで、 応 用 の 構 築 を 容 易 にする 予定 である。5. 謝 辞日 頃 からご 議 論 いただく 情 報 技 術 研 究 部 門GEOGrid プロジェクト 関 係 諸 氏 に 深 謝 します。また、 北 川博 之 、 石 川 博 各 教 授 をはじめとする 筑 波 大 学 と 静 岡 大学 の 各 関 係 諸 氏 にも 感 謝 いたします。なお、 本 研 究 の一 部 は, 情 報 通 信 研 究 機 構 (NICT)の 委 託 研 究 「ダイナミックネットワーク 技 術 の 研 究 開 発 」および 科 研 費 「 不均 質 なペタバイト 級 時 空 間 センサデータの 統 合 利 用 基盤 」により 実 施 した.参 考 文献[1] Lucene, http://lucene.apache.org/java/docs/[2] Fast, http://www.fastsearch.co.jp[3] Rast, http://projects.netlab.jp/rast[4] HyperEstraier, http://hyperestraier.sourceforge.net/[5] Senna http://qwik.jp/senna/[6] Oracle Text,http://www.oracle.com/technology/global/jp/products/text/[7] S.Sekiguchi et al. “Design Principles and IT Overviewsof the GEO Grid”,IEEE Systems Journal, Vol2.Issue3,pp374-389, 2008.09[8] OGC Catalog Service Web,http://www.opengeospatial.org/standards/cat[9] PostgreSQL GiST and GIN index types,http://www.postgresql.org/docs/8.3/static/textsearch-indexes.html[10] S.Agrawal et al, “DBxplorer:A System forKeyword-Based Search over Relational Databases,ICDE2002,pp5-16.[11] W.Cohen,”Integration of Heterogeneous Databaseswithout Common Domains using Queries based on TextualSimilarity”,SIGMOD98,pp201-212[12] OGC Implements by Specification (Catalogue Service)http://www.opengeospatial.org/resource/products/byspec[13] A.Guttman,”R-trees: a dynamic index structure forspatial searching” SIGMOD84, pp47-57, 1984[14] GeoLucene, http://sourceforge.net/projects/geolucene[15] LocalLucene, http://sourceforge.net/projects/locallucene[16] W3C XForms Working Group,http://www.w3.org/MarkUp/Forms/[17] C.Dwork et al.”Rank aggregation methods for the Web”10 th international conference on WWW, 2001, pp613-622[18] J.A.Aslam and M.Montague, “Models forMetasearch”,24 th SIGIR,pp276-284,2001[19] WISE, http://www.bsearchtech.com/wise/[20] ISO19115/ISO19119 Application Profile for CSW2.0,OGC,04-038r2,2004[21] JMP2.0 仕 様 書 www.gsi.go.jp/common/000043123.pdf[22] CSW-ebRIM Registry Service, Part1, OGC-07-110r2,2007.[23] JTS Topology Suite:http://www.vividsolutions.com/jts/jtshome.htm[24] OpenLayers: http://openlayers.org/

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!