時系列データ類似検索方式 DIASTRA の提案と評価 DIASTRA: A ...
時系列データ類似検索方式 DIASTRA の提案と評価 DIASTRA: A ...
時系列データ類似検索方式 DIASTRA の提案と評価 DIASTRA: A ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
DEIM Forum 2011 D9-4<br />
時 系 列 データ 類 似 検 索 方 式 <strong>DIASTRA</strong> の 提 案 と 評 価<br />
†<br />
藤 野 友 也<br />
†<br />
今 村 誠<br />
†<br />
菅 野 幹 人<br />
†<br />
撫 中 達 司<br />
† 三 菱 電 機 株 式 会 社 情 報 技 術 総 合 研 究 所 〒247-8501 神 奈 川 県 鎌 倉 市 大 船 5-1-1<br />
E-mail: †{Fujino.Tomoya@cj, Imamura.Makoto@bx, Kanno.Mikihito@bc,<br />
Munaka.Tatsuji@ct}.MitsubishiElectric.co.jp<br />
あらまし 時 系 列 データの 検 索 は, 指 定 された 値 の 完 全 一 致 により 検 索 目 的 が 達 成 されることは 少 なく, 連 続 し<br />
た 値 の 系 列 ・パターンに 対 して, 類 似 性 を 評 価 して 検 索 を 行 う 必 要 がある. 本 論 文 では, 大 量 の 時 系 列 データの 局 所<br />
波 形 に 対 する 二 次 近 似 により 特 徴 を 抽 出 して 類 似 検 索 を 行 うことで, 比 較 する 時 系 列 の 類 似 判 定 を 高 速 化 し, 波 形<br />
の 概 形 に 基 づく 類 似 度 評 価 を 行 う <strong>DIASTRA</strong> 方 式 を 提 案 する.また 従 来 の 類 似 評 価 の 基 本 手 法 である Dynamic Time<br />
Warping (DTW) との 比 較 評 価 を 実 施 し,DTW を 使 用 した 類 似 検 索 よりも 1400 倍 以 上 高 速 であり,95%の 確 率 で DTW<br />
と 同 様 の 類 似 結 果 を 提 示 する 実 験 結 果 を 得 たことを 報 告 する.<br />
キーワード 類 似 検 索 , 要 約 , 時 系 列 データ<br />
<strong>DIASTRA</strong>: A Method for the Similarity Traversals of Time-Series Data<br />
Tomoya FUJINO † Makoto IMAMURA † Mikihito KANNO † and Tatsuji MUNAKA ‡<br />
†Information Technology R&D Center, Mitsubishi Electric Corporation<br />
5-1-1 Ofuna, Kamakura-shi, Kanagawa, 247-8501 Japan<br />
E-mail: †{Fujino.Tomoya@cj, Imamura.Makoto@bx, Kanno.Mikihito@bc,<br />
Munaka.Tatsuji@ct}.MitsubishiElectric.co.jp<br />
1. はじめに<br />
近 年 , 異 常 の 早 期 発 見 を 目 的 として, 工 場 やビルな<br />
どで 動 作 中 の 設 備 機 器 の 状 態 を, 常 時 観 測 する 取 組 み<br />
が 数 多 くなされている. 観 測 されたそれらのアナログ<br />
値 の 変 化 を 示 す 時 系 列 データは 一 般 に 膨 大 であるが,<br />
後 の 活 用 を 想 定 して 蓄 積 されることが 多 い. 時 系 列 デ<br />
ータの 活 用 の 際 には, 過 去 に 蓄 積 された 膨 大 な 時 系 列<br />
データの 中 から, 目 的 のパターンを 抽 出 する 検 索 を 行<br />
うことが 必 須 である.しかし, 時 系 列 データの 検 索 は,<br />
リレーショナルデータベースにおけるレコード 検 索 と<br />
は 異 なり, 指 定 された 値 の 完 全 一 致 により 検 索 目 的 が<br />
達 成 されることは 少 なく, 連 続 した 値 の 系 列 ・パターン<br />
に 対 して,ある 程 度 の 揺 らぎを 許 容 して, 完 全 一 致 で<br />
はなく 類 似 性 を 評 価 して 検 索 を 行 う 必 要 がある. 本 論<br />
文 では, 大 量 の 時 系 列 データの 局 所 波 形 に 対 する 二 次<br />
近 似 により 特 徴 を 抽 出 して 類 似 検 索 を 行 うことで, 比<br />
較 する 時 系 列 の 類 似 判 定 を 高 速 化 し, 波 形 の 概 形 に 基<br />
づく 類 似 度 評 価 を 行 う <strong>DIASTRA</strong> 方 式 を 提 案 する.<br />
2. 従 来 研 究<br />
センサ 情 報 のうち, 高 周 波 成 分 を 含 まない 波 形 を 確<br />
認 する 際 の 人 の 判 断 基 準 は, 時 系 列 方 向 の 伸 縮 に 捕 ら<br />
われずに 概 形 で 判 断 がされる.<br />
そのため, 時 系 列 データの 検 索 は,リレーショナル<br />
データベースにおけるレコード 検 索 とは 異 なり, 指 定<br />
された 値 の 完 全 一 致 により 検 索 目 的 が 達 成 されること<br />
は 少 ない. 連 続 した 値 の 系 列 ・パターンに 対 して,ある<br />
程 度 の 揺 らぎを 許 容 して, 完 全 一 致 ではなく 類 似 性 を<br />
評 価 して 検 索 を 行 う 必 要 がある.<br />
時 系 列 類 似 検 索 に 関 して 注 目 されている 技 術 とし<br />
て, 時 間 方 向 の 歪 みを 吸 収 して 類 似 判 定 を 行 い 検 索 す<br />
るダイナミックタイムワーピング (Dynamic Time<br />
Warping: DTW) 方 式 [1] が 知 られている.しかし,<br />
DTW は 一 般 にメモリと 処 理 時 間 を 多 く 要 する 動 的 計<br />
画 法 を 用 いており, 実 用 上 も 処 理 時 間 を 長 く 要 すると<br />
共 に, 外 乱 などによる 局 所 的 かつ 微 小 な 変 動 (ノイズ)<br />
に 対 しても, 類 似 判 定 の 際 に 考 慮 され, 誤 判 定 につな<br />
がるという 課 題 があった.このような DTW の 課 題 を<br />
改 善 するために, 様 々な 近 似 処 理 が 提 案 されている.<br />
処 理 時 間 に 対 して 標 準 的 に 用 いられるアイデアとして,<br />
動 的 計 画 法 において 探 索 に 使 用 する 二 次 元 配 列 の 使 用<br />
範 囲 を 適 切 に 限 定 することで, 探 索 範 囲 (ワーピング<br />
パス) を 絞 り 込 む 方 式 がある.<br />
Vlachos らは,LCSS (Longest Common SubSequence)<br />
[2] において, 通 常 算 出 時 よりも 距 離 が 短 くなるよう<br />
に, 探 索 対 象 を 限 定 する MBE ( 最 小 境 界 ) を 設 定 する
ことで, 探 索 範 囲 を 削 減 して 高 速 化 することを 提 案 し<br />
ている.また, 類 似 度 の 指 標 として,2 つの 時 系 列 中<br />
でマッチングする 部 分 の 割 合 を 採 用 している.ただし,<br />
データにパルス 状 にノイズが 存 在 する 場 合 には MBE<br />
が 適 正 に 設 定 出 来 ないという 課 題 がある.<br />
中 村 らは,AMSS (Angular Metrics for Shape<br />
Similarity) [3] において, 類 似 評 価 を 多 次 元 時 系 列 デ<br />
ータに 拡 張 し,2 系 列 の 各 点 の 組 み 合 わせに 対 するコ<br />
サイン 類 似 度 を 評 価 し, 全 体 での 類 似 度 を 算 出 するこ<br />
とで,DTW の 短 所 であるノイズによる 類 似 度 の 誤 判 定<br />
を 抑 制 している.しかし, 変 化 の 激 しいデータに 対 し<br />
てはノイズが 存 在 しない 場 合 にも 誤 判 定 が 多 いという<br />
課 題 がある.<br />
Salvador らは,FastDTW [4] において, 粒 度 の 粗 い<br />
時 間 間 隔 に 集 約 した 時 系 列 データを 評 価 し,その 結 果<br />
を 元 にして,より 粒 度 の 細 かい 時 間 間 隔 の 時 系 列 デー<br />
タに 対 してワーピングパスを 制 限 することを, 再 帰 的<br />
に 反 復 することで, 全 体 の 処 理 を 削 減 している.この<br />
手 法 は, 等 間 隔 で 粒 度 の 粗 い 時 間 間 隔 へ 要 約 する 場 合<br />
の 区 切 りの 位 置 や,ワーピングパスの 選 択 方 式 に, 精<br />
度 が 大 きく 依 存 する 点 が 課 題 である.<br />
櫻 井 らは,FTW (Fast search method for dynamic Time<br />
Warping) [5] において,k 近 傍 距 離 を 基 準 としたとき,<br />
DTW による 類 似 距 離 が 基 準 より 小 さい 場 合 には 必 ず<br />
近 似 算 出 した 類 似 距 離 が 基 準 より 小 さいことを 保 証 す<br />
ることで 検 索 精 度 を 維 持 し, 通 常 の DTW に 比 べ 処 理<br />
時 間 を 222 分 の 1 とする 性 能 を 実 現 している.<br />
Morse らは,FTSA (Fast Time Series Evaluation<br />
method) [6] において, 動 的 計 画 法 において 通 常 使 用 す<br />
るような 大 きな 二 次 元 配 列 を 使 用 せず, 後 の 計 算 に 必<br />
要 な 最 小 限 の 領 域 のみを 用 いることで, 使 用 メモリ 量<br />
をデータサイズの 線 形 に 削 減 し, 同 時 に 処 理 時 間 を 削<br />
減 している.FTSA の 貢 献 は, 主 にメモリ 使 用 量 の 削<br />
減 である.<br />
これまで 紹 介 した 既 存 技 術 は,2 つの 時 系 列 データ<br />
に 対 して, 双 方 の 全 体 としての 類 似 度 を 評 価 する, 類<br />
似 距 離 算 出 の 手 法 である. 一 方 , 長 大 な 時 系 列 データ<br />
(データシーケンス) に 対 して, 短 い 時 系 列 データ ( 問<br />
合 せシーケンス) を 与 え, 問 合 せシーケンスに 対 して<br />
類 似 距 離 が 極 小 になるようなデータシーケンスの 部 分<br />
シーケンスを 検 出 する 類 似 検 索 が 考 えられる.<br />
櫻 井 らは SPRING [7] において, 一 つの 行 列 を 更 新<br />
しながら 類 似 距 離 を 評 価 することによって,データシ<br />
ーケンスに 対 する 処 理 時 間 を 短 縮 し, 長 さ 256 の 問 い<br />
合 わせシーケンスに 対 し,DTW の 65 万 倍 の 処 理 性 能<br />
を 示 す 類 似 検 索 を 提 案 している.この 方 式 は, 単 位 時<br />
間 の 入 力 当 たり 線 形 時 間 である.<br />
上 記 に 紹 介 した 従 来 技 術 に 関 する,DTW との 性 能 評<br />
価 結 果 を 表 2 に 示 す.<br />
表 2 既 存 技 術 の 性 能 評 価 (DTW との 比 較 )<br />
技 術 名 精 度 比 時 間 性 能 実 測 時 間 比<br />
DTW [1] --- 二 乗 時 間 ---<br />
LCSS[2] 誤 差 率 2-10% 二 乗 時 間 5~ 7 倍 高 速<br />
20 データセ<br />
AMSS[3] ット 中 13 件 二 乗 時 間 評 価 無 し<br />
で 誤 差 改 善<br />
Fast 誤 差 率 0.8%<br />
DTW[4] ~ 19.2%<br />
二 乗 時 間 117 倍 高 速<br />
FTW [5] DTW と 同 等 二 乗 時 間 222 倍 高 速<br />
FTSA [6] DTW と 同 等 二 乗 時 間 7~ 8 倍 高 速<br />
SPRING<br />
[7]<br />
DTW と 同 等<br />
単 位 時 間<br />
入 力 当 たり<br />
線 形 時 間<br />
650000 倍 高<br />
速<br />
本 論 文 では, 時 系 列 データの 類 似 検 索 方 式 として,<br />
唯 一 回 答 を 必 須 とせず, 正 解 候 補 の 複 数 回 答 を 示 すこ<br />
とを 許 容 する 用 途 に 対 する, 新 しい 類 似 検 索 手 法<br />
<strong>DIASTRA</strong> (DIAgnostic Similarity TRAversal method) を<br />
提 案 する.<strong>DIASTRA</strong> では, 二 次 近 似 による 近 似 精 度 の<br />
確 保 , 要 約 要 素 に 基 づく 時 系 列 データの 区 間 分 割 , 類<br />
似 距 離 算 出 時 の 個 別 計 算 の 定 数 時 間 化 により, 近 似 類<br />
似 検 索 の 高 速 化 を 実 現 する.<br />
[ 従 来 技 術 と <strong>DIASTRA</strong> との 比 較 ]<br />
本 論 文 の 提 案 手 法 <strong>DIASTRA</strong> のアプローチは, 前 述<br />
の 従 来 技 術 の 課 題 を 考 慮 し, 以 下 の 特 徴 を 持 つ.<br />
(A) 近 似 精 度 の 確 保<br />
LCSS のように 観 測 値 に 最 小 境 界 を 設 定 し, 長 方 形<br />
の 領 域 で 粗 く 要 約 するのではなく, 区 間 内 を 二 次 近 似<br />
した 二 次 式 の 係 数 とする 新 たな 方 式 を 用 いて, 近 似 精<br />
度 を 確 保 する.この 手 法 は,パルス 状 のノイズに 対 し<br />
て 頑 強 である.また, 二 次 曲 線 近 似 を 用 いることによ<br />
り, 時 間 方 向 の 波 形 の 伸 縮 を 二 次 曲 線 の 横 軸 方 向 の 伸<br />
縮 に 置 き 換 えることができ, 類 似 評 価 が 簡 潔 となる.<br />
(B) 要 約 のための 適 応 的 な 区 間 分 割<br />
FastDTW のように 等 間 隔 で 時 間 を 区 切 るのではな<br />
く, 要 約 の 精 度 を 確 保 できるように 不 定 長 で 区 切 る 新<br />
たな 方 式 を 用 いて, 近 似 精 度 を 確 保 する.DIAPSTRA<br />
では, 区 間 の 区 切 り 幅 を, 二 次 近 似 による 誤 差 が 許 容<br />
範 囲 内 となる 区 切 り 幅 に 設 定 する.また,AMSS で 課<br />
題 となる 変 化 の 激 しいデータに 対 しても, 変 化 の 激 し<br />
い 箇 所 を 細 かい 区 間 とすることで, 精 度 を 確 保 する.<br />
(C) 類 似 検 索 にかかる 計 算 量 の 抑 制<br />
櫻 井 らの FTW, SPRINT のように, 時 系 列 データを 元<br />
の 値 系 列 のまま 動 的 計 画 法 による 探 索 対 象 とするので<br />
はなく, 区 間 を 単 位 として 動 的 計 画 法 による 探 索 対 象
とすることで, 探 索 総 数 を 大 幅 に 削 減 し, 高 速 化 を 行<br />
う.マッチングされた 区 間 同 士 の 距 離 は,2 つの 二 次<br />
曲 線 の 間 の 距 離 として, 定 数 時 間 で 算 出 可 能 である.<br />
3. 提 案 手 法<br />
3.1. 概 要<br />
我 々が 提 案 する <strong>DIASTRA</strong> 方 式 では, 時 系 列 データ<br />
を, 要 約 精 度 が 許 容 範 囲 内 となる 不 定 長 の 区 間 に 分 割<br />
し, 各 区 間 に 対 応 する 要 約 情 報 ( 以 下 , 要 約 要 素 ) を<br />
基 準 として, 類 似 検 索 に 用 いる 距 離 の 近 似 算 出 を 行 う.<br />
<strong>DIASTRA</strong> 処 理 の 流 れは, 以 下 に 示 す 通 りである.<br />
(1) 検 索 対 象 の 時 系 列 データ (データシーケンス) に<br />
ついて, 区 間 の 設 定 及 び 区 間 毎 の 二 次 近 似 による<br />
要 約 を 行 い, 要 約 要 素 の 配 列 を 得 る.( 前 処 理 )<br />
(2) 検 索 のキーとする 時 系 列 データ ( 問 合 せシーケン<br />
ス ) について, 区 間 の 設 定 および 区 間 毎 の 要 約 を<br />
行 い, 要 約 要 素 の 配 列 を 得 る.<br />
(3) データシーケンスの 要 約 要 素 配 列 の 部 分 配 列 と,<br />
問 合 せシーケンスの 要 約 要 素 配 列 とのマッチング<br />
を, 動 的 計 画 法 を 用 いて 行 い, 類 似 距 離 を 算 出 す<br />
る. 検 索 では, 問 合 せシーケンスより 大 きい 幅 の<br />
ウィンドウを,データシーケンス 上 でスライドさ<br />
せ,ウィンドウの 範 囲 を 部 分 配 列 とする.<br />
(4) 類 似 距 離 が 極 小 となるインデックスを, 類 似 箇 所<br />
として 出 力 する.<br />
動 作 概 要 を 疑 似 コードで 示 したものを, 付 録 に 記 載<br />
する. 以 下 の 節 では,それぞれの 工 程 の 中 から 特 に,<br />
(1)にあたる 二 次 近 似 による 要 約 方 式 と(3)にあたる 類<br />
似 距 離 算 出 の 方 式 について 述 べる.<br />
3.2. 二 次 近 似 による 要 約 方 式<br />
本 節 では,データシーケンスを, 二 次 近 似 が 可 能 な<br />
不 定 長 の 区 間 へ 分 割 し 要 約 する 方 式 について 述 べる.<br />
( 付 録 の 関 数 Summarize(DATA)を 参 照 )<br />
[ 二 次 近 似 による 要 約 手 順 ]<br />
1) 区 間 の 始 点 をデータシーケンスの 始 点 とする.<br />
2) 区 間 の 終 点 を 段 階 的 に 伸 張 しながら, 区 間 内 デー<br />
タの 二 次 近 似 曲 線 の 係 数 を, 伸 張 した 増 分 に 対 す<br />
る 差 分 演 算 により 算 出 し,その 誤 差 を 評 価 する.<br />
3) 二 次 近 似 誤 差 が 区 切 り 条 件 を 満 たす 最 小 のイン<br />
デックスを 区 間 区 切 りとし, 区 間 を 確 定 する.<br />
4) 確 定 区 間 の 二 次 近 似 曲 線 の 係 数 を, 始 点 ・ 終 点 情<br />
報 と 共 に 要 約 要 素 として 保 持 する.<br />
5) 確 定 区 間 の 終 点 の 次 を 新 たな 始 点 とし,2)に 戻 る.<br />
上 記 2) では, 時 刻 を x 値 ,データシーケンス 値 を y<br />
値 として 二 次 近 似 を 行 う. 要 約 要 素 としてデータシー<br />
ケンスのインデックス i に 対 する 時 刻 インデックスを<br />
x i , 時 系 列 データの 振 幅 値 を y i , 区 間 の 始 点 のインデ<br />
ックスを x S , 終 点 のインデックスを x G とおいたとき,<br />
式 (1)の 解 として 二 次 近 似 式 の 係 数 a, b, c を 得 る. 要 約<br />
要 素 は x S , x G , a, b, c である.<br />
minimize<br />
<br />
i<br />
( y<br />
i<br />
a(<br />
x x<br />
i<br />
S<br />
)<br />
2<br />
b(<br />
x x<br />
i<br />
S<br />
) c)<br />
2<br />
(1)<br />
差 分 演 算 により, 二 次 近 似 による 要 約 手 順 は 全 体 で<br />
線 形 時 間 で 処 理 される.<br />
上 記 3) の 区 切 り 条 件 は, 次 の 様 に 設 定 する. 図 1<br />
上 の 観 測 値 の 推 移 に 対 して, 区 間 の 始 点 x S を 基 点 とし,<br />
終 点 x G を 順 次 増 加 させた 場 合 の, 二 次 近 似 式 における<br />
x G に 対 応 する 二 次 近 似 誤 差 率 ( 二 乗 誤 差 / 区 間 幅 ) は<br />
図 1 下 のようになる. 区 切 り 条 件 として, 二 次 近 似 誤<br />
差 率 を 終 端 インデックス 毎 に 保 持 し, 過 去 の 誤 差 率 の<br />
平 均 値 との 差 分 が, 過 去 の 誤 差 率 の 標 準 偏 差 を 超 えた<br />
箇 所 ( 立 ち 上 がり 点 )とする. 本 論 文 では, 近 似 誤 差 評<br />
価 のインデックス 幅 の 下 限 MIN_WIDTH を 45 とした.<br />
観 測 値<br />
0.0 0.5 1.0<br />
観 測 値 推 移<br />
二 次 近 似<br />
誤 差 率<br />
0.02 0.08 0.14<br />
0 200 400 600 800<br />
2 次 曲 線 近 似<br />
誤 差 率 推 移<br />
0<br />
基 点 x s<br />
立 ち 上 がり 点 を<br />
x G として 確 定<br />
200 400 600 800<br />
終 端 点 x G<br />
( 候 補 )
図 1 観 測 値 に 対 する 二 次 近 似 誤 差 率 の 評 価<br />
観 測 値<br />
0.0 0.5 1.0<br />
0 200 400 600 800<br />
図 2 区 間 分 割 結 果 例<br />
図 2 に,データシーケンスに 対 する 区 間 分 割 の 結 果<br />
例 を 示 す.<br />
<strong>DIASTRA</strong> では, 要 約 要 素 数 が 多 いほど 近 似 精 度 は 高<br />
まるが, 処 理 時 間 は 要 約 要 素 数 の 二 乗 に 比 例 するオー<br />
ダーで 増 加 するトレードオフが 発 生 する.そのため,<br />
元 データに 対 してどの 程 度 の 細 かさで 要 約 要 素 に 分 割<br />
されるように, 誤 差 率 立 ち 上 がりの 判 定 基 準 を 設 定 す<br />
るかは, 問 題 に 応 じて 調 整 する 運 用 が 求 められる.<br />
3.3. 類 似 距 離 算 出<br />
本 節 では, 要 約 要 素 の 配 列 同 士 からの 類 似 距 離 の 算<br />
出 方 式 について 述 べる.( 付 録 の 関 数 GetDistance(ONE,<br />
ANOTHER)を 参 照 )<br />
距 離 算 出 には, 最 初 に 要 約 要 素 の 配 列 同 士 でマッチ<br />
ングを 行 い,マッチングされた 要 約 要 素 同 士 の 距 離 を<br />
算 出 し,それらの 総 和 を 全 体 の 類 似 距 離 とする.<br />
要 約 要 素 のマッチングは, 個 数 の 異 なる 要 素 のマッ<br />
チングとなるため, 動 的 計 画 法 を 用 いて 行 う.マッチ<br />
ングは 多 対 一 の 対 応 付 けを 許 し, 系 列 の 順 番 が 逆 転 す<br />
る 対 応 付 けは 行 わない.<br />
要 約 要 素 同 士 の 距 離 算 出 では, 要 約 要 素 に 対 応 する<br />
2 つの 二 次 曲 線 の 定 義 域 を 0 以 上 1 以 下 に 正 規 化 し,<br />
差 の 二 乗 値 の 積 分 値 の 平 方 根 を 距 離 とする.これは 定<br />
数 時 間 で 算 出 可 能 である.それぞれの 要 約 要 素 の 定 義<br />
域 正 規 化 後 の 係 数 の 差 を a , b , c とおくと, 距 離 D<br />
は 以 下 の 式 (2) で 定 数 時 間 にて 求 められる.<br />
1<br />
<br />
2<br />
D ax<br />
b<br />
x c<br />
dx<br />
0<br />
2<br />
2<br />
a<br />
ab<br />
b<br />
2ac<br />
<br />
5 2 3 3<br />
<br />
2<br />
b c<br />
<br />
<br />
c<br />
2<br />
<br />
(2)<br />
4. 評 価<br />
本 章 での 評 価 は, 基 本 となる DTW と 比 較 した 精 度<br />
及 び 時 間 性 能 の 評 価 を 行 う.<br />
検 索 対 象 のデータとして, UCI KDD Archive [8] の<br />
海 水 温 度 推 移 データ tao-all2.dat を 使 用 .s.s.temp. (sea<br />
surface temperature) 項 目 の 値 で, 欠 損 値 を 除 外 した 先<br />
頭 85000 件 を 評 価 用 のデータシーケンスとした. 評 価<br />
用 の 問 合 せシーケンスは,データシーケンスの 部 分 デ<br />
ータに 時 間 方 向 の 変 調 をかけたものとした.<br />
問 合 せシーケンスとするためのデータシーケンス<br />
の 切 り 出 し 箇 所 は,データシーケンスの 後 半 を 等 間 隔<br />
に 区 切 った 10 箇 所 とし, 抽 出 長 は 5000 とする.<br />
また 評 価 では, 複 数 回 答 を 許 容 する 用 途 での 使 用 を<br />
前 提 とし, 複 数 回 答 の 件 数 に 対 する 精 度 と, 高 速 化 の<br />
効 果 について 示 す. 応 用 上 , 状 態 監 視 において, 類 似<br />
検 索 の 精 度 は 用 途 に 応 じて 95%~ 99%の 範 囲 で 求 めら<br />
れることが 多 いため, 評 価 も 上 記 の 範 囲 の 精 度 を 達 成<br />
するか 否 かを 基 本 として 評 価 を 行 う.<br />
4.1. 精 度 評 価<br />
10 種 類 の 問 合 せシーケンスに 対 して, 変 調 ( 時 間 方<br />
向 の 伸 縮 ) およびノイズの 付 与 を 行 い, 抽 出 箇 所 が 類<br />
似 箇 所 と 判 定 される 精 度 を 評 価 する.<br />
時 間 方 向 に 問 合 せシーケンス 系 列 を 伸 縮 する 変 調<br />
方 式 は, 以 下 の 4 種 類 とする.<br />
(1) 変 調 方 式 1: 変 調 を 行 わない.<br />
(2) 変 調 方 式 2: 時 間 方 向 に 全 体 を 1.1 倍 する.<br />
(3) 変 調 方 式 3: 問 合 せシーケンスを 等 分 し, 前 半 を<br />
0.9 倍 , 後 半 を 1.1 倍 に 時 間 方 向 に 伸 縮 する.<br />
(4) 変 調 方 式 4: 時 間 方 向 に, 問 合 せシーケンスを 10<br />
箇 所 に 等 分 割 し,それぞれ 0.9 倍 ~1.1 倍 の 範 囲 で,<br />
正 弦 波 と 同 じ 変 動 倍 率 で 時 間 方 向 に 伸 縮 する.<br />
変 調 方 式 4 変 調 方 式 3 変 調 方 式 2 変 調 方 式 1<br />
-1.0 0.0 0.5 -1.0 0.0 0.5 -1.0 0.0 0.5 -1.0 0.0 0.5 1.0<br />
0 500 1000 1500<br />
経 過 時 間<br />
図 3 変 調 方 式<br />
なお, 正 弦 波 を 各 方 式 で 変 調 した 場 合 のイメージを<br />
図 3 に 示 す.( 図 3 では 変 化 率 を 5 倍 にしている)<br />
一 方 , 各 問 合 せシーケンスに 付 与 するノイズは, 問<br />
合 せシーケンス 系 列 の 値 が 取 る 範 囲 幅 に 対 して 0%か
ら 5% 未 満 の 10 段 階 とし,それぞれの 段 階 の 範 囲 幅 比<br />
率 を 最 大 幅 とする 一 様 乱 数 を, 問 合 せシーケンス 系 列<br />
に 加 算 して 評 価 する.<br />
精 度 評 価 は, 問 合 せシーケンス 番 号 , 変 調 方 式 ,ノ<br />
イズレベルごとの 検 索 数 400 件 と, 類 似 検 索 結 果 のヒ<br />
ット 数 の 比 で 評 価 する.なおここでは, 類 似 判 定 の 特<br />
性 上 , 問 合 せシーケンスの 検 索 位 置 にずれがあること<br />
を 考 慮 し, 問 合 せシーケンスを 抽 出 したインデックス<br />
の 前 後 2500 の 範 囲 に, 類 似 検 索 結 果 のインデックスが<br />
存 在 する 場 合 をヒットとした.<br />
ヒットと 見 なす 上 位 件 数 を 1 から 15 まで 変 更 した<br />
場 合 のヒット 率 の 推 移 を 表 3 および 図 4 に 示 す.DTW<br />
による 検 索 では,いずれのケースでもヒット 率 は 1.00<br />
であった.DTW で 検 出 した 事 例 の 取 り 漏 らしは, 特 に<br />
変 調 方 式 4 において 発 生 しており, 二 次 曲 線 近 似 の 区<br />
間 内 での 時 間 伸 縮 率 の 変 化 によるものと 推 定 される.<br />
ヒット 率<br />
0.95 0.96 0.97 0.98 0.99 1.00<br />
2 4 6 8 10 12 14<br />
上 位 件 数<br />
図 4 上 位 件 数 に 対 するヒット 率<br />
類 似 距 離 最 小 の 箇 所 のみ 採 用 ( 上 位 件 数 1 件 ) の 場<br />
合 には 95.8%の 確 率 でヒットしており, 上 位 6 件 以 上<br />
の 場 合 は 99.0%のヒット 率 が 得 られている.このこと<br />
より, 実 用 上 必 要 とされる 精 度 95% 以 上 を 満 たす 運 用<br />
が 可 能 であることを 確 認 した.<br />
4.2. 時 間 性 能 評 価<br />
表 3 に 示 す 実 行 環 境 にて, 時 間 性 能 評 価 を 実 施 した.<br />
表 3 性 能 評 価 環 境<br />
CPU Intel Xeon (3.20GHz×2)<br />
OS Microsoft Windows Server 2003 SP2<br />
Memory 6GB<br />
HDD 73GB, 10000rpm, Ultra320 ×4<br />
本 節 では, 4.1 節 と 同 じ 10 種 類 の 問 い 合 わせシーケ<br />
ンスに 対 する 類 似 検 索 時 間 を 評 価 する.なお 本 評 価 で<br />
は DTW の 検 索 時 の 走 査 ウィンドウを 一 度 に 100 イン<br />
デックス 移 動 するように 間 引 くよう 設 定 した.<br />
上 記 条 件 にて 検 索 処 理 を 行 った 処 理 時 間 を, 表 4 に<br />
示 す.(<strong>DIASTRA</strong> については, 要 約 処 理 の 時 間 を 含 む)<br />
表 4 処 理 時 間 評 価 結 果<br />
Key 要 約<br />
処 理<br />
<strong>DIASTRA</strong> DTW<br />
No. 要 素 数<br />
時 間 比<br />
1 78 1.44 秒 2022 秒 1406<br />
2 72 1.22 秒 2022 秒 1659<br />
3 65 1.03 秒 2027 秒 1964<br />
4 64 0.99 秒 2203 秒 2237<br />
5 66 0.99 秒 2012 秒 2042<br />
6 70 1.05 秒 2025 秒 1936<br />
7 78 1.44 秒 2015 秒 1401<br />
8 69 1.14 秒 2027 秒 1777<br />
9 68 1.11 秒 2022 秒 1822<br />
10 64 0.97 秒 2022 秒 2086<br />
いずれも,DTW の 処 理 時 間 に 対 して 1400 倍 ~2200<br />
倍 の 性 能 を 確 保 している. 従 来 手 法 である FTW と 比<br />
較 して 5 倍 ~10 倍 の 時 間 処 理 性 能 を 示 した.<br />
このように,<strong>DIASTRA</strong> により,DTW と 比 較 して 応<br />
用 上 必 要 な 精 度 を 維 持 しつつ, 処 理 速 度 が 大 幅 に 改 善<br />
されることを 確 認 した.<br />
5. まとめ<br />
本 論 文 では,データシーケンスを 二 次 近 似 誤 差 が 極<br />
小 となる 不 定 長 の 区 間 へ 分 割 し 要 約 することにより,<br />
検 索 時 の 類 似 距 離 の 評 価 時 間 を 削 減 し 高 速 化 する 類 似<br />
検 索 方 式 <strong>DIASTRA</strong> を 提 案 した.<br />
<strong>DIASTRA</strong> による 実 データの 類 似 検 索 の 精 度 検 証 に<br />
より,ヒット 率 が 単 一 回 答 のみの 場 合 に 95.8%, 6 件<br />
の 回 答 を 許 容 する 場 合 に 99.0% を 示 すことを 確 認 し<br />
た.また 問 合 せシーケンス 長 が 5000 の 場 合 の 検 索 時 間<br />
比 較 について,DTW に 対 する 通 常 の 実 装 にて 100 分 の<br />
1 に 間 引 いた 検 索 処 理 に 対 しても, 要 約 処 理 および 検<br />
索 時 間 に 要 する 時 間 を 合 わせて 1400 倍 以 上 の 性 能 を<br />
確 保 していることを 確 認 した.<br />
課 題 として, 本 評 価 結 果 は SPRING 以 外 の 従 来 手 法<br />
に 対 しては 処 理 時 間 面 での 改 善 が 得 られているが,<br />
SPRING による 問 合 せシーケンス 長 256 に 対 する 性 能<br />
評 価 650000 倍 という 性 能 には 及 んでおらず, 同 一 条<br />
件 での 追 加 評 価 を 実 施 する 必 要 がある.<br />
提 案 技 術 は, 単 体 を 類 似 結 果 として 提 示 するのでは<br />
なく, 結 果 の 候 補 を 複 数 表 示 する 補 遺 的 なシステムへ<br />
の 導 入 を 想 定 しており, 精 度 と 処 理 速 度 のトレードオ<br />
フを 考 慮 して 運 用 を 行 っていく.<br />
参 考 文 献<br />
[1] Myers C., and Rabiner L., “A Level Building<br />
Dynamic Time Warping Algorithm for Connected<br />
Word Recognition,” Proc. ASSP-29, pp.284-296, Apr.<br />
1981.
[2] M. Vlachos, M. Hadjieleftheriou, D. Gunopulos, E.<br />
Keogh. Indexing Multi-dimensional Time-series with<br />
Support for Multiple Distance Measures, Proc. of<br />
ACM SIGKDD, pp.216-225,2003.<br />
[3] 中 村 , 瀧 , 野 宮 , 上 原 .AMSS: 時 系 列 データの<br />
効 率 的 な 類 似 度 測 定 手 法 , 電 子 情 報 通 信 学 会 論 文<br />
誌 ,D, Vol. J91-D, No.11, pp.2579-2588, 2008.<br />
[4] S. Salvador and P. Chan. FastDTW: Toward Accurate<br />
Dynamic Time Warping in Linear Time and Space.<br />
TDM 2004.<br />
[5] Sakurai Y., Yoshikawa M., and Christos F., FTW: fast<br />
similarity search under the time warping distance,<br />
Proc. PODS, pp.326-337, Jun. 2005.<br />
[6] M. Morse, J.M. Patel. An Efficient and Accurate<br />
Method for Evaluating Time Series Similarity. Proc.<br />
of ACM SIGMOD 2007, 2007.<br />
[7] 櫻 井 , Faloutsos, 山 室 , ダイナミックタイムワー<br />
ピング 距 離 に 基 づくストリーム 処 理 , DEWS2007<br />
L6-5, 2007.<br />
[8] UCI KDD Archive :<br />
http://kdd.ics.uci.edu/databases/el_nino/el_nino.html<br />
付 録 ( 各 処 理 の 擬 似 コード)<br />
[ 入 力 ]<br />
STREAM: データシーケンス<br />
KEY: 問 合 せシーケンス<br />
NUM: 考 慮 する 類 似 上 位 件 数<br />
# 上 位 NUM 件 までの 類 似 判 定 箇 所 を 返 す<br />
Algorithm SimilaritySearch(STREAM, KEY, NUM)<br />
list := SimilarityEvaluation(STREAM, KEY)<br />
return list[1...NUM] のインデックス 情 報<br />
# 時 系 列 データの 各 箇 所 の 類 似 評 価 距 離 を 返 す<br />
# STREAM, KEY は 時 系 列 データ<br />
Algorithm SimilarityEvaluation(STREAM, KEY)<br />
S_sum := Summarize(STREAM)<br />
K_sum := Summarize(KEY)<br />
distance_list = NULL<br />
# 空 のリスト<br />
for idx:=0 to Length(STREAM)-WINDOW_WIDTH do<br />
end_idx := idx+WINDOW_WIDTH-1<br />
sub_S_sum := STREAM[idx...end_idx]<br />
distance := GetDistance(sub_S_sum, K_sum)<br />
distance_list に {distance, idx}を 追 加<br />
endfor<br />
sorted_distance_list := Sort(distance_list)<br />
return sorted_distance_list<br />
# 時 系 列 データを 要 約 要 素 の 配 列 へ 変 換 する<br />
# DATA は 時 系 列 データ<br />
Algorithm Summarize(DATA)<br />
summary := NULL<br />
begin_idx = 0<br />
# 要 約 要 素 のリスト<br />
end_idx := MIN_WIDTH<br />
prev_fit_info := NULL<br />
while end_idx < Length(DATA) do<br />
if prev_fit_info = NULL then<br />
fit_info := QuadraticFit(Data[begin_idx...end_idx])<br />
else<br />
diff_data := Data[end_idx]<br />
fit_info := DiffQuadFit(diff_data, prev_fit_info)<br />
endif<br />
if fit_info による 近 似 誤 差 が 許 容 範 囲 外 then<br />
summary に {fit_info, begin_idx, end_idx}を 追 加<br />
prev_fit_info := NULL<br />
beginning_idx := end_idx+1<br />
end_idx := begin_idx+MIN_WIDTH<br />
else<br />
prev_fit_info := fit_info<br />
end_idx := end_idx+1<br />
endif<br />
endwhile<br />
return summary<br />
# 要 約 要 素 の 配 列 間 の 距 離 を 返 す<br />
# ONE, ANOTHER はいずれも 要 約 要 素 の 配 列<br />
Algorithm GetDistance (ONE, ANOTHER)<br />
min_distance := INFINITY<br />
foreach m in DPMatching(ONE, ANOTHER) do<br />
# m は ONE の 要 素 と ANOTHER の 要 素 との<br />
# マッチングの 一 つ<br />
distance := 0<br />
foreach {o, a} in m do<br />
# マッチング m において,ONE の 要 素 o と<br />
# ANOTHER の 要 素 a とがマッチ<br />
distance += GetElementalDistance(o, a)<br />
endforeach<br />
if distance < min_distance then<br />
min_distance := distance<br />
endif<br />
endforeach<br />
return min_distance<br />
[ 定 数 ]<br />
WINDOW_WIDTH: 検 索 時 のウィンドウ 幅<br />
MIN_WIDTH: 近 似 誤 差 を 評 価 する 最 小 データ 数<br />
[ 関 数 ] ( 以 下 の 関 数 の 擬 似 コードは 割 愛 する)<br />
QuadraticFit: 二 次 関 数 近 似 を 行 う 関 数<br />
DiffQuadFit: 増 分 から 二 次 関 数 近 似 を 更 新 する 関 数<br />
DPMatching: 2 つの 配 列 の 可 能 なマッチングのリス<br />
トを 返 す 関 数