24.10.2014 Views

時系列データ類似検索方式 DIASTRA の提案と評価 DIASTRA: A ...

時系列データ類似検索方式 DIASTRA の提案と評価 DIASTRA: A ...

時系列データ類似検索方式 DIASTRA の提案と評価 DIASTRA: A ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

DEIM Forum 2011 D9-4<br />

時 系 列 データ 類 似 検 索 方 式 <strong>DIASTRA</strong> の 提 案 と 評 価<br />

†<br />

藤 野 友 也<br />

†<br />

今 村 誠<br />

†<br />

菅 野 幹 人<br />

†<br />

撫 中 達 司<br />

† 三 菱 電 機 株 式 会 社 情 報 技 術 総 合 研 究 所 〒247-8501 神 奈 川 県 鎌 倉 市 大 船 5-1-1<br />

E-mail: †{Fujino.Tomoya@cj, Imamura.Makoto@bx, Kanno.Mikihito@bc,<br />

Munaka.Tatsuji@ct}.MitsubishiElectric.co.jp<br />

あらまし 時 系 列 データの 検 索 は, 指 定 された 値 の 完 全 一 致 により 検 索 目 的 が 達 成 されることは 少 なく, 連 続 し<br />

た 値 の 系 列 ・パターンに 対 して, 類 似 性 を 評 価 して 検 索 を 行 う 必 要 がある. 本 論 文 では, 大 量 の 時 系 列 データの 局 所<br />

波 形 に 対 する 二 次 近 似 により 特 徴 を 抽 出 して 類 似 検 索 を 行 うことで, 比 較 する 時 系 列 の 類 似 判 定 を 高 速 化 し, 波 形<br />

の 概 形 に 基 づく 類 似 度 評 価 を 行 う <strong>DIASTRA</strong> 方 式 を 提 案 する.また 従 来 の 類 似 評 価 の 基 本 手 法 である Dynamic Time<br />

Warping (DTW) との 比 較 評 価 を 実 施 し,DTW を 使 用 した 類 似 検 索 よりも 1400 倍 以 上 高 速 であり,95%の 確 率 で DTW<br />

と 同 様 の 類 似 結 果 を 提 示 する 実 験 結 果 を 得 たことを 報 告 する.<br />

キーワード 類 似 検 索 , 要 約 , 時 系 列 データ<br />

<strong>DIASTRA</strong>: A Method for the Similarity Traversals of Time-Series Data<br />

Tomoya FUJINO † Makoto IMAMURA † Mikihito KANNO † and Tatsuji MUNAKA ‡<br />

†Information Technology R&D Center, Mitsubishi Electric Corporation<br />

5-1-1 Ofuna, Kamakura-shi, Kanagawa, 247-8501 Japan<br />

E-mail: †{Fujino.Tomoya@cj, Imamura.Makoto@bx, Kanno.Mikihito@bc,<br />

Munaka.Tatsuji@ct}.MitsubishiElectric.co.jp<br />

1. はじめに<br />

近 年 , 異 常 の 早 期 発 見 を 目 的 として, 工 場 やビルな<br />

どで 動 作 中 の 設 備 機 器 の 状 態 を, 常 時 観 測 する 取 組 み<br />

が 数 多 くなされている. 観 測 されたそれらのアナログ<br />

値 の 変 化 を 示 す 時 系 列 データは 一 般 に 膨 大 であるが,<br />

後 の 活 用 を 想 定 して 蓄 積 されることが 多 い. 時 系 列 デ<br />

ータの 活 用 の 際 には, 過 去 に 蓄 積 された 膨 大 な 時 系 列<br />

データの 中 から, 目 的 のパターンを 抽 出 する 検 索 を 行<br />

うことが 必 須 である.しかし, 時 系 列 データの 検 索 は,<br />

リレーショナルデータベースにおけるレコード 検 索 と<br />

は 異 なり, 指 定 された 値 の 完 全 一 致 により 検 索 目 的 が<br />

達 成 されることは 少 なく, 連 続 した 値 の 系 列 ・パターン<br />

に 対 して,ある 程 度 の 揺 らぎを 許 容 して, 完 全 一 致 で<br />

はなく 類 似 性 を 評 価 して 検 索 を 行 う 必 要 がある. 本 論<br />

文 では, 大 量 の 時 系 列 データの 局 所 波 形 に 対 する 二 次<br />

近 似 により 特 徴 を 抽 出 して 類 似 検 索 を 行 うことで, 比<br />

較 する 時 系 列 の 類 似 判 定 を 高 速 化 し, 波 形 の 概 形 に 基<br />

づく 類 似 度 評 価 を 行 う <strong>DIASTRA</strong> 方 式 を 提 案 する.<br />

2. 従 来 研 究<br />

センサ 情 報 のうち, 高 周 波 成 分 を 含 まない 波 形 を 確<br />

認 する 際 の 人 の 判 断 基 準 は, 時 系 列 方 向 の 伸 縮 に 捕 ら<br />

われずに 概 形 で 判 断 がされる.<br />

そのため, 時 系 列 データの 検 索 は,リレーショナル<br />

データベースにおけるレコード 検 索 とは 異 なり, 指 定<br />

された 値 の 完 全 一 致 により 検 索 目 的 が 達 成 されること<br />

は 少 ない. 連 続 した 値 の 系 列 ・パターンに 対 して,ある<br />

程 度 の 揺 らぎを 許 容 して, 完 全 一 致 ではなく 類 似 性 を<br />

評 価 して 検 索 を 行 う 必 要 がある.<br />

時 系 列 類 似 検 索 に 関 して 注 目 されている 技 術 とし<br />

て, 時 間 方 向 の 歪 みを 吸 収 して 類 似 判 定 を 行 い 検 索 す<br />

るダイナミックタイムワーピング (Dynamic Time<br />

Warping: DTW) 方 式 [1] が 知 られている.しかし,<br />

DTW は 一 般 にメモリと 処 理 時 間 を 多 く 要 する 動 的 計<br />

画 法 を 用 いており, 実 用 上 も 処 理 時 間 を 長 く 要 すると<br />

共 に, 外 乱 などによる 局 所 的 かつ 微 小 な 変 動 (ノイズ)<br />

に 対 しても, 類 似 判 定 の 際 に 考 慮 され, 誤 判 定 につな<br />

がるという 課 題 があった.このような DTW の 課 題 を<br />

改 善 するために, 様 々な 近 似 処 理 が 提 案 されている.<br />

処 理 時 間 に 対 して 標 準 的 に 用 いられるアイデアとして,<br />

動 的 計 画 法 において 探 索 に 使 用 する 二 次 元 配 列 の 使 用<br />

範 囲 を 適 切 に 限 定 することで, 探 索 範 囲 (ワーピング<br />

パス) を 絞 り 込 む 方 式 がある.<br />

Vlachos らは,LCSS (Longest Common SubSequence)<br />

[2] において, 通 常 算 出 時 よりも 距 離 が 短 くなるよう<br />

に, 探 索 対 象 を 限 定 する MBE ( 最 小 境 界 ) を 設 定 する


ことで, 探 索 範 囲 を 削 減 して 高 速 化 することを 提 案 し<br />

ている.また, 類 似 度 の 指 標 として,2 つの 時 系 列 中<br />

でマッチングする 部 分 の 割 合 を 採 用 している.ただし,<br />

データにパルス 状 にノイズが 存 在 する 場 合 には MBE<br />

が 適 正 に 設 定 出 来 ないという 課 題 がある.<br />

中 村 らは,AMSS (Angular Metrics for Shape<br />

Similarity) [3] において, 類 似 評 価 を 多 次 元 時 系 列 デ<br />

ータに 拡 張 し,2 系 列 の 各 点 の 組 み 合 わせに 対 するコ<br />

サイン 類 似 度 を 評 価 し, 全 体 での 類 似 度 を 算 出 するこ<br />

とで,DTW の 短 所 であるノイズによる 類 似 度 の 誤 判 定<br />

を 抑 制 している.しかし, 変 化 の 激 しいデータに 対 し<br />

てはノイズが 存 在 しない 場 合 にも 誤 判 定 が 多 いという<br />

課 題 がある.<br />

Salvador らは,FastDTW [4] において, 粒 度 の 粗 い<br />

時 間 間 隔 に 集 約 した 時 系 列 データを 評 価 し,その 結 果<br />

を 元 にして,より 粒 度 の 細 かい 時 間 間 隔 の 時 系 列 デー<br />

タに 対 してワーピングパスを 制 限 することを, 再 帰 的<br />

に 反 復 することで, 全 体 の 処 理 を 削 減 している.この<br />

手 法 は, 等 間 隔 で 粒 度 の 粗 い 時 間 間 隔 へ 要 約 する 場 合<br />

の 区 切 りの 位 置 や,ワーピングパスの 選 択 方 式 に, 精<br />

度 が 大 きく 依 存 する 点 が 課 題 である.<br />

櫻 井 らは,FTW (Fast search method for dynamic Time<br />

Warping) [5] において,k 近 傍 距 離 を 基 準 としたとき,<br />

DTW による 類 似 距 離 が 基 準 より 小 さい 場 合 には 必 ず<br />

近 似 算 出 した 類 似 距 離 が 基 準 より 小 さいことを 保 証 す<br />

ることで 検 索 精 度 を 維 持 し, 通 常 の DTW に 比 べ 処 理<br />

時 間 を 222 分 の 1 とする 性 能 を 実 現 している.<br />

Morse らは,FTSA (Fast Time Series Evaluation<br />

method) [6] において, 動 的 計 画 法 において 通 常 使 用 す<br />

るような 大 きな 二 次 元 配 列 を 使 用 せず, 後 の 計 算 に 必<br />

要 な 最 小 限 の 領 域 のみを 用 いることで, 使 用 メモリ 量<br />

をデータサイズの 線 形 に 削 減 し, 同 時 に 処 理 時 間 を 削<br />

減 している.FTSA の 貢 献 は, 主 にメモリ 使 用 量 の 削<br />

減 である.<br />

これまで 紹 介 した 既 存 技 術 は,2 つの 時 系 列 データ<br />

に 対 して, 双 方 の 全 体 としての 類 似 度 を 評 価 する, 類<br />

似 距 離 算 出 の 手 法 である. 一 方 , 長 大 な 時 系 列 データ<br />

(データシーケンス) に 対 して, 短 い 時 系 列 データ ( 問<br />

合 せシーケンス) を 与 え, 問 合 せシーケンスに 対 して<br />

類 似 距 離 が 極 小 になるようなデータシーケンスの 部 分<br />

シーケンスを 検 出 する 類 似 検 索 が 考 えられる.<br />

櫻 井 らは SPRING [7] において, 一 つの 行 列 を 更 新<br />

しながら 類 似 距 離 を 評 価 することによって,データシ<br />

ーケンスに 対 する 処 理 時 間 を 短 縮 し, 長 さ 256 の 問 い<br />

合 わせシーケンスに 対 し,DTW の 65 万 倍 の 処 理 性 能<br />

を 示 す 類 似 検 索 を 提 案 している.この 方 式 は, 単 位 時<br />

間 の 入 力 当 たり 線 形 時 間 である.<br />

上 記 に 紹 介 した 従 来 技 術 に 関 する,DTW との 性 能 評<br />

価 結 果 を 表 2 に 示 す.<br />

表 2 既 存 技 術 の 性 能 評 価 (DTW との 比 較 )<br />

技 術 名 精 度 比 時 間 性 能 実 測 時 間 比<br />

DTW [1] --- 二 乗 時 間 ---<br />

LCSS[2] 誤 差 率 2-10% 二 乗 時 間 5~ 7 倍 高 速<br />

20 データセ<br />

AMSS[3] ット 中 13 件 二 乗 時 間 評 価 無 し<br />

で 誤 差 改 善<br />

Fast 誤 差 率 0.8%<br />

DTW[4] ~ 19.2%<br />

二 乗 時 間 117 倍 高 速<br />

FTW [5] DTW と 同 等 二 乗 時 間 222 倍 高 速<br />

FTSA [6] DTW と 同 等 二 乗 時 間 7~ 8 倍 高 速<br />

SPRING<br />

[7]<br />

DTW と 同 等<br />

単 位 時 間<br />

入 力 当 たり<br />

線 形 時 間<br />

650000 倍 高<br />

速<br />

本 論 文 では, 時 系 列 データの 類 似 検 索 方 式 として,<br />

唯 一 回 答 を 必 須 とせず, 正 解 候 補 の 複 数 回 答 を 示 すこ<br />

とを 許 容 する 用 途 に 対 する, 新 しい 類 似 検 索 手 法<br />

<strong>DIASTRA</strong> (DIAgnostic Similarity TRAversal method) を<br />

提 案 する.<strong>DIASTRA</strong> では, 二 次 近 似 による 近 似 精 度 の<br />

確 保 , 要 約 要 素 に 基 づく 時 系 列 データの 区 間 分 割 , 類<br />

似 距 離 算 出 時 の 個 別 計 算 の 定 数 時 間 化 により, 近 似 類<br />

似 検 索 の 高 速 化 を 実 現 する.<br />

[ 従 来 技 術 と <strong>DIASTRA</strong> との 比 較 ]<br />

本 論 文 の 提 案 手 法 <strong>DIASTRA</strong> のアプローチは, 前 述<br />

の 従 来 技 術 の 課 題 を 考 慮 し, 以 下 の 特 徴 を 持 つ.<br />

(A) 近 似 精 度 の 確 保<br />

LCSS のように 観 測 値 に 最 小 境 界 を 設 定 し, 長 方 形<br />

の 領 域 で 粗 く 要 約 するのではなく, 区 間 内 を 二 次 近 似<br />

した 二 次 式 の 係 数 とする 新 たな 方 式 を 用 いて, 近 似 精<br />

度 を 確 保 する.この 手 法 は,パルス 状 のノイズに 対 し<br />

て 頑 強 である.また, 二 次 曲 線 近 似 を 用 いることによ<br />

り, 時 間 方 向 の 波 形 の 伸 縮 を 二 次 曲 線 の 横 軸 方 向 の 伸<br />

縮 に 置 き 換 えることができ, 類 似 評 価 が 簡 潔 となる.<br />

(B) 要 約 のための 適 応 的 な 区 間 分 割<br />

FastDTW のように 等 間 隔 で 時 間 を 区 切 るのではな<br />

く, 要 約 の 精 度 を 確 保 できるように 不 定 長 で 区 切 る 新<br />

たな 方 式 を 用 いて, 近 似 精 度 を 確 保 する.DIAPSTRA<br />

では, 区 間 の 区 切 り 幅 を, 二 次 近 似 による 誤 差 が 許 容<br />

範 囲 内 となる 区 切 り 幅 に 設 定 する.また,AMSS で 課<br />

題 となる 変 化 の 激 しいデータに 対 しても, 変 化 の 激 し<br />

い 箇 所 を 細 かい 区 間 とすることで, 精 度 を 確 保 する.<br />

(C) 類 似 検 索 にかかる 計 算 量 の 抑 制<br />

櫻 井 らの FTW, SPRINT のように, 時 系 列 データを 元<br />

の 値 系 列 のまま 動 的 計 画 法 による 探 索 対 象 とするので<br />

はなく, 区 間 を 単 位 として 動 的 計 画 法 による 探 索 対 象


とすることで, 探 索 総 数 を 大 幅 に 削 減 し, 高 速 化 を 行<br />

う.マッチングされた 区 間 同 士 の 距 離 は,2 つの 二 次<br />

曲 線 の 間 の 距 離 として, 定 数 時 間 で 算 出 可 能 である.<br />

3. 提 案 手 法<br />

3.1. 概 要<br />

我 々が 提 案 する <strong>DIASTRA</strong> 方 式 では, 時 系 列 データ<br />

を, 要 約 精 度 が 許 容 範 囲 内 となる 不 定 長 の 区 間 に 分 割<br />

し, 各 区 間 に 対 応 する 要 約 情 報 ( 以 下 , 要 約 要 素 ) を<br />

基 準 として, 類 似 検 索 に 用 いる 距 離 の 近 似 算 出 を 行 う.<br />

<strong>DIASTRA</strong> 処 理 の 流 れは, 以 下 に 示 す 通 りである.<br />

(1) 検 索 対 象 の 時 系 列 データ (データシーケンス) に<br />

ついて, 区 間 の 設 定 及 び 区 間 毎 の 二 次 近 似 による<br />

要 約 を 行 い, 要 約 要 素 の 配 列 を 得 る.( 前 処 理 )<br />

(2) 検 索 のキーとする 時 系 列 データ ( 問 合 せシーケン<br />

ス ) について, 区 間 の 設 定 および 区 間 毎 の 要 約 を<br />

行 い, 要 約 要 素 の 配 列 を 得 る.<br />

(3) データシーケンスの 要 約 要 素 配 列 の 部 分 配 列 と,<br />

問 合 せシーケンスの 要 約 要 素 配 列 とのマッチング<br />

を, 動 的 計 画 法 を 用 いて 行 い, 類 似 距 離 を 算 出 す<br />

る. 検 索 では, 問 合 せシーケンスより 大 きい 幅 の<br />

ウィンドウを,データシーケンス 上 でスライドさ<br />

せ,ウィンドウの 範 囲 を 部 分 配 列 とする.<br />

(4) 類 似 距 離 が 極 小 となるインデックスを, 類 似 箇 所<br />

として 出 力 する.<br />

動 作 概 要 を 疑 似 コードで 示 したものを, 付 録 に 記 載<br />

する. 以 下 の 節 では,それぞれの 工 程 の 中 から 特 に,<br />

(1)にあたる 二 次 近 似 による 要 約 方 式 と(3)にあたる 類<br />

似 距 離 算 出 の 方 式 について 述 べる.<br />

3.2. 二 次 近 似 による 要 約 方 式<br />

本 節 では,データシーケンスを, 二 次 近 似 が 可 能 な<br />

不 定 長 の 区 間 へ 分 割 し 要 約 する 方 式 について 述 べる.<br />

( 付 録 の 関 数 Summarize(DATA)を 参 照 )<br />

[ 二 次 近 似 による 要 約 手 順 ]<br />

1) 区 間 の 始 点 をデータシーケンスの 始 点 とする.<br />

2) 区 間 の 終 点 を 段 階 的 に 伸 張 しながら, 区 間 内 デー<br />

タの 二 次 近 似 曲 線 の 係 数 を, 伸 張 した 増 分 に 対 す<br />

る 差 分 演 算 により 算 出 し,その 誤 差 を 評 価 する.<br />

3) 二 次 近 似 誤 差 が 区 切 り 条 件 を 満 たす 最 小 のイン<br />

デックスを 区 間 区 切 りとし, 区 間 を 確 定 する.<br />

4) 確 定 区 間 の 二 次 近 似 曲 線 の 係 数 を, 始 点 ・ 終 点 情<br />

報 と 共 に 要 約 要 素 として 保 持 する.<br />

5) 確 定 区 間 の 終 点 の 次 を 新 たな 始 点 とし,2)に 戻 る.<br />

上 記 2) では, 時 刻 を x 値 ,データシーケンス 値 を y<br />

値 として 二 次 近 似 を 行 う. 要 約 要 素 としてデータシー<br />

ケンスのインデックス i に 対 する 時 刻 インデックスを<br />

x i , 時 系 列 データの 振 幅 値 を y i , 区 間 の 始 点 のインデ<br />

ックスを x S , 終 点 のインデックスを x G とおいたとき,<br />

式 (1)の 解 として 二 次 近 似 式 の 係 数 a, b, c を 得 る. 要 約<br />

要 素 は x S , x G , a, b, c である.<br />

minimize<br />

<br />

i<br />

( y<br />

i<br />

a(<br />

x x<br />

i<br />

S<br />

)<br />

2<br />

b(<br />

x x<br />

i<br />

S<br />

) c)<br />

2<br />

(1)<br />

差 分 演 算 により, 二 次 近 似 による 要 約 手 順 は 全 体 で<br />

線 形 時 間 で 処 理 される.<br />

上 記 3) の 区 切 り 条 件 は, 次 の 様 に 設 定 する. 図 1<br />

上 の 観 測 値 の 推 移 に 対 して, 区 間 の 始 点 x S を 基 点 とし,<br />

終 点 x G を 順 次 増 加 させた 場 合 の, 二 次 近 似 式 における<br />

x G に 対 応 する 二 次 近 似 誤 差 率 ( 二 乗 誤 差 / 区 間 幅 ) は<br />

図 1 下 のようになる. 区 切 り 条 件 として, 二 次 近 似 誤<br />

差 率 を 終 端 インデックス 毎 に 保 持 し, 過 去 の 誤 差 率 の<br />

平 均 値 との 差 分 が, 過 去 の 誤 差 率 の 標 準 偏 差 を 超 えた<br />

箇 所 ( 立 ち 上 がり 点 )とする. 本 論 文 では, 近 似 誤 差 評<br />

価 のインデックス 幅 の 下 限 MIN_WIDTH を 45 とした.<br />

観 測 値<br />

0.0 0.5 1.0<br />

観 測 値 推 移<br />

二 次 近 似<br />

誤 差 率<br />

0.02 0.08 0.14<br />

0 200 400 600 800<br />

2 次 曲 線 近 似<br />

誤 差 率 推 移<br />

0<br />

基 点 x s<br />

立 ち 上 がり 点 を<br />

x G として 確 定<br />

200 400 600 800<br />

終 端 点 x G<br />

( 候 補 )


図 1 観 測 値 に 対 する 二 次 近 似 誤 差 率 の 評 価<br />

観 測 値<br />

0.0 0.5 1.0<br />

0 200 400 600 800<br />

図 2 区 間 分 割 結 果 例<br />

図 2 に,データシーケンスに 対 する 区 間 分 割 の 結 果<br />

例 を 示 す.<br />

<strong>DIASTRA</strong> では, 要 約 要 素 数 が 多 いほど 近 似 精 度 は 高<br />

まるが, 処 理 時 間 は 要 約 要 素 数 の 二 乗 に 比 例 するオー<br />

ダーで 増 加 するトレードオフが 発 生 する.そのため,<br />

元 データに 対 してどの 程 度 の 細 かさで 要 約 要 素 に 分 割<br />

されるように, 誤 差 率 立 ち 上 がりの 判 定 基 準 を 設 定 す<br />

るかは, 問 題 に 応 じて 調 整 する 運 用 が 求 められる.<br />

3.3. 類 似 距 離 算 出<br />

本 節 では, 要 約 要 素 の 配 列 同 士 からの 類 似 距 離 の 算<br />

出 方 式 について 述 べる.( 付 録 の 関 数 GetDistance(ONE,<br />

ANOTHER)を 参 照 )<br />

距 離 算 出 には, 最 初 に 要 約 要 素 の 配 列 同 士 でマッチ<br />

ングを 行 い,マッチングされた 要 約 要 素 同 士 の 距 離 を<br />

算 出 し,それらの 総 和 を 全 体 の 類 似 距 離 とする.<br />

要 約 要 素 のマッチングは, 個 数 の 異 なる 要 素 のマッ<br />

チングとなるため, 動 的 計 画 法 を 用 いて 行 う.マッチ<br />

ングは 多 対 一 の 対 応 付 けを 許 し, 系 列 の 順 番 が 逆 転 す<br />

る 対 応 付 けは 行 わない.<br />

要 約 要 素 同 士 の 距 離 算 出 では, 要 約 要 素 に 対 応 する<br />

2 つの 二 次 曲 線 の 定 義 域 を 0 以 上 1 以 下 に 正 規 化 し,<br />

差 の 二 乗 値 の 積 分 値 の 平 方 根 を 距 離 とする.これは 定<br />

数 時 間 で 算 出 可 能 である.それぞれの 要 約 要 素 の 定 義<br />

域 正 規 化 後 の 係 数 の 差 を a , b , c とおくと, 距 離 D<br />

は 以 下 の 式 (2) で 定 数 時 間 にて 求 められる.<br />

1<br />

<br />

2<br />

D ax<br />

b<br />

x c<br />

dx<br />

0<br />

2<br />

2<br />

a<br />

ab<br />

b<br />

2ac<br />

<br />

5 2 3 3<br />

<br />

2<br />

b c<br />

<br />

<br />

c<br />

2<br />

<br />

(2)<br />

4. 評 価<br />

本 章 での 評 価 は, 基 本 となる DTW と 比 較 した 精 度<br />

及 び 時 間 性 能 の 評 価 を 行 う.<br />

検 索 対 象 のデータとして, UCI KDD Archive [8] の<br />

海 水 温 度 推 移 データ tao-all2.dat を 使 用 .s.s.temp. (sea<br />

surface temperature) 項 目 の 値 で, 欠 損 値 を 除 外 した 先<br />

頭 85000 件 を 評 価 用 のデータシーケンスとした. 評 価<br />

用 の 問 合 せシーケンスは,データシーケンスの 部 分 デ<br />

ータに 時 間 方 向 の 変 調 をかけたものとした.<br />

問 合 せシーケンスとするためのデータシーケンス<br />

の 切 り 出 し 箇 所 は,データシーケンスの 後 半 を 等 間 隔<br />

に 区 切 った 10 箇 所 とし, 抽 出 長 は 5000 とする.<br />

また 評 価 では, 複 数 回 答 を 許 容 する 用 途 での 使 用 を<br />

前 提 とし, 複 数 回 答 の 件 数 に 対 する 精 度 と, 高 速 化 の<br />

効 果 について 示 す. 応 用 上 , 状 態 監 視 において, 類 似<br />

検 索 の 精 度 は 用 途 に 応 じて 95%~ 99%の 範 囲 で 求 めら<br />

れることが 多 いため, 評 価 も 上 記 の 範 囲 の 精 度 を 達 成<br />

するか 否 かを 基 本 として 評 価 を 行 う.<br />

4.1. 精 度 評 価<br />

10 種 類 の 問 合 せシーケンスに 対 して, 変 調 ( 時 間 方<br />

向 の 伸 縮 ) およびノイズの 付 与 を 行 い, 抽 出 箇 所 が 類<br />

似 箇 所 と 判 定 される 精 度 を 評 価 する.<br />

時 間 方 向 に 問 合 せシーケンス 系 列 を 伸 縮 する 変 調<br />

方 式 は, 以 下 の 4 種 類 とする.<br />

(1) 変 調 方 式 1: 変 調 を 行 わない.<br />

(2) 変 調 方 式 2: 時 間 方 向 に 全 体 を 1.1 倍 する.<br />

(3) 変 調 方 式 3: 問 合 せシーケンスを 等 分 し, 前 半 を<br />

0.9 倍 , 後 半 を 1.1 倍 に 時 間 方 向 に 伸 縮 する.<br />

(4) 変 調 方 式 4: 時 間 方 向 に, 問 合 せシーケンスを 10<br />

箇 所 に 等 分 割 し,それぞれ 0.9 倍 ~1.1 倍 の 範 囲 で,<br />

正 弦 波 と 同 じ 変 動 倍 率 で 時 間 方 向 に 伸 縮 する.<br />

変 調 方 式 4 変 調 方 式 3 変 調 方 式 2 変 調 方 式 1<br />

-1.0 0.0 0.5 -1.0 0.0 0.5 -1.0 0.0 0.5 -1.0 0.0 0.5 1.0<br />

0 500 1000 1500<br />

経 過 時 間<br />

図 3 変 調 方 式<br />

なお, 正 弦 波 を 各 方 式 で 変 調 した 場 合 のイメージを<br />

図 3 に 示 す.( 図 3 では 変 化 率 を 5 倍 にしている)<br />

一 方 , 各 問 合 せシーケンスに 付 与 するノイズは, 問<br />

合 せシーケンス 系 列 の 値 が 取 る 範 囲 幅 に 対 して 0%か


ら 5% 未 満 の 10 段 階 とし,それぞれの 段 階 の 範 囲 幅 比<br />

率 を 最 大 幅 とする 一 様 乱 数 を, 問 合 せシーケンス 系 列<br />

に 加 算 して 評 価 する.<br />

精 度 評 価 は, 問 合 せシーケンス 番 号 , 変 調 方 式 ,ノ<br />

イズレベルごとの 検 索 数 400 件 と, 類 似 検 索 結 果 のヒ<br />

ット 数 の 比 で 評 価 する.なおここでは, 類 似 判 定 の 特<br />

性 上 , 問 合 せシーケンスの 検 索 位 置 にずれがあること<br />

を 考 慮 し, 問 合 せシーケンスを 抽 出 したインデックス<br />

の 前 後 2500 の 範 囲 に, 類 似 検 索 結 果 のインデックスが<br />

存 在 する 場 合 をヒットとした.<br />

ヒットと 見 なす 上 位 件 数 を 1 から 15 まで 変 更 した<br />

場 合 のヒット 率 の 推 移 を 表 3 および 図 4 に 示 す.DTW<br />

による 検 索 では,いずれのケースでもヒット 率 は 1.00<br />

であった.DTW で 検 出 した 事 例 の 取 り 漏 らしは, 特 に<br />

変 調 方 式 4 において 発 生 しており, 二 次 曲 線 近 似 の 区<br />

間 内 での 時 間 伸 縮 率 の 変 化 によるものと 推 定 される.<br />

ヒット 率<br />

0.95 0.96 0.97 0.98 0.99 1.00<br />

2 4 6 8 10 12 14<br />

上 位 件 数<br />

図 4 上 位 件 数 に 対 するヒット 率<br />

類 似 距 離 最 小 の 箇 所 のみ 採 用 ( 上 位 件 数 1 件 ) の 場<br />

合 には 95.8%の 確 率 でヒットしており, 上 位 6 件 以 上<br />

の 場 合 は 99.0%のヒット 率 が 得 られている.このこと<br />

より, 実 用 上 必 要 とされる 精 度 95% 以 上 を 満 たす 運 用<br />

が 可 能 であることを 確 認 した.<br />

4.2. 時 間 性 能 評 価<br />

表 3 に 示 す 実 行 環 境 にて, 時 間 性 能 評 価 を 実 施 した.<br />

表 3 性 能 評 価 環 境<br />

CPU Intel Xeon (3.20GHz×2)<br />

OS Microsoft Windows Server 2003 SP2<br />

Memory 6GB<br />

HDD 73GB, 10000rpm, Ultra320 ×4<br />

本 節 では, 4.1 節 と 同 じ 10 種 類 の 問 い 合 わせシーケ<br />

ンスに 対 する 類 似 検 索 時 間 を 評 価 する.なお 本 評 価 で<br />

は DTW の 検 索 時 の 走 査 ウィンドウを 一 度 に 100 イン<br />

デックス 移 動 するように 間 引 くよう 設 定 した.<br />

上 記 条 件 にて 検 索 処 理 を 行 った 処 理 時 間 を, 表 4 に<br />

示 す.(<strong>DIASTRA</strong> については, 要 約 処 理 の 時 間 を 含 む)<br />

表 4 処 理 時 間 評 価 結 果<br />

Key 要 約<br />

処 理<br />

<strong>DIASTRA</strong> DTW<br />

No. 要 素 数<br />

時 間 比<br />

1 78 1.44 秒 2022 秒 1406<br />

2 72 1.22 秒 2022 秒 1659<br />

3 65 1.03 秒 2027 秒 1964<br />

4 64 0.99 秒 2203 秒 2237<br />

5 66 0.99 秒 2012 秒 2042<br />

6 70 1.05 秒 2025 秒 1936<br />

7 78 1.44 秒 2015 秒 1401<br />

8 69 1.14 秒 2027 秒 1777<br />

9 68 1.11 秒 2022 秒 1822<br />

10 64 0.97 秒 2022 秒 2086<br />

いずれも,DTW の 処 理 時 間 に 対 して 1400 倍 ~2200<br />

倍 の 性 能 を 確 保 している. 従 来 手 法 である FTW と 比<br />

較 して 5 倍 ~10 倍 の 時 間 処 理 性 能 を 示 した.<br />

このように,<strong>DIASTRA</strong> により,DTW と 比 較 して 応<br />

用 上 必 要 な 精 度 を 維 持 しつつ, 処 理 速 度 が 大 幅 に 改 善<br />

されることを 確 認 した.<br />

5. まとめ<br />

本 論 文 では,データシーケンスを 二 次 近 似 誤 差 が 極<br />

小 となる 不 定 長 の 区 間 へ 分 割 し 要 約 することにより,<br />

検 索 時 の 類 似 距 離 の 評 価 時 間 を 削 減 し 高 速 化 する 類 似<br />

検 索 方 式 <strong>DIASTRA</strong> を 提 案 した.<br />

<strong>DIASTRA</strong> による 実 データの 類 似 検 索 の 精 度 検 証 に<br />

より,ヒット 率 が 単 一 回 答 のみの 場 合 に 95.8%, 6 件<br />

の 回 答 を 許 容 する 場 合 に 99.0% を 示 すことを 確 認 し<br />

た.また 問 合 せシーケンス 長 が 5000 の 場 合 の 検 索 時 間<br />

比 較 について,DTW に 対 する 通 常 の 実 装 にて 100 分 の<br />

1 に 間 引 いた 検 索 処 理 に 対 しても, 要 約 処 理 および 検<br />

索 時 間 に 要 する 時 間 を 合 わせて 1400 倍 以 上 の 性 能 を<br />

確 保 していることを 確 認 した.<br />

課 題 として, 本 評 価 結 果 は SPRING 以 外 の 従 来 手 法<br />

に 対 しては 処 理 時 間 面 での 改 善 が 得 られているが,<br />

SPRING による 問 合 せシーケンス 長 256 に 対 する 性 能<br />

評 価 650000 倍 という 性 能 には 及 んでおらず, 同 一 条<br />

件 での 追 加 評 価 を 実 施 する 必 要 がある.<br />

提 案 技 術 は, 単 体 を 類 似 結 果 として 提 示 するのでは<br />

なく, 結 果 の 候 補 を 複 数 表 示 する 補 遺 的 なシステムへ<br />

の 導 入 を 想 定 しており, 精 度 と 処 理 速 度 のトレードオ<br />

フを 考 慮 して 運 用 を 行 っていく.<br />

参 考 文 献<br />

[1] Myers C., and Rabiner L., “A Level Building<br />

Dynamic Time Warping Algorithm for Connected<br />

Word Recognition,” Proc. ASSP-29, pp.284-296, Apr.<br />

1981.


[2] M. Vlachos, M. Hadjieleftheriou, D. Gunopulos, E.<br />

Keogh. Indexing Multi-dimensional Time-series with<br />

Support for Multiple Distance Measures, Proc. of<br />

ACM SIGKDD, pp.216-225,2003.<br />

[3] 中 村 , 瀧 , 野 宮 , 上 原 .AMSS: 時 系 列 データの<br />

効 率 的 な 類 似 度 測 定 手 法 , 電 子 情 報 通 信 学 会 論 文<br />

誌 ,D, Vol. J91-D, No.11, pp.2579-2588, 2008.<br />

[4] S. Salvador and P. Chan. FastDTW: Toward Accurate<br />

Dynamic Time Warping in Linear Time and Space.<br />

TDM 2004.<br />

[5] Sakurai Y., Yoshikawa M., and Christos F., FTW: fast<br />

similarity search under the time warping distance,<br />

Proc. PODS, pp.326-337, Jun. 2005.<br />

[6] M. Morse, J.M. Patel. An Efficient and Accurate<br />

Method for Evaluating Time Series Similarity. Proc.<br />

of ACM SIGMOD 2007, 2007.<br />

[7] 櫻 井 , Faloutsos, 山 室 , ダイナミックタイムワー<br />

ピング 距 離 に 基 づくストリーム 処 理 , DEWS2007<br />

L6-5, 2007.<br />

[8] UCI KDD Archive :<br />

http://kdd.ics.uci.edu/databases/el_nino/el_nino.html<br />

付 録 ( 各 処 理 の 擬 似 コード)<br />

[ 入 力 ]<br />

STREAM: データシーケンス<br />

KEY: 問 合 せシーケンス<br />

NUM: 考 慮 する 類 似 上 位 件 数<br />

# 上 位 NUM 件 までの 類 似 判 定 箇 所 を 返 す<br />

Algorithm SimilaritySearch(STREAM, KEY, NUM)<br />

list := SimilarityEvaluation(STREAM, KEY)<br />

return list[1...NUM] のインデックス 情 報<br />

# 時 系 列 データの 各 箇 所 の 類 似 評 価 距 離 を 返 す<br />

# STREAM, KEY は 時 系 列 データ<br />

Algorithm SimilarityEvaluation(STREAM, KEY)<br />

S_sum := Summarize(STREAM)<br />

K_sum := Summarize(KEY)<br />

distance_list = NULL<br />

# 空 のリスト<br />

for idx:=0 to Length(STREAM)-WINDOW_WIDTH do<br />

end_idx := idx+WINDOW_WIDTH-1<br />

sub_S_sum := STREAM[idx...end_idx]<br />

distance := GetDistance(sub_S_sum, K_sum)<br />

distance_list に {distance, idx}を 追 加<br />

endfor<br />

sorted_distance_list := Sort(distance_list)<br />

return sorted_distance_list<br />

# 時 系 列 データを 要 約 要 素 の 配 列 へ 変 換 する<br />

# DATA は 時 系 列 データ<br />

Algorithm Summarize(DATA)<br />

summary := NULL<br />

begin_idx = 0<br />

# 要 約 要 素 のリスト<br />

end_idx := MIN_WIDTH<br />

prev_fit_info := NULL<br />

while end_idx < Length(DATA) do<br />

if prev_fit_info = NULL then<br />

fit_info := QuadraticFit(Data[begin_idx...end_idx])<br />

else<br />

diff_data := Data[end_idx]<br />

fit_info := DiffQuadFit(diff_data, prev_fit_info)<br />

endif<br />

if fit_info による 近 似 誤 差 が 許 容 範 囲 外 then<br />

summary に {fit_info, begin_idx, end_idx}を 追 加<br />

prev_fit_info := NULL<br />

beginning_idx := end_idx+1<br />

end_idx := begin_idx+MIN_WIDTH<br />

else<br />

prev_fit_info := fit_info<br />

end_idx := end_idx+1<br />

endif<br />

endwhile<br />

return summary<br />

# 要 約 要 素 の 配 列 間 の 距 離 を 返 す<br />

# ONE, ANOTHER はいずれも 要 約 要 素 の 配 列<br />

Algorithm GetDistance (ONE, ANOTHER)<br />

min_distance := INFINITY<br />

foreach m in DPMatching(ONE, ANOTHER) do<br />

# m は ONE の 要 素 と ANOTHER の 要 素 との<br />

# マッチングの 一 つ<br />

distance := 0<br />

foreach {o, a} in m do<br />

# マッチング m において,ONE の 要 素 o と<br />

# ANOTHER の 要 素 a とがマッチ<br />

distance += GetElementalDistance(o, a)<br />

endforeach<br />

if distance < min_distance then<br />

min_distance := distance<br />

endif<br />

endforeach<br />

return min_distance<br />

[ 定 数 ]<br />

WINDOW_WIDTH: 検 索 時 のウィンドウ 幅<br />

MIN_WIDTH: 近 似 誤 差 を 評 価 する 最 小 データ 数<br />

[ 関 数 ] ( 以 下 の 関 数 の 擬 似 コードは 割 愛 する)<br />

QuadraticFit: 二 次 関 数 近 似 を 行 う 関 数<br />

DiffQuadFit: 増 分 から 二 次 関 数 近 似 を 更 新 する 関 数<br />

DPMatching: 2 つの 配 列 の 可 能 なマッチングのリス<br />

トを 返 す 関 数

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!