31.07.2015 Views

SSIIチュートリアル佐藤

SSIIチュートリアル佐藤

SSIIチュートリアル佐藤

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Visual SLAM(v-SLAM)の 応 用 分 野画 像 生 成 ・ 可 視 化• 拡 張 現 実 感 (AR: Augmented Reality)• 隠 消 現 実 感 (DR: Diminished Reality)• 自 由 視 点 画 像 生 成• 実 物 体 ・ 実 シーンの 三 次 元 モデル 生 成 / 仮 想 化自 動 化• ロボットナビゲーション• 車 両 の 自 動 走 行 / 運 転 支 援その 他• Structure from Motion 法 の 初 期 値 生 成7Augmented Reality ( 拡 張 現 実 感 )・ 実 シーンにCGによる 仮 想 世 界 を 合 成 提 示 する 手 法・ リアルタイムにカメラの 位 置 ・ 姿 勢 を 推 定 する 必 要 があるG. Klein et al., Parallel Tracking and Mapping for Small AR Workspace, ISMAR 2007 84


Diminished Reality ( 隠 消 現 実 感 )・ 実 シーンから 不 要 な 物 を 視 覚 的 に 取 り 除 く 手 法・ リアルタイムにカメラの 位 置 ・ 姿 勢 を 推 定 する 必 要 があるN. Kawai, T. Sato, and N. Yokoya: Diminished reality considering background structures, ISMAR2013 9自 由 視 点 画 像 生 成・ 本 来 撮 影 されていない 視 点 からの 映 像 を 合 成 する 手 法・シーンの 三 次 元 構 造 と 元 のカメラの 位 置 関 係 が 必 要 となる・ 例 えばStreet view 画 像 群 から 任 意 経 路 で 移 動 するビデオが 生 成 可 能1m元 のカメラパス仮 想 カメラ仮 想 カメラの移 動 経 路T. Sato, H. Koshizawa, and N. Yokoya: Omnidirectional free-viewpoint rendering using a deformable3-D mesh model, IJVR, 2010.10* 本 研 究 ではSfMの 初 期 値 生 成 にvSLAMを 利 用5


自 由 視 点 画 像 生 成 による遠 隔 ロボットの 操 縦 支 援 システム操 縦 者 の 頭 部 位 置 に 連 動 した 自 由 な 視 点 位 置 からの 画 像 生 成 を 行 い、 死 角 領域 を 確 認 しながらリアルタイムでのロボット 操 作 を 支 援 するシステムF. Okura, Y. Ueda, T. Sato, and N. Yokoya: Free-viewpoint mobile robot teleoperation interface usingview-dependent geometry and texture, ITE Trans. on MTA. 2014.11* 本 研 究 ではKinectによるvisualでないSLAMを 利 用 しているが、 原 理 的 にはvSLAMでも 同 様 のことが 実 現 可 能v-SLAMを 用 いた 湾 曲 した紙 面 のスキャンシステムT Sato, A. Iketani, S. Ikeda, M. Kanbara, N. Nakajima, and N. Yokoya: Video mosaicing forcurved documents by structure from motion, ACM SIGGRAPH2006, Sketches. 126


関 連 研 究 : Structure from Motion・ 動 画 像 または 画 像 群 から、カメラの 位 置 ・ 姿 勢 とシーン 中の 特 徴 点 の 三 次 元 位 置 を 復 元 する 手 法・Multi-view Stereo 法 などと 組 み 合 わせてシーンの 形 状 復元 に 用 いられるhttp://www.cs.cornell.edu/~snavely/bundler/13全 方 位 SfM in 東 大 寺 大 仏 殿147


SfM と v-SLAM の 関 係SfMv-SLAMオフライン・ 高 精 度リアルタイム・ 逐 次 出 力SfMv-SLAM入 力 画 像 群 動 画 像 ( 連 続 撮 影 画 像 )リアルタイム 性 不 要 要結 果 出 力 一 括 逐 次利 用 可 能 な 情 報全 て( 復 元 対 象 から 見 て 未来 の 情 報 も 利 用 )現 時 点 までの 情 報 のみ破 綻 時 の 復 帰 処 理 比 較 的 容 易 容 易 ではない特 徴 点 追 跡容 易 ではない( 連 続 撮 影 でない 場 合 )誤 差 の 蓄 積 小 ~ 中 大比 較 的 容 易( 探 索 範 囲 の 限 定 が 可 能 )15最 も 単 純 なSLAMの 実 現 方 法mappinglocalization初 期 値Image 1 Image 2何 らかの 方 法 で、カメラ 位 置 の 初 期 値 が 与 えられれば、localization, mappingを 繰 り 返 すことで、 推 定 を 継 続 できる168


チュートリアル 概 要1. 導 入2. v-SLAMの 応 用 分 野3. カメラ 位 置 ・ 姿 勢 推 定 (Localization)4. 特 徴 点 追 跡 と 三 次 元 位 置 推 定 (Mapping)5. v-SLAMのアルゴリズム6. 様 々な 課 題 への 対 応7. 最 新 研 究 動 向17カメラ 位 置 ・ 姿 勢 の 表 現Q. カメラはどこにありますか。またどちらを 向 いていますか。A. カメラは位 置 :・ 青 森 県 xxx 市 にある・ 東 京 の600km 北 にある・ 緯 度 135 40’xxx, 軽 度 34 39‘xxxにある姿 勢 :・ 東 を 向 いている・ 太 平 洋 を 向 いている・ 月 の 方 向 を 向 いている基 準 となる 座 標 系 を 設 定 する必 要 がある189


GPS 座 標 系 が 良 い?緯 度 135 40’xxx経 度 34 39‘xxx高 さ 10^10km緯 度 135 40’xxx経 度 34 39‘xxx 緯 度 135 40’xxx経 度 34 39‘xxx先 行 車 両 との 位 置 関 係 は?利 用 用 途 に 応 じてそれに 適 した 座 標 系 を 決 定 する 必 要 がある19ローカル 座 標 とワールド 座 標yyyxzワールド 座 標zxローカル 座 標(カメラ 座 標 )zローカル 座 標(カメラ 座 標 )xワールド 座 標 : 全 体 の 共 通 基 盤 となる 座 標 系ローカル 座 標 : ワールド 座 標 系 とは 独 立 に 運 動 する物 体 毎 に 設 定 される 座 標 系(カメラに 対 象 した 場 合 はカメラ 座 標 )2010


カメラ 位 置 ・ 姿 勢 推 定 問 題 とはyカメラ 座 標 系xシーンzz画 像 座 標 系Muyvx0ワールド 座 標 系ワールド 座 標 とカメラ 座 標 の 間 の 座 標 変 換 行 列 Mを 求 める 問 題Mを 用 いることで、ワールド 座 標 上 の 任 意 の 点 を 画 像 上 に 射 影することができる21絶 対 位 置 ・ 姿 勢 と 相 対 位 置 ・ 姿 勢y絶 対 位 置 ・ 姿 勢y相 対 位 置 ・ 姿 勢yxzzワールド 座 標xカメラ 座 標 系 ( 位 置 A)zxカメラ 座 標 系 ( 位 置 B)zyxカメラ 座 標 系 ( 位 置 B)絶 対 位 置 ・ 姿 勢 : 他 の 系 から 参 照 可 能 で 再 現 可 能 な 世 界 座 標 において 推 定 される 位 置 ・ 姿 勢 情 報相 対 位 置 ・ 姿 勢 : 再 現 可 能 でない 座 標 系 による 推 定v-SLAMでは、 何 らかの 基 準 を 設 けない 限 り、 相 対 位 置 ・ 姿 勢 しか推 定 できない2211


カメラ 位 置 ・ 姿 勢 推 定 によるAR 画 像 生 成AR ToolkitではARマーカ 上 に 世 界 座 標 を 設 定 し、 世 界 座 標 系 に固 定 された3DCGをカメラ 座 標 に 変 換 ・ 投 影 することで、 画 像 上 にCGを 合 成 提 示 している23ワールド 座 標 からカメラ 座 標 への座 標 変 換 行 列 MM WtoC =r 11 r 12 r 13 t 1r 21 r 22 r 23 t 2r 31 r 32 r 33 t 30 0 0 1=R t0 T 1上 記 のMを 用 いて、ワールド 座 標 系 の三 次 元 位 置 x w , y w , z w は、カメラ 座標 系 の 三 次 元 位 置 x c , y c , z c に, 下 記の 式 で 射 影 される。x cx w x w ty 1cywz= M WtoC czw= R yw + t 2zw t113x c , y c , z cyxM WtoCzx w , y w , z wxScenezy02412


カメラ 外 部 パラメータMの 自 由 度M WtoC =r 11 r 12 r 13 t 1r 21 r 22 r 23 t 2r 31 r 32 r 33 t 30 0 0 1=R t0 T 1カメラ 位 置 ・ 姿 勢 推 定 において、この 行 列 はカメラ 外 部 パメータと 呼ばれ、 Rは 回 転 行 列 、tはカメラの 並 進 ベクトルを 表 す。Rは、 何 も 考 えなければ9 自 由 度 、tは3 自 由 度 で、Mは 合 計 12 自 由度 を 持 つ。一 般 には、 Rを3 自 由 度 で 表 現 することで、 M の 自 由 度 は6となる25回 転 行 列 の 表 現オイラー 角 表 現 : 各 軸 周 りの 回 転 角 度 がα, β, γの 場 合cosα −sinα 0 cosβ 0 sinβ 1 0 0R = sinα cosα 0 0 1 0 0 cosγ −sinγ0 0 1 −sinβ 0 cosβ 0 sinγ cosγ回 転 軸 ・ 回 転 角 による 表 現 : 回 転 軸 ベクトルr = (n 1 , n 2 , n 3 )まわりにθラジアン回 転 する 場 合cosθ + n 2 1 (1 − cosθ) n 1 n 2 (1 − cosθ) n 1 n 3 1 − cosθ + n 2 sinθR = n 1 n 2 1 − cosθ + n 3 sinθ cosθ + n 2 2 (1 − cosθ) n 2 n 3 1 − cosθ − n 1 sinθn 1 n 3 1 − cosθ − n 2 sinθ n 2 n 3 1 − cosθ − n 1 sinθ cosθ + n 2 3 (1 − cosθ)ただし、|r| = 1クオータニオン 表 現 : q 0 , q 1 , q 2 , q 3 = (cos θ 2 , n 1sin θ 2 , n 2sin θ 2 , n 3sin θ 2 )とおくと、R =q 2 0 + q 2 1 − q 2 22 − q 3 2(q 1 q 2 − q 0 q 3 ) 2(q 1 q 3 + q 0 q 2 )2(q 1 q 2 + q 0 q 3 ) q 2 0 − q 2 1 + q 2 22 − q 3 2(q 2 q 3 − q 0 q 1 )2(q 1 q 3 − q 0 q 2 ) 2(q 2 q 3 + q 0 q 1 ) q 2 0 − q 2 1 − q 2 22 + q 32613


カメラ 座 標 系 間 の 変 換y−1M AtoB = M B M AM AM Byzxカメラ 座 標 系 ( 位 置 A)yxzzxワールド 座 標 カメラ 座 標 系 ( 位 置 B)座 標 系 の 逆 変 換 は、 逆 行 列 を 算 出 することで 得 られるため、カメラ 座 標 間 の 変 換 は 容 易 に 求 まる27投 影 モデルyカメラ 座 標x画 像 座 標zシーンzvuyカメラ 座 標 上 の 三 次 元 位 置 を 画 像 上 に 投 影 した 投 影 座 標を 決 定 するためには、 投 影 モデルを 決 定 する 必 要 があるx世 界 座 標28014


• 直 交 投 影代 表 的 な 投 影 モデルuv = s 0 0 00 s 0 0x cy cz c1(x c , y c , z c )画 像 平 面(u, v)• 透 視 投 影λuv1=f x 0 c x 00 f y c y 00 0 1 0校 正 行 列 K (カメラ 内 部 パラメータ)* 以 後 説 明 簡 単 化 のため、f x = f y = f, c x = c y = 0とするx cy cz c1(x c , y c , z c )画 像 平 面(u, v)29カメラ 座 標 系 と透 視 投 影 (ピンホール)カメラモデルyfvx(u, v)z画 像 上 の 点 の二 次 元 位 置uカメラ 座 標 系 における点 の 三 次 元 位 置(x c , y c , z c )単 純 な 透 視 投 影 の 式 : u = f x c, v = f y cz c z c30* 実 際 には、カメラの 投 影 歪 み、アスペクト 比 、 等 を 考 慮 したカメラ 内 部 パラメータが 必 要15


透 視 投 影 カメラモデルyカメラ 座 標x画 像 座 標Kzシーンzλuv1vu= K M WtoCx wywzw1xy0世 界 座 標v-SLAMでは、 内 部 パラメータKは 変 動 しないことを 前 提 に、事 前 にキャリブレーションにより 取 得 しておくことが 一 般 的31Perspective N Point (PnP) 問 題y(u, v)(x w , y w , z w )xローカル 座 標 系z対 応 点yz画 像 座 標x世 界 座 標ワールド 座 標 においてN 点 の 三 次 元 位 置 (x w , y w , z w )と、その 画 像 上の 座 標 (u, v)のペアからカメラ 外 部 パラメータ 行 列 Mを 推 定 する 問 題3216


PnP 問 題 の 最 小 解• P3P: 3 点 の 対 応 からカメラ 位 置 を 推 定最 大 4つの 解 が 存 在 するため、 一 意 に 解 を 定 めるには 付 加 的 な 情 報 が 必 要• P4P: 4 点 の 対 応 からカメラ 位 置 を 推 定解 が 一 意 に 得 られるただし、 v-SLAMでの 利 用 を 想 定 する 場 合 には、N>=20 程 度 ないと、 安 定 した 解 が 得 られない 場 合 が多 い (Nが 小 さい 場 合 は 誤 差 の 蓄 積 速 度 が 上 がる)33Image space errorとObject space errorカメラ 位 置 ・ 姿 勢 推 定 問 題 は、 基 本 的 には 誤 差 最 小 化 問 題 となるが、Object space errorよりもImage space errorを 最 小 化 することで良 い 推 定 結 果 が 得 られることが 知 られている。y(u, v)Image space error(x w , y w , z w )Object space errorzxカメラ 座 標yzx画 像 平 面世 界 座 標Object space errorの 最 小 化 では 線 形 に 解 が 得 られるため、 初 期 値 の 算 出 に 用いられる3417


Object space errorの 最 小 化λu pv p1= M WtoCx wpy wpz wp1*ここでは 簡 単 化 のためKを 省 略u p = x wpr 11 + y wp r 12 + z wp r 13 + t 1x wp r 31 + y wp r 32 + z wp r 33 + t 3v p = x wpr 21 + y wp r 22 + z wp r 23 + t 2x wp r 31 + y wp r 32 + z wp r 33 + t 3x wp r 31 + y wp r 32 + z wp r 33 + t 3 u p − (x wp r 11 + y wp r 12 + z wp r 13 + t 1 ) = 0x wp r 31 + y wp r 32 + z wp r 33 + t 3 v p − (x wp r 21 + y wp r 22 + z wp r 23 + t 2 ) = 0As = 0,A = −x wp −y wp −z wp 0 0 0 x wp u p y wp u p z wp u p −1 0 u p0 0 0 −x wp −y wp −z wp x wp u p y wp u p z wp u p 0 −1 v p,s = r 11 r 12 r 13 r 21 r 22 r 23 r 31 r 32 r 33 t 1 t 2 t 3 T .35A =Direct Linear Transform観 測 点 が6 点 以 上 得 られる 場 合N N−x w1 −y w1 −z w1 0 0 0 x w1 u 1 y w1 u 1 z w1 u 1 −1 0 u 10 0 0 −x w1 −y w1 −z w1 x w1 u 1 y w1 u 1 z w1 u 1 0 −1 v 1−x w2 −y w2 −z w2 0 0 0 x w2 u 2 y w2 u 2 z w2 u 2 −1 0 u 20 0 0 −x w2 −y w2 −z w2 x w2 u 2 y w2 u 2 z w2 u 2 0 −1 v 20 0 0 −x wN −y wN −z wN x wN u N y wN u N z wN u 0 −1 v,…−x wN −y wN −z wN 0 0 0 x wN u N y wN u N z wN u N −1 0 u Ns = r 11 r 12 r 13 r 21 r 22 r 23 r 31 r 32 r 33 t 1 t 2 t 3 T .As = 0Aは 観 測 情 報 のみから 成 り、sは 未 知 パラメータから 成 るSVD, 疑 似 逆 行 列 等 により 解 を 得 ることが 可 能Direct Linear Transformの 問 題 :・ 回 転 行 列 の 成 分 であるRが 正 規 直 交 基 底 を 満 たさない3618


Image space errorの 最 小 化 による6 自 由 度 カメラ 位 置 ・ 姿 勢 の 決 定y(x w1 , y w1 , z w1 )(u 1 , v 1 )xImage space erroryzカメラ 座 標(u p , v p )画 像 平 面(x wp , y wp , z wp )x世 界 座 標Image space error E im :xx wpcp2 2E im = p { u p − fx cp /z cp + vp − fy cp /z cp } , yycp = M wpWtoC zz wpcp1この 問 題 は 非 線 形 最 小 化 問 題 となるため、 良 い 初 期 値 が 必 要*vSLAM/SFMでは、Re-projection error( 再 投 影 誤 差 )と 呼 ばれる37E im繰 り 返 しによるImage Space Errorの 最 小 化DLT 等 により 得 られる 初 期 値局 所 解局 所 解大 域 最 適 解0パラメータ2 2E im = p { u p − fx cp /z cp + vp − fy cp /z cp }Levenberg-Marquardt 法 などを 用 いれば 数 回 の 繰 り 返 しで 最 小 値 に 到 達3819


誤 対 応 が 存 在 する 場 合 の 対 応- ロバスト 推 定 -• RANSAC• 少 数 の 点 を 繰 り 返 しランダムにサンプリングし、inlier 数を 最 大 化 するモデルを 選 択 する 手 法• M-estimator• 最 小 自 乗 法 では、outlierの 影 響 が 極 めて 大 きくなるため、 例 外 値 の 重 みを 小 さくするような 誤 差 関 数 を 用 いる方 法*inlier: 正 しい 対 応 点 、outlier: 誤 った 対 応 点39RANSACによるカメラ 位 置 姿 勢 推 定yinlierxカメラ 座 標Image space errorinlieroutlierinlier1. 何 らかの 方 法 で、 仮 の 対 応 点 (2D-3D 対 )を 決 定 する(tentative match)2. 仮 の 対 応 点 群 から、ランダムにn 点 を 選 択 する3. 選 択 したn 組 の(2D-3D) 点 を 用 いてPnP 問 題 を 解 くことで、カメラ 位 置 ・ 姿 勢 を 推 定 する4. 推 定 したカメラ 位 置 ・ 姿 勢 を 使 って、 全 ての3D 点 を 画 像 上 に 投 影 する。5. 投 影 点 と 画 像 上 の2D 点 の 間 の 距 離 (image space error)が 閾 値 以 上 のものをoutlier,それ 以 外 をinlierとして、inlierの 数 を 数 える。6. 2.~5.を 繰 り 返 し、inlier 数 が 最 大 となるカメラ 位 置 ・ 姿 勢 を 選 択 し、これによりoutlierを排 除 する4020


M-estimator(M 推 定 )E im = p {f u p − fx cp /z cp + f v p − fy cp /z cp }f(x)f(x) = x 2f x =c 26 1 − 1 − x cc 262 3 x ≤ cotherwisex41RANSAC / M-estimatorの 特 徴• RANSAC• 十 分 な 繰 り 返 し 回 数 が 確 保 されない 場 合 、inlierをoutlierと 判 定 し、 処 理 が 破 綻 する 場 合 がある• 仮 の 対 応 点 に 含 まれるoutlierの 割 合 が 小 さい 場 合 、outlierの 影 響 を 完 全 に 排 除 することができる• 特 に 誤 対 応 が 多 いと 想 定 される 場 合 には、 多 くの 繰 り返 し 回 数 を 必 要 とし、 処 理 に 時 間 がかかる• M-estimator• outlierの 影 響 を 完 全 には 排 除 できない• 初 期 値 をDLT 等 で 与 える 場 合 、 初 期 値 がoutlierに 影 響され、 局 所 解 に 陥 る 可 能 性 がある4221


人 工 マーカを 用 いた 手 法 の 問 題美 観 を 損 ねる 場 合 がある屋 外 等 の 広 域 環 境 にマーカを 配 置 ・ 維 持 することが 難 しい43自 然 特 徴 を 用 いた 位 置 合 わせ 手 法特 徴 点線 特 徴シーン 中 に 存 在 する、 特 徴 点 や 線 特 徴 を 利 用 して 位置 合 わせを 行 う4422


自 然 特 徴 として 何 が 使 えるのか• 特 徴 点 ( 輝 度 エッジのコーナー)多 くの 環 境 に 存 在 する手 動 でのモデル 化 が 比 較 的 難 しい• 線 特 徴 ( 線 状 の 輝 度 エッジ)自 然 環 境 には 少 ない手 動 でのモデル 化 が 比 較 的 容 易45事 前 知 識 を 用 いた 位 置 合 わせ 手 法- 三 次 元 モデルを 用 いる 手 法現 実 物 体CADモデル現 実 物 体 またはシーンの 三 次 元 モデルをあらかじめCAD 等 により 作 成 しておき、幾 何 位 置 合 わせに 利 用 する46*T.Dummond et al.、Real-Time Visual Tracking of Complex Structures, PAMI, 200223


線 特 徴 を 用 いた 幾 何 位 置 合 わせ*CADモデルを 入 力 画 像 上 に 投 影 し、 投 影 されたモデルの 輪 郭 線 と 画 像 上 の輝 度 エッジの 間 の 距 離 を 最 小 化 する (Visual Servo)47*T.Dummond et al.、Real-Time Visual Tracking of Complex Structures, PAMI, 2002線 特 徴 + 点 特 徴 を 利 用 した 手 法 (1/2)** Luca Vacchetti et al., Combining edge and texture informationfor real-time accurate 3D camera tracking, ISMAR 20044824


線 特 徴 + 点 特 徴 を 利 用 した 手 法 (2/2)** Luca Vacchetti et al., Combining edge and texture informationfor real-time accurate 3D camera tracking, ISMAR 200949自 然 特 徴 点 ランドマークを 用 いる 手 法学 習 フェーズ実 践 フェーズ*自 然 特 徴 点 の 三 次 元 位 置 と画 像 パターンを 学 習CADモデル 等 を 用 いることなくマーカレストラッキングを 実 現* Y. Genc et al., Marker-less Tracking for AR: A Learning-Based Approach, ISMAR 20025025


マーカレスAR 画 像 の 生 成 結 果5353拡 張 現 実 感 によるユーザナビゲーション検 出 されたランドマークユーザに 提 示 されるナビゲーション 情 報5427


カメラ 位 置 ・ 姿 勢 推 定に 関 するまとめ• 三 次 元 位 置 が 既 知 の 対 象 があれば、カメラ 位 置 ・姿 勢 はPnP 問 題 を 解 くことで 推 定 可 能• 三 次 元 位 置 が 既 知 の 対 象 としては、マーカ、 三 次元 モデル、SfM 等 により 事 前 に 復 元 した 自 然 特 徴点 の 三 次 元 位 置 、 等 が 利 用 される• 自 然 特 徴 点 の 三 次 元 位 置 をリアルタイムで 推 定 できれば、v-SLAMを 実 現 可 能55チュートリアル 概 要1. 導 入2. v-SLAMの 応 用 分 野3. カメラ 位 置 ・ 姿 勢 推 定 (Localization)4. 特 徴 点 追 跡 と 三 次 元 位 置 推 定 (Mapping)5. v-SLAMのアルゴリズム6. 様 々な 課 題 への 対 応7. 最 新 研 究 動 向5628


自 然 特 徴 点 の 三 次 元 位 置 推 定(Mapping)推 定 される 自 然 特 徴 点 の 三 次 元 位 置自 然 特 徴 点 の画 像 上 の 座 標Object Space ErrorImage Space Error(Reprojection error: 再 投 影 誤 差 )カメラ 位 置 ・ 姿 勢 が 既 知 、かつ 特 徴 点 の 画 像 上 の 位 置 が 既 知 の 場合 、Object Space ErrorまたはImage Space Errorを 最 小 化 することで特 徴 点 の 三 次 元 位 置 を 推 定 可 能57特 徴 点 の 対 応 付 け(Tracking, Matching)特 徴 点 ベースのトラッキングの 流 れ1. 特 徴 点 の 検 出2. 特 徴 量 の 抽 出3. 対 応 点 の 決 定4. 誤 対 応 の 排 除5829


特 徴 点 の 検 出v-SLAMにおいて 特 徴 点 検 出 オペレータに 求 められる 要 件 :・ 抽 出 処 理 が 高 速 であること・ 繰 り 返 し 再 現 性 (Repeatability)が 高 いことv-SLAMでは、 一 般 に 直 前 のカメラ 位 置 ・ 姿 勢 を 利 用 することができるため、スケール 不 変 性 を 考 慮 する 必 要 はないShi-Tomasi, Harris, Fastなどの 高 速 ・ 軽 量 な 検 出 器 で 十 分である 場 合 が 多 い59v-SLAM 手 法 で 利 用されている 特 徴 点 ・ 特 徴 量特 徴 点特 徴 量PTAM FAST 画 素 値 そのものMonoSLAM Shi-Tomasi 画 素 値 そのものSVOFAST with highestShi-Tomasi score in the cell画 素 値 そのものVideoMosaic Shi-Tomasi 画 素 値 そのもの6030


FAST 特 徴 点 検 出 器注 目 画 素 周 辺 の16 画 素 の 輝 度 値 と、 注 目 画 素 の 輝 度 値 の 差 に 基 づいて3 値 化 された16 次 元 ベクトル(darker, similar, brighter)を 作 成 し、あらかじめ構 築 した 決 定 木 に 基 づいて 特 徴 点 かどうかを 決 定 する 手 法非 常 に 高 速 に 特 徴 点 を 検 出 することが 可 能61Shi-Tomasi 特 徴 点 検 出 器注 目 画 素 を 中 心 とするウインドウ 内 の輝 度 勾 配 ベクトルのヘッセ 行 列 の 固 有値 分 解 により 得 られる 最 小 固 有 値 の 値に 基 づいてコーナーを 決 定 する 方 法dIdy第 一 固 有 ベクトル輝 度 勾 配dIdx第 二 固 有 ベクトル第 二 固 有 値 の 値6231


特 徴 量 の 抽 出v-SLAMでは、 直 前 のカメラ 位 置 ・ 姿 勢 が 既 知 であることから、 特 徴 点 周 辺 が 平 面 であるとみなし、その法 線 情 報 を 推 定 ・ 保 持 しておくことで、スケール 変 化 、回 転 、 変 形 等 について 補 正 できる。このため、 比 較 的 大 きい 変 形 にも 対 応 可 能 なSIFT,SURF 等 のリッチな 特 徴 点 抽 出 オペレータは 用 いられず、 画 像 テンプレートそのものを 利 用 する 場 合 が 多い。63対 応 点 の 決 定 ・ 誤 対 応 の 排 除基 本 的 には 予 測 された 範 囲 内 の 特 徴 点 を 対 象 に 類似 度 評 価 を 行 い、 最 も 類 似 したものを 探 せばよい対 応 点 決 定 手 法誤 対 応 排 除 手 法PTAM Zero-mean SSD (Pyramid) M-estimator in BundleadjustmentMonoSLAMNormalized CrossCorrelationExtended Kalman FilterSVO SSD Probabilistic depthVideo mosaic SSD RANSAC6432


対 応 点 の 探 索 範 囲 の 限 定カメラの 動 きについて、 何 らかの 仮 説 が 得 られる 場 合 には、それまでに 推 定されている 特 徴 点 の 三 次 元 位 置 を 仮 のカメラ 位 置 ・ 姿 勢 を 用 いて 画 像 上 に再 投 影 することで、 特 徴 点 の 出 現 位 置 を 予 測 できる。対 応 点 の 探 索 範 囲予 想 されるカメラ 位 置また、この 様 な 仮 説 が 得 られないとしても、 画 像 間 での 最 大 視 差 を 設 定 することで、 画 像 上 での 対 応 点 の 探 索 範 囲 を 限 定 できる。65特 徴 点 の 三 次 元 位 置 の 決 定 :Image space errorの 最 小 化(x wp , y wp , z wp )(u p , v p )Image Space Error(Reprojection error: 再 投 影 誤 差 )世 界 座 標Image space error E im :xx wpcp2 2E im = p { u p − fx cp /z cp + vp − fy cp /z cp } , yycp = M wpWtoC zz wpcp1Object space error, image space errorの 順 に 最 小 化 すれば三 次 元 位 置 は 容 易 に 求 められる6633


特 徴 点 追 跡 と 三 次 元 位 置 推 定に 関 するまとめ• カメラ 位 置 ・ 姿 勢 が 既 知 であれば、 対 応 点 を 決 定 することで 特 徴 点 の 三 次 元 位 置 は 容 易 に 決 定 可 能• V-SLAMの 分 野 では、 高 速 性 が 重 視 されるため、 特徴 点 検 出 オペレータとして、FAST 等 の 軽 量 なものが利 用 される• 大 きなパターンの 変 形 を 考 える 必 要 がなく、 対 応 点探 索 の 範 囲 は 限 定 可 能 であるため、 単 純 な 変 形 を考 慮 したテンプレートマッチングが 用 いられる67チュートリアル 概 要1. 導 入2. v-SLAMの 応 用 分 野3. カメラ 位 置 ・ 姿 勢 推 定 (Localization)4. 特 徴 点 追 跡 と 三 次 元 位 置 推 定 (Mapping)5. v-SLAMのアルゴリズム6. 様 々な 課 題 への 対 応7. 最 新 研 究 動 向6834


1) Two-view SfMの 連 結 による 手 法- エピポーラジオメトリ -n特 徴 点 の 組 (x 0 , x 1 )と、それらが 作 るエピポーラ 平 面 Rには以 下 の 関 係 が 成 り 立 つn = t × Rx 0 = t × Rx 0x 1 T n = 071基 本 行 列 (Essential matrix)n = t × Rx 0x 1 T n = 0x 1 T t × Rx 0 = 0 .t × R を Eで 置 き 換 えると、 以 下 の 式 が 得 られるx T 1 Ex 0 = 0 .E = t × R は 基 本 行 列 と 呼 ばれる。Eは (x 0 , x 1 )の 組 が5 点 以 上 あれば 推 定 できる。*D. Nister: “An efficient solution to the five-point relative pose problem”, PAMI,26(6):756-770, 20047236


SVD( 特 異 値 分 解 )による基 本 行 列 の 分 解Eを 特 異 値 分 解 することで、 E = UΣV T のように3つの 行 列 の 積 に 分 解 できる。ここで、UとVは 正 規 直 交行 列 。 t × とRは、 以 下 の 式 で 得 られるt × = UZU T , R = UWV T or UW T V T ,ただし、0 1 0 0 −1 0Z = −1 0 0 , W = 1 0 00 0 0 0 0 173Two-view SfMによる 推 定 結 果 の 連 結1. 基 本 行 列 の 分 解 により、 画 像 ペアの 相 対 運 動を 推 定Image 1M 1→2M 2→3M 1→3 =M 2→3 M 1→2Image 2 Image 2Image 3M =R αt0 12. 推 定 結 果 を 連 結Image 1 Image 2Image 3ここで、スケールの 不 定 性 を 解 決 するためには、3 画 像 上 に共 通 して 観 測 可 能 な 点 が 最 低 一 点 必 要 となる7437


Two-view SfMの連 結 による 手 法 の 問 題• カメラ 間 の 距 離 が 短 く、 画 像 上 での 物 体 の 見 かけの 動 きが 小 さい 場 合 、 特 に 並 進 ベクトルtの 推 定 結 果 が 不 安 定となりやすい• 複 数 画 像 から 共 通 して 観 測 できる 点 が 少 ない 場 合 には誤 差 の 蓄 積 が 早 い解 決 方 法• ビデオ 映 像 に 適 用 する 場 合 には、フレームを 間 引 く 等 により、 十 分 なベースライン 距 離 を 確 保 する• ただし、ベースライン 距 離 を 離 しすぎると、 対 応 点 探 索 が難 しくなる75蓄 積 誤 差 の 問 題1% scale error 1% scale error1% scale errorImage 100Image 1 Image 2Image 3Image 4仮 に+1%の 偏 ったスケール 誤 差 が 常 に 与 えられた 場 合 、 100フレーム 後 のスケール 誤 差 は、1.01 100 = 2.70 = 270% となる7638


蓄 積 誤 差 を 抑 えるためには?Image 1 Image 2Image 3 Image 4Image 100・ 多 数 の 地 点 から 観 測 可 能 な 共 通 の 特 徴 点 が 存 在 する 場合 、 誤 差 の 蓄 積 を 抑 える 事 が 可 能 となる・ できる 限 り 同 一 の 特 徴 点 を 長 く 追 跡 できることが 望 ましい77Bundle adjustmentS p( x,y,z)M iE reprojection =ipu ip − u ip ′ 2 + v ip − v ip ′ 2u ip , v ip : 特 徴 点 pのフレームiにおける 画 像 座 標u ip ′, v ip ′ : 特 徴 点 pの 三 次 元 位 置 をフレームiに 投 影 した 投 影 座 標カメラ 外 部 パラメータ M i と 三 次 元 位 置 S p をパラメータとして、 再 投 影 誤 差 の 総和 を 最 小 化 することで 誤 差 の 蓄 積 を 抑 止7839


2) 順 次 復 元 によるv-SLAMの 実 現新 たに 観 測 される 特 徴 点 の 三 次 元 位 置 を 復 元 し、信 頼 度 の 高 いものはmapに 追 加 するTwo-view SfMによる 復 元Image 1 Image 2三 次 元 位 置 を 復 元 済 みの 特徴 点 が 観 測 できる 限 り、PnP問 題 を 解 くことでカメラ 位 置を 推 定 可 能Two-view SfMで 初 期 の 三 次 元 復 元 を 行 い、 以 降 特 徴 点 の 三 次 元 位置 推 定 、カメラ 位 置 推 定 を 繰 り 返 すことで、 推 定 を 継 続 できる 79逐 次 復 元 によるv-SLAMの 流 れTwo-view SfMによる 初 期 推 定フレーム 毎 の 処 理特 徴 点 の 追 跡カメラ 位 置 ・ 姿 勢 の 推 定特 徴 点 の 三 次 元 位 置 の 推 定特 徴 点 の 追 加(option) Local / Global bundle adjustment8040


Bundle adjustmentの 効 果81順 次 復 元 によるv-SLAMの 特 徴• 単 純 なアルゴリズムではあるが、それなりに 動 く• 誤 差 の 蓄 積 があるが、 多 数 のフレームに 渡 って 特徴 点 の 追 跡 を 行 うことで、 一 定 レベルまでは 抑 止できる• Bundle adjustmentを 併 用 することで、 更 に 誤 差 の蓄 積 を 低 減 可 能 だが、 何 らかの 工 夫 なしには 処 理の 実 時 間 性 は 失 われる• 基 本 的 には 再 投 影 誤 差 を 逐 次 最 小 化 しているので、Global bundle adjustment / SfMの 初 期 値 としての 性 質 は 良 い8241


3)TrackingとMappingの 並 列 化による 手 法• MappingとTrackingを 並 列 かつ 非 同 期 に 行 うことで、 実 時 間 処 理 を実 現 しながら 蓄 積 誤 差 の 解 消 を 図 る 手 法• キーフレームのみを 最 適 化 の 対 象 とすることで、 処 理 を 効 率 化Tracking threadMapping threadtwo-view SfMによる 初 期 化特 徴 点 の 対 応 付 けカメラ 位 置 ・ 姿 勢 の 推 定キーフレームの 追 加キーフレームを 対 象 としたBundle adjustment+マップ 点 の 追 加83PTAMの 詳 細• Key-frameの 画 像 のみを 保 持• Key-frame 画 像 はピラミッド 画 像 として 保 存• 特 徴 点 のテンプレート 画 像 は 個 別 に 保 存 せず、 特 徴 点 が 最 初に 観 測 されたキーフレーム 上 の 座 標 を 保 存• 特 徴 点 の 対 応 づけは、 粗 密 的 に 実 行(1) 広 めの 探 索 範 囲 で50 点 対 応 づけ(2) カメラ 位 置 ・ 姿 勢 推 定(3) 狭 い 探 索 範 囲 で1000 点 再 投 影 ・ 対 応 づけ(4) カメラ 位 置 ・ 姿 勢 更 新• 特 徴 点 の 対 応 数 の 割 合 が 一 定 を 下 回 った 場 には 合 、マップへのkey-frameの 追 加 を 実 行 しない• 新 たなキーポイントの 追 加 は、キーフレーム 間 でのエピポーラ制 約 を 用 いた 対 応 点 探 索 と 三 角 測 量 により 実 現8442


PTAM(Parallel Tracking and Mapping)G. Klein et al., Parallel Tracking and Mapping for Small AR Workspace, ISMAR 2007854)Extended-Kalman-Filterによる 手 法EKFの 枠 組 みにより 現 在 のカメラ 位 置 姿 勢 ・ 移 動 速 度 と 特 徴 点 の 三 次 元 位 置を 格 納 したステートベクトルの 状 態 予 測 ・ 更 新 を 繰 り 返 す 手 法https://www.youtube.com/watch?v=mimAWVm-0qA86A. Davison, et al., “MonoSLAM: Real-Time Single Camera SLAM”, PAMI, Vol.29, No.6, 200743


MonoSLAMの 概 要 ・ 特 徴・EKFの 予 測 ・ 更 新 を 繰 り 返 すことで、カメラ 位 置 と 特 徴 点 の 三 次 元位 置 を 推 定・ 何 らかの 指 標 を 用 いたステートベクトルの 初 期 化 が 必 要・ 予 測 におけるモーションモデルとして、 一 定 速 度 の 運 動 を 仮 定・ 小 数 の 特 徴 点 が 長 時 間 観 測 されることを 前 提 としている長 所・ 複 数 センサ 情 報 を 扱 うことが 容 易短 所・ 観 測 情 報 を 用 いた 最 適 化 ができないため、 誤 差 の 蓄 積 が 起 こる・ 共 分 散 行 列 が 巨 大 となるため 大 量 の 特 徴 点 を 扱 うことは 難 しい87v-SLAM / SfMにおける 精 度 向 上のためには?(a) カメラの 画 角 を 広 げる( 可 能 なら 全 方 位 カメラ)(b) 特 徴 点 を 空 間 的 に 広 く 配 置 する(2D/3D 双 方 )(c) 特 徴 点 の 追 跡 精 度 を 高 める(d) 推 定 に 用 いる 特 徴 点 の 数 を 増 やす(e) 撮 影 対 象 までの 距 離 を 短 くする( 絶 対 位 置 推定 精 度 が 重 要 な 場 合 )8844


チュートリアル 概 要1. 導 入2. v-SLAMの 応 用 分 野3. カメラ 位 置 ・ 姿 勢 推 定 (Localization)4. 特 徴 点 追 跡 と 三 次 元 位 置 推 定 (Mapping)5. v-SLAMのアルゴリズム6. 様 々な 課 題 への 対 応7. 最 新 研 究 動 向89v-SLAMにおけるスケールの 不 定 性上 記 の 国 会 議 事 堂 のミニチュアモデルと、 本 物 の 国 会 議 事 堂は、 全 くサイズが 異 なるが、 画 像 上 の 見 かけ(ここでは 特 徴 点 の位 置 )は 同 じにすることができる本 質 的 に、 画 像 のみから 対 象 のスケール 情 報 を 復 元 することはできないため、 何 らかの 外 部 指 標 が 必 要9045


絶 対 位 置 の 決 定マップがその 場 で 構 築 されるため、 位 置 に 依 存 した 情 報サービスの 提 供 には、 何 らかの 事 前 指 標 が 必 要 となる*T.Lee et al., Initializing MarkerlessTracking Using a Simple Hand Gesture,ISMAR 2007*R. Castle et al., Video-rate Localization inMultiple Maps for Wearable AugmentedReality, ISWC, 200891蓄 積 誤 差 の 問 題 ・ 追 跡 失 敗 の 問 題• Loop closing・re-localization推 定 されたカメラの 動 き真 のカメラの 動 き基 本 的 な 処 理 の 流 れ1. 類 似 画 像 探 索 により 同 一 地 点 を 検 出2. 画 像 間 で 対 応 点 を 決 定3. 全 体 での 最 適 化 処 理9246


データ 量 の 削 減 、 高 速 化• Key frame based reconstruction全 ての 画 像 を 保 持 する 代 わりに、 一 定 の 基 準 によってキーフレームを 選 別 し、キーフレームのみを 利 用 して 三次 元 復 元 をしようとする 方 法• GPU、 並 列 計 算 (マルチコア)の 利 用• 時 間 での 計 算 打 ち 切 り 方 式 の 採 用• 粗 密 探 索 的 アプローチの 採 用93チュートリアル 概 要1. 導 入2. v-SLAMの 応 用 分 野3. カメラ 位 置 ・ 姿 勢 推 定 (Localization)4. 特 徴 点 追 跡 と 三 次 元 位 置 推 定 (Mapping)5. v-SLAMのアルゴリズム6. 様 々な 課 題 への 対 応7. 最 新 研 究 動 向9447


Direct methodとはFeature / key-point based method• 特 徴 点 のみを 利 用 し、それ 以 外 の 情 報 は 利 用 しないDirect method• 特 徴 点 に 限 定 せず、( 可 能 なら) 全 ての 画 素 の 三 次元 情 報 を 利 用 した 位 置 合 せを 行 う• 基 本 的 には、photo consistencyを 高 めるようにカメラ 位 置 ・ 姿 勢 を 推 定 する 枠 組 み95SVO: Fast Semi-Direct MonocularVisual Odometryhttps://www.youtube.com/watch?v=2YnIMfw6bJY 9648


DTAM: Dense Tracking and Mapping inReal-Timehttps://www.youtube.com/watch?v=Df9WhgibCQA97LSD-SLAM: Large Scale DirectMonocular SLAMhttps://www.youtube.com/watch?v=GnuQzP3gty4 9849


まとめ• vSLAMの 基 本 は、 特 徴 点 のトラッキング、カメラ 位置 ・ 姿 勢 ・ 三 次 元 位 置 推 定 、 最 適 化 処 理 の 繰 り 返 し• 高 速 化 のための 様 々な 工 夫 があるが、リアルタイム 処 理 には 実 装 テクニック 自 体 もかなり 重 要• 研 究 分 野 の 関 心 は、 特 徴 点 だけでなくより 密 な 画素 値 情 報 を 利 用 するDirect methodに 移 りつつある• 現 状 OpenCVや 他 のオープンソースプロジェクトが多 数 公 開 されており、 特 徴 点 ベースのvSLAMの 研究 ・ 開 発 に 対 する 敷 居 はかなり 低 くなっている99OpenCV3.0 内 の 使 えそうな 関 数Localization• solvePnP, solvePnPRansac• findFundamentalMat, findEssentialMat,• decomposeEssentialMat• recoverPose• RodriguesTracking, Mapping• triangulatePoints特 徴 点 検 出• SIFT, FAST, SURF他 多 数これらの 組 み 合 わせで 簡 単 なvSLAMを 構 築 することは 比 較的 容 易10050


Tracking CompetitionISMAR2015(9 月 福 岡 開 催 )でvisual SLAMを 対 象 としたcompetitionを 実 施 予 定下 記 Tracking Competition ペ ー ジ に 、 OpenCV と Ceressolverの 組 み 合 わせで 構 成 されたvisual SLAMのサンプルコードが 掲 載 される 予 定http://ypcex.naist.jp/trakmark/tracking-competition/初 心 者 をターゲットとした 電 子 情 報 通 信 学 会 PRMUアルゴリズムコンテストとしてのvSLAMコンペティションの 共催 も 予 定101Open Source Projects:Loop Closure detector:• OpenFABMap: https://code.google.com/p/openfabmap/Bundle Adjustment・ SBA: http://users.ics.forth.gr/~lourakis/sba/・ Ceres solver: http://ceres-solver.org/Visual SLAM・PTAM: http://www.robots.ox.ac.uk/~gk/PTAM/・PTAMM: http://www.robots.ox.ac.uk/~bob/research/research_ptamm.html・SVO: https://github.com/uzh-rpg/rpg_svo・LSD SLAM: http://vision.in.tum.de/research/lsdslam・Open DTAM: https://github.com/anuranbaka/OpenDTAM10251


参 考 文 献• 特 徴 点 抽 出FAST: E. Rosten and T. Drummond. Machine learning for high-speed corner detection. In Proc.9th European Conference on Computer Vision (ECCV’06), Graz, May 2006.Shi-Tomasi: J. Shi and C. Tomasi, “Good features to track,” in Proceedings of the IEEEConference on Computer Vision and Pattern Recognition, pp. 593–600, 1994.• v-SLAMアルゴリズムPTAM: G. Klein et al., Parallel Tracking and Mapping for Small AR Workspace, ISMAR 2007monoSLAM: A. Davison, et al., “MonoSLAM: Real-Time Single Camera SLAM”, PAMI, Vol.29,No.6, 2007SVO: C. Forster, M. Pizzoli, D. Scaramuzza, “SVO: Fast Semi-Direct Monocular VisualOdometry”, ICRA, 2014DTAM: R. Newcombe, S. Lovegrove and A. Davison, “DTAM: Dense Tracking and Mapping inReal-Time”, ICCV, 2011LSD-SLAM: J. Engel, T. Schöps, D. Cremer: “Large-Scale Direct Monocular SLAM“, In EuropeanConference on Computer Vision (ECCV), 201410352

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!