SSIIチュートリアル佐藤
SSIIチュートリアル佐藤
SSIIチュートリアル佐藤
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Visual SLAM(v-SLAM)の 応 用 分 野画 像 生 成 ・ 可 視 化• 拡 張 現 実 感 (AR: Augmented Reality)• 隠 消 現 実 感 (DR: Diminished Reality)• 自 由 視 点 画 像 生 成• 実 物 体 ・ 実 シーンの 三 次 元 モデル 生 成 / 仮 想 化自 動 化• ロボットナビゲーション• 車 両 の 自 動 走 行 / 運 転 支 援その 他• Structure from Motion 法 の 初 期 値 生 成7Augmented Reality ( 拡 張 現 実 感 )・ 実 シーンにCGによる 仮 想 世 界 を 合 成 提 示 する 手 法・ リアルタイムにカメラの 位 置 ・ 姿 勢 を 推 定 する 必 要 があるG. Klein et al., Parallel Tracking and Mapping for Small AR Workspace, ISMAR 2007 84
Diminished Reality ( 隠 消 現 実 感 )・ 実 シーンから 不 要 な 物 を 視 覚 的 に 取 り 除 く 手 法・ リアルタイムにカメラの 位 置 ・ 姿 勢 を 推 定 する 必 要 があるN. Kawai, T. Sato, and N. Yokoya: Diminished reality considering background structures, ISMAR2013 9自 由 視 点 画 像 生 成・ 本 来 撮 影 されていない 視 点 からの 映 像 を 合 成 する 手 法・シーンの 三 次 元 構 造 と 元 のカメラの 位 置 関 係 が 必 要 となる・ 例 えばStreet view 画 像 群 から 任 意 経 路 で 移 動 するビデオが 生 成 可 能1m元 のカメラパス仮 想 カメラ仮 想 カメラの移 動 経 路T. Sato, H. Koshizawa, and N. Yokoya: Omnidirectional free-viewpoint rendering using a deformable3-D mesh model, IJVR, 2010.10* 本 研 究 ではSfMの 初 期 値 生 成 にvSLAMを 利 用5
自 由 視 点 画 像 生 成 による遠 隔 ロボットの 操 縦 支 援 システム操 縦 者 の 頭 部 位 置 に 連 動 した 自 由 な 視 点 位 置 からの 画 像 生 成 を 行 い、 死 角 領域 を 確 認 しながらリアルタイムでのロボット 操 作 を 支 援 するシステムF. Okura, Y. Ueda, T. Sato, and N. Yokoya: Free-viewpoint mobile robot teleoperation interface usingview-dependent geometry and texture, ITE Trans. on MTA. 2014.11* 本 研 究 ではKinectによるvisualでないSLAMを 利 用 しているが、 原 理 的 にはvSLAMでも 同 様 のことが 実 現 可 能v-SLAMを 用 いた 湾 曲 した紙 面 のスキャンシステムT Sato, A. Iketani, S. Ikeda, M. Kanbara, N. Nakajima, and N. Yokoya: Video mosaicing forcurved documents by structure from motion, ACM SIGGRAPH2006, Sketches. 126
関 連 研 究 : Structure from Motion・ 動 画 像 または 画 像 群 から、カメラの 位 置 ・ 姿 勢 とシーン 中の 特 徴 点 の 三 次 元 位 置 を 復 元 する 手 法・Multi-view Stereo 法 などと 組 み 合 わせてシーンの 形 状 復元 に 用 いられるhttp://www.cs.cornell.edu/~snavely/bundler/13全 方 位 SfM in 東 大 寺 大 仏 殿147
SfM と v-SLAM の 関 係SfMv-SLAMオフライン・ 高 精 度リアルタイム・ 逐 次 出 力SfMv-SLAM入 力 画 像 群 動 画 像 ( 連 続 撮 影 画 像 )リアルタイム 性 不 要 要結 果 出 力 一 括 逐 次利 用 可 能 な 情 報全 て( 復 元 対 象 から 見 て 未来 の 情 報 も 利 用 )現 時 点 までの 情 報 のみ破 綻 時 の 復 帰 処 理 比 較 的 容 易 容 易 ではない特 徴 点 追 跡容 易 ではない( 連 続 撮 影 でない 場 合 )誤 差 の 蓄 積 小 ~ 中 大比 較 的 容 易( 探 索 範 囲 の 限 定 が 可 能 )15最 も 単 純 なSLAMの 実 現 方 法mappinglocalization初 期 値Image 1 Image 2何 らかの 方 法 で、カメラ 位 置 の 初 期 値 が 与 えられれば、localization, mappingを 繰 り 返 すことで、 推 定 を 継 続 できる168
チュートリアル 概 要1. 導 入2. v-SLAMの 応 用 分 野3. カメラ 位 置 ・ 姿 勢 推 定 (Localization)4. 特 徴 点 追 跡 と 三 次 元 位 置 推 定 (Mapping)5. v-SLAMのアルゴリズム6. 様 々な 課 題 への 対 応7. 最 新 研 究 動 向17カメラ 位 置 ・ 姿 勢 の 表 現Q. カメラはどこにありますか。またどちらを 向 いていますか。A. カメラは位 置 :・ 青 森 県 xxx 市 にある・ 東 京 の600km 北 にある・ 緯 度 135 40’xxx, 軽 度 34 39‘xxxにある姿 勢 :・ 東 を 向 いている・ 太 平 洋 を 向 いている・ 月 の 方 向 を 向 いている基 準 となる 座 標 系 を 設 定 する必 要 がある189
GPS 座 標 系 が 良 い?緯 度 135 40’xxx経 度 34 39‘xxx高 さ 10^10km緯 度 135 40’xxx経 度 34 39‘xxx 緯 度 135 40’xxx経 度 34 39‘xxx先 行 車 両 との 位 置 関 係 は?利 用 用 途 に 応 じてそれに 適 した 座 標 系 を 決 定 する 必 要 がある19ローカル 座 標 とワールド 座 標yyyxzワールド 座 標zxローカル 座 標(カメラ 座 標 )zローカル 座 標(カメラ 座 標 )xワールド 座 標 : 全 体 の 共 通 基 盤 となる 座 標 系ローカル 座 標 : ワールド 座 標 系 とは 独 立 に 運 動 する物 体 毎 に 設 定 される 座 標 系(カメラに 対 象 した 場 合 はカメラ 座 標 )2010
カメラ 位 置 ・ 姿 勢 推 定 問 題 とはyカメラ 座 標 系xシーンzz画 像 座 標 系Muyvx0ワールド 座 標 系ワールド 座 標 とカメラ 座 標 の 間 の 座 標 変 換 行 列 Mを 求 める 問 題Mを 用 いることで、ワールド 座 標 上 の 任 意 の 点 を 画 像 上 に 射 影することができる21絶 対 位 置 ・ 姿 勢 と 相 対 位 置 ・ 姿 勢y絶 対 位 置 ・ 姿 勢y相 対 位 置 ・ 姿 勢yxzzワールド 座 標xカメラ 座 標 系 ( 位 置 A)zxカメラ 座 標 系 ( 位 置 B)zyxカメラ 座 標 系 ( 位 置 B)絶 対 位 置 ・ 姿 勢 : 他 の 系 から 参 照 可 能 で 再 現 可 能 な 世 界 座 標 において 推 定 される 位 置 ・ 姿 勢 情 報相 対 位 置 ・ 姿 勢 : 再 現 可 能 でない 座 標 系 による 推 定v-SLAMでは、 何 らかの 基 準 を 設 けない 限 り、 相 対 位 置 ・ 姿 勢 しか推 定 できない2211
カメラ 位 置 ・ 姿 勢 推 定 によるAR 画 像 生 成AR ToolkitではARマーカ 上 に 世 界 座 標 を 設 定 し、 世 界 座 標 系 に固 定 された3DCGをカメラ 座 標 に 変 換 ・ 投 影 することで、 画 像 上 にCGを 合 成 提 示 している23ワールド 座 標 からカメラ 座 標 への座 標 変 換 行 列 MM WtoC =r 11 r 12 r 13 t 1r 21 r 22 r 23 t 2r 31 r 32 r 33 t 30 0 0 1=R t0 T 1上 記 のMを 用 いて、ワールド 座 標 系 の三 次 元 位 置 x w , y w , z w は、カメラ 座標 系 の 三 次 元 位 置 x c , y c , z c に, 下 記の 式 で 射 影 される。x cx w x w ty 1cywz= M WtoC czw= R yw + t 2zw t113x c , y c , z cyxM WtoCzx w , y w , z wxScenezy02412
カメラ 外 部 パラメータMの 自 由 度M WtoC =r 11 r 12 r 13 t 1r 21 r 22 r 23 t 2r 31 r 32 r 33 t 30 0 0 1=R t0 T 1カメラ 位 置 ・ 姿 勢 推 定 において、この 行 列 はカメラ 外 部 パメータと 呼ばれ、 Rは 回 転 行 列 、tはカメラの 並 進 ベクトルを 表 す。Rは、 何 も 考 えなければ9 自 由 度 、tは3 自 由 度 で、Mは 合 計 12 自 由度 を 持 つ。一 般 には、 Rを3 自 由 度 で 表 現 することで、 M の 自 由 度 は6となる25回 転 行 列 の 表 現オイラー 角 表 現 : 各 軸 周 りの 回 転 角 度 がα, β, γの 場 合cosα −sinα 0 cosβ 0 sinβ 1 0 0R = sinα cosα 0 0 1 0 0 cosγ −sinγ0 0 1 −sinβ 0 cosβ 0 sinγ cosγ回 転 軸 ・ 回 転 角 による 表 現 : 回 転 軸 ベクトルr = (n 1 , n 2 , n 3 )まわりにθラジアン回 転 する 場 合cosθ + n 2 1 (1 − cosθ) n 1 n 2 (1 − cosθ) n 1 n 3 1 − cosθ + n 2 sinθR = n 1 n 2 1 − cosθ + n 3 sinθ cosθ + n 2 2 (1 − cosθ) n 2 n 3 1 − cosθ − n 1 sinθn 1 n 3 1 − cosθ − n 2 sinθ n 2 n 3 1 − cosθ − n 1 sinθ cosθ + n 2 3 (1 − cosθ)ただし、|r| = 1クオータニオン 表 現 : q 0 , q 1 , q 2 , q 3 = (cos θ 2 , n 1sin θ 2 , n 2sin θ 2 , n 3sin θ 2 )とおくと、R =q 2 0 + q 2 1 − q 2 22 − q 3 2(q 1 q 2 − q 0 q 3 ) 2(q 1 q 3 + q 0 q 2 )2(q 1 q 2 + q 0 q 3 ) q 2 0 − q 2 1 + q 2 22 − q 3 2(q 2 q 3 − q 0 q 1 )2(q 1 q 3 − q 0 q 2 ) 2(q 2 q 3 + q 0 q 1 ) q 2 0 − q 2 1 − q 2 22 + q 32613
カメラ 座 標 系 間 の 変 換y−1M AtoB = M B M AM AM Byzxカメラ 座 標 系 ( 位 置 A)yxzzxワールド 座 標 カメラ 座 標 系 ( 位 置 B)座 標 系 の 逆 変 換 は、 逆 行 列 を 算 出 することで 得 られるため、カメラ 座 標 間 の 変 換 は 容 易 に 求 まる27投 影 モデルyカメラ 座 標x画 像 座 標zシーンzvuyカメラ 座 標 上 の 三 次 元 位 置 を 画 像 上 に 投 影 した 投 影 座 標を 決 定 するためには、 投 影 モデルを 決 定 する 必 要 があるx世 界 座 標28014
• 直 交 投 影代 表 的 な 投 影 モデルuv = s 0 0 00 s 0 0x cy cz c1(x c , y c , z c )画 像 平 面(u, v)• 透 視 投 影λuv1=f x 0 c x 00 f y c y 00 0 1 0校 正 行 列 K (カメラ 内 部 パラメータ)* 以 後 説 明 簡 単 化 のため、f x = f y = f, c x = c y = 0とするx cy cz c1(x c , y c , z c )画 像 平 面(u, v)29カメラ 座 標 系 と透 視 投 影 (ピンホール)カメラモデルyfvx(u, v)z画 像 上 の 点 の二 次 元 位 置uカメラ 座 標 系 における点 の 三 次 元 位 置(x c , y c , z c )単 純 な 透 視 投 影 の 式 : u = f x c, v = f y cz c z c30* 実 際 には、カメラの 投 影 歪 み、アスペクト 比 、 等 を 考 慮 したカメラ 内 部 パラメータが 必 要15
透 視 投 影 カメラモデルyカメラ 座 標x画 像 座 標Kzシーンzλuv1vu= K M WtoCx wywzw1xy0世 界 座 標v-SLAMでは、 内 部 パラメータKは 変 動 しないことを 前 提 に、事 前 にキャリブレーションにより 取 得 しておくことが 一 般 的31Perspective N Point (PnP) 問 題y(u, v)(x w , y w , z w )xローカル 座 標 系z対 応 点yz画 像 座 標x世 界 座 標ワールド 座 標 においてN 点 の 三 次 元 位 置 (x w , y w , z w )と、その 画 像 上の 座 標 (u, v)のペアからカメラ 外 部 パラメータ 行 列 Mを 推 定 する 問 題3216
PnP 問 題 の 最 小 解• P3P: 3 点 の 対 応 からカメラ 位 置 を 推 定最 大 4つの 解 が 存 在 するため、 一 意 に 解 を 定 めるには 付 加 的 な 情 報 が 必 要• P4P: 4 点 の 対 応 からカメラ 位 置 を 推 定解 が 一 意 に 得 られるただし、 v-SLAMでの 利 用 を 想 定 する 場 合 には、N>=20 程 度 ないと、 安 定 した 解 が 得 られない 場 合 が多 い (Nが 小 さい 場 合 は 誤 差 の 蓄 積 速 度 が 上 がる)33Image space errorとObject space errorカメラ 位 置 ・ 姿 勢 推 定 問 題 は、 基 本 的 には 誤 差 最 小 化 問 題 となるが、Object space errorよりもImage space errorを 最 小 化 することで良 い 推 定 結 果 が 得 られることが 知 られている。y(u, v)Image space error(x w , y w , z w )Object space errorzxカメラ 座 標yzx画 像 平 面世 界 座 標Object space errorの 最 小 化 では 線 形 に 解 が 得 られるため、 初 期 値 の 算 出 に 用いられる3417
Object space errorの 最 小 化λu pv p1= M WtoCx wpy wpz wp1*ここでは 簡 単 化 のためKを 省 略u p = x wpr 11 + y wp r 12 + z wp r 13 + t 1x wp r 31 + y wp r 32 + z wp r 33 + t 3v p = x wpr 21 + y wp r 22 + z wp r 23 + t 2x wp r 31 + y wp r 32 + z wp r 33 + t 3x wp r 31 + y wp r 32 + z wp r 33 + t 3 u p − (x wp r 11 + y wp r 12 + z wp r 13 + t 1 ) = 0x wp r 31 + y wp r 32 + z wp r 33 + t 3 v p − (x wp r 21 + y wp r 22 + z wp r 23 + t 2 ) = 0As = 0,A = −x wp −y wp −z wp 0 0 0 x wp u p y wp u p z wp u p −1 0 u p0 0 0 −x wp −y wp −z wp x wp u p y wp u p z wp u p 0 −1 v p,s = r 11 r 12 r 13 r 21 r 22 r 23 r 31 r 32 r 33 t 1 t 2 t 3 T .35A =Direct Linear Transform観 測 点 が6 点 以 上 得 られる 場 合N N−x w1 −y w1 −z w1 0 0 0 x w1 u 1 y w1 u 1 z w1 u 1 −1 0 u 10 0 0 −x w1 −y w1 −z w1 x w1 u 1 y w1 u 1 z w1 u 1 0 −1 v 1−x w2 −y w2 −z w2 0 0 0 x w2 u 2 y w2 u 2 z w2 u 2 −1 0 u 20 0 0 −x w2 −y w2 −z w2 x w2 u 2 y w2 u 2 z w2 u 2 0 −1 v 20 0 0 −x wN −y wN −z wN x wN u N y wN u N z wN u 0 −1 v,…−x wN −y wN −z wN 0 0 0 x wN u N y wN u N z wN u N −1 0 u Ns = r 11 r 12 r 13 r 21 r 22 r 23 r 31 r 32 r 33 t 1 t 2 t 3 T .As = 0Aは 観 測 情 報 のみから 成 り、sは 未 知 パラメータから 成 るSVD, 疑 似 逆 行 列 等 により 解 を 得 ることが 可 能Direct Linear Transformの 問 題 :・ 回 転 行 列 の 成 分 であるRが 正 規 直 交 基 底 を 満 たさない3618
Image space errorの 最 小 化 による6 自 由 度 カメラ 位 置 ・ 姿 勢 の 決 定y(x w1 , y w1 , z w1 )(u 1 , v 1 )xImage space erroryzカメラ 座 標(u p , v p )画 像 平 面(x wp , y wp , z wp )x世 界 座 標Image space error E im :xx wpcp2 2E im = p { u p − fx cp /z cp + vp − fy cp /z cp } , yycp = M wpWtoC zz wpcp1この 問 題 は 非 線 形 最 小 化 問 題 となるため、 良 い 初 期 値 が 必 要*vSLAM/SFMでは、Re-projection error( 再 投 影 誤 差 )と 呼 ばれる37E im繰 り 返 しによるImage Space Errorの 最 小 化DLT 等 により 得 られる 初 期 値局 所 解局 所 解大 域 最 適 解0パラメータ2 2E im = p { u p − fx cp /z cp + vp − fy cp /z cp }Levenberg-Marquardt 法 などを 用 いれば 数 回 の 繰 り 返 しで 最 小 値 に 到 達3819
誤 対 応 が 存 在 する 場 合 の 対 応- ロバスト 推 定 -• RANSAC• 少 数 の 点 を 繰 り 返 しランダムにサンプリングし、inlier 数を 最 大 化 するモデルを 選 択 する 手 法• M-estimator• 最 小 自 乗 法 では、outlierの 影 響 が 極 めて 大 きくなるため、 例 外 値 の 重 みを 小 さくするような 誤 差 関 数 を 用 いる方 法*inlier: 正 しい 対 応 点 、outlier: 誤 った 対 応 点39RANSACによるカメラ 位 置 姿 勢 推 定yinlierxカメラ 座 標Image space errorinlieroutlierinlier1. 何 らかの 方 法 で、 仮 の 対 応 点 (2D-3D 対 )を 決 定 する(tentative match)2. 仮 の 対 応 点 群 から、ランダムにn 点 を 選 択 する3. 選 択 したn 組 の(2D-3D) 点 を 用 いてPnP 問 題 を 解 くことで、カメラ 位 置 ・ 姿 勢 を 推 定 する4. 推 定 したカメラ 位 置 ・ 姿 勢 を 使 って、 全 ての3D 点 を 画 像 上 に 投 影 する。5. 投 影 点 と 画 像 上 の2D 点 の 間 の 距 離 (image space error)が 閾 値 以 上 のものをoutlier,それ 以 外 をinlierとして、inlierの 数 を 数 える。6. 2.~5.を 繰 り 返 し、inlier 数 が 最 大 となるカメラ 位 置 ・ 姿 勢 を 選 択 し、これによりoutlierを排 除 する4020
M-estimator(M 推 定 )E im = p {f u p − fx cp /z cp + f v p − fy cp /z cp }f(x)f(x) = x 2f x =c 26 1 − 1 − x cc 262 3 x ≤ cotherwisex41RANSAC / M-estimatorの 特 徴• RANSAC• 十 分 な 繰 り 返 し 回 数 が 確 保 されない 場 合 、inlierをoutlierと 判 定 し、 処 理 が 破 綻 する 場 合 がある• 仮 の 対 応 点 に 含 まれるoutlierの 割 合 が 小 さい 場 合 、outlierの 影 響 を 完 全 に 排 除 することができる• 特 に 誤 対 応 が 多 いと 想 定 される 場 合 には、 多 くの 繰 り返 し 回 数 を 必 要 とし、 処 理 に 時 間 がかかる• M-estimator• outlierの 影 響 を 完 全 には 排 除 できない• 初 期 値 をDLT 等 で 与 える 場 合 、 初 期 値 がoutlierに 影 響され、 局 所 解 に 陥 る 可 能 性 がある4221
人 工 マーカを 用 いた 手 法 の 問 題美 観 を 損 ねる 場 合 がある屋 外 等 の 広 域 環 境 にマーカを 配 置 ・ 維 持 することが 難 しい43自 然 特 徴 を 用 いた 位 置 合 わせ 手 法特 徴 点線 特 徴シーン 中 に 存 在 する、 特 徴 点 や 線 特 徴 を 利 用 して 位置 合 わせを 行 う4422
自 然 特 徴 として 何 が 使 えるのか• 特 徴 点 ( 輝 度 エッジのコーナー)多 くの 環 境 に 存 在 する手 動 でのモデル 化 が 比 較 的 難 しい• 線 特 徴 ( 線 状 の 輝 度 エッジ)自 然 環 境 には 少 ない手 動 でのモデル 化 が 比 較 的 容 易45事 前 知 識 を 用 いた 位 置 合 わせ 手 法- 三 次 元 モデルを 用 いる 手 法現 実 物 体CADモデル現 実 物 体 またはシーンの 三 次 元 モデルをあらかじめCAD 等 により 作 成 しておき、幾 何 位 置 合 わせに 利 用 する46*T.Dummond et al.、Real-Time Visual Tracking of Complex Structures, PAMI, 200223
線 特 徴 を 用 いた 幾 何 位 置 合 わせ*CADモデルを 入 力 画 像 上 に 投 影 し、 投 影 されたモデルの 輪 郭 線 と 画 像 上 の輝 度 エッジの 間 の 距 離 を 最 小 化 する (Visual Servo)47*T.Dummond et al.、Real-Time Visual Tracking of Complex Structures, PAMI, 2002線 特 徴 + 点 特 徴 を 利 用 した 手 法 (1/2)** Luca Vacchetti et al., Combining edge and texture informationfor real-time accurate 3D camera tracking, ISMAR 20044824
線 特 徴 + 点 特 徴 を 利 用 した 手 法 (2/2)** Luca Vacchetti et al., Combining edge and texture informationfor real-time accurate 3D camera tracking, ISMAR 200949自 然 特 徴 点 ランドマークを 用 いる 手 法学 習 フェーズ実 践 フェーズ*自 然 特 徴 点 の 三 次 元 位 置 と画 像 パターンを 学 習CADモデル 等 を 用 いることなくマーカレストラッキングを 実 現* Y. Genc et al., Marker-less Tracking for AR: A Learning-Based Approach, ISMAR 20025025
マーカレスAR 画 像 の 生 成 結 果5353拡 張 現 実 感 によるユーザナビゲーション検 出 されたランドマークユーザに 提 示 されるナビゲーション 情 報5427
カメラ 位 置 ・ 姿 勢 推 定に 関 するまとめ• 三 次 元 位 置 が 既 知 の 対 象 があれば、カメラ 位 置 ・姿 勢 はPnP 問 題 を 解 くことで 推 定 可 能• 三 次 元 位 置 が 既 知 の 対 象 としては、マーカ、 三 次元 モデル、SfM 等 により 事 前 に 復 元 した 自 然 特 徴点 の 三 次 元 位 置 、 等 が 利 用 される• 自 然 特 徴 点 の 三 次 元 位 置 をリアルタイムで 推 定 できれば、v-SLAMを 実 現 可 能55チュートリアル 概 要1. 導 入2. v-SLAMの 応 用 分 野3. カメラ 位 置 ・ 姿 勢 推 定 (Localization)4. 特 徴 点 追 跡 と 三 次 元 位 置 推 定 (Mapping)5. v-SLAMのアルゴリズム6. 様 々な 課 題 への 対 応7. 最 新 研 究 動 向5628
自 然 特 徴 点 の 三 次 元 位 置 推 定(Mapping)推 定 される 自 然 特 徴 点 の 三 次 元 位 置自 然 特 徴 点 の画 像 上 の 座 標Object Space ErrorImage Space Error(Reprojection error: 再 投 影 誤 差 )カメラ 位 置 ・ 姿 勢 が 既 知 、かつ 特 徴 点 の 画 像 上 の 位 置 が 既 知 の 場合 、Object Space ErrorまたはImage Space Errorを 最 小 化 することで特 徴 点 の 三 次 元 位 置 を 推 定 可 能57特 徴 点 の 対 応 付 け(Tracking, Matching)特 徴 点 ベースのトラッキングの 流 れ1. 特 徴 点 の 検 出2. 特 徴 量 の 抽 出3. 対 応 点 の 決 定4. 誤 対 応 の 排 除5829
特 徴 点 の 検 出v-SLAMにおいて 特 徴 点 検 出 オペレータに 求 められる 要 件 :・ 抽 出 処 理 が 高 速 であること・ 繰 り 返 し 再 現 性 (Repeatability)が 高 いことv-SLAMでは、 一 般 に 直 前 のカメラ 位 置 ・ 姿 勢 を 利 用 することができるため、スケール 不 変 性 を 考 慮 する 必 要 はないShi-Tomasi, Harris, Fastなどの 高 速 ・ 軽 量 な 検 出 器 で 十 分である 場 合 が 多 い59v-SLAM 手 法 で 利 用されている 特 徴 点 ・ 特 徴 量特 徴 点特 徴 量PTAM FAST 画 素 値 そのものMonoSLAM Shi-Tomasi 画 素 値 そのものSVOFAST with highestShi-Tomasi score in the cell画 素 値 そのものVideoMosaic Shi-Tomasi 画 素 値 そのもの6030
FAST 特 徴 点 検 出 器注 目 画 素 周 辺 の16 画 素 の 輝 度 値 と、 注 目 画 素 の 輝 度 値 の 差 に 基 づいて3 値 化 された16 次 元 ベクトル(darker, similar, brighter)を 作 成 し、あらかじめ構 築 した 決 定 木 に 基 づいて 特 徴 点 かどうかを 決 定 する 手 法非 常 に 高 速 に 特 徴 点 を 検 出 することが 可 能61Shi-Tomasi 特 徴 点 検 出 器注 目 画 素 を 中 心 とするウインドウ 内 の輝 度 勾 配 ベクトルのヘッセ 行 列 の 固 有値 分 解 により 得 られる 最 小 固 有 値 の 値に 基 づいてコーナーを 決 定 する 方 法dIdy第 一 固 有 ベクトル輝 度 勾 配dIdx第 二 固 有 ベクトル第 二 固 有 値 の 値6231
特 徴 量 の 抽 出v-SLAMでは、 直 前 のカメラ 位 置 ・ 姿 勢 が 既 知 であることから、 特 徴 点 周 辺 が 平 面 であるとみなし、その法 線 情 報 を 推 定 ・ 保 持 しておくことで、スケール 変 化 、回 転 、 変 形 等 について 補 正 できる。このため、 比 較 的 大 きい 変 形 にも 対 応 可 能 なSIFT,SURF 等 のリッチな 特 徴 点 抽 出 オペレータは 用 いられず、 画 像 テンプレートそのものを 利 用 する 場 合 が 多い。63対 応 点 の 決 定 ・ 誤 対 応 の 排 除基 本 的 には 予 測 された 範 囲 内 の 特 徴 点 を 対 象 に 類似 度 評 価 を 行 い、 最 も 類 似 したものを 探 せばよい対 応 点 決 定 手 法誤 対 応 排 除 手 法PTAM Zero-mean SSD (Pyramid) M-estimator in BundleadjustmentMonoSLAMNormalized CrossCorrelationExtended Kalman FilterSVO SSD Probabilistic depthVideo mosaic SSD RANSAC6432
対 応 点 の 探 索 範 囲 の 限 定カメラの 動 きについて、 何 らかの 仮 説 が 得 られる 場 合 には、それまでに 推 定されている 特 徴 点 の 三 次 元 位 置 を 仮 のカメラ 位 置 ・ 姿 勢 を 用 いて 画 像 上 に再 投 影 することで、 特 徴 点 の 出 現 位 置 を 予 測 できる。対 応 点 の 探 索 範 囲予 想 されるカメラ 位 置また、この 様 な 仮 説 が 得 られないとしても、 画 像 間 での 最 大 視 差 を 設 定 することで、 画 像 上 での 対 応 点 の 探 索 範 囲 を 限 定 できる。65特 徴 点 の 三 次 元 位 置 の 決 定 :Image space errorの 最 小 化(x wp , y wp , z wp )(u p , v p )Image Space Error(Reprojection error: 再 投 影 誤 差 )世 界 座 標Image space error E im :xx wpcp2 2E im = p { u p − fx cp /z cp + vp − fy cp /z cp } , yycp = M wpWtoC zz wpcp1Object space error, image space errorの 順 に 最 小 化 すれば三 次 元 位 置 は 容 易 に 求 められる6633
特 徴 点 追 跡 と 三 次 元 位 置 推 定に 関 するまとめ• カメラ 位 置 ・ 姿 勢 が 既 知 であれば、 対 応 点 を 決 定 することで 特 徴 点 の 三 次 元 位 置 は 容 易 に 決 定 可 能• V-SLAMの 分 野 では、 高 速 性 が 重 視 されるため、 特徴 点 検 出 オペレータとして、FAST 等 の 軽 量 なものが利 用 される• 大 きなパターンの 変 形 を 考 える 必 要 がなく、 対 応 点探 索 の 範 囲 は 限 定 可 能 であるため、 単 純 な 変 形 を考 慮 したテンプレートマッチングが 用 いられる67チュートリアル 概 要1. 導 入2. v-SLAMの 応 用 分 野3. カメラ 位 置 ・ 姿 勢 推 定 (Localization)4. 特 徴 点 追 跡 と 三 次 元 位 置 推 定 (Mapping)5. v-SLAMのアルゴリズム6. 様 々な 課 題 への 対 応7. 最 新 研 究 動 向6834
1) Two-view SfMの 連 結 による 手 法- エピポーラジオメトリ -n特 徴 点 の 組 (x 0 , x 1 )と、それらが 作 るエピポーラ 平 面 Rには以 下 の 関 係 が 成 り 立 つn = t × Rx 0 = t × Rx 0x 1 T n = 071基 本 行 列 (Essential matrix)n = t × Rx 0x 1 T n = 0x 1 T t × Rx 0 = 0 .t × R を Eで 置 き 換 えると、 以 下 の 式 が 得 られるx T 1 Ex 0 = 0 .E = t × R は 基 本 行 列 と 呼 ばれる。Eは (x 0 , x 1 )の 組 が5 点 以 上 あれば 推 定 できる。*D. Nister: “An efficient solution to the five-point relative pose problem”, PAMI,26(6):756-770, 20047236
SVD( 特 異 値 分 解 )による基 本 行 列 の 分 解Eを 特 異 値 分 解 することで、 E = UΣV T のように3つの 行 列 の 積 に 分 解 できる。ここで、UとVは 正 規 直 交行 列 。 t × とRは、 以 下 の 式 で 得 られるt × = UZU T , R = UWV T or UW T V T ,ただし、0 1 0 0 −1 0Z = −1 0 0 , W = 1 0 00 0 0 0 0 173Two-view SfMによる 推 定 結 果 の 連 結1. 基 本 行 列 の 分 解 により、 画 像 ペアの 相 対 運 動を 推 定Image 1M 1→2M 2→3M 1→3 =M 2→3 M 1→2Image 2 Image 2Image 3M =R αt0 12. 推 定 結 果 を 連 結Image 1 Image 2Image 3ここで、スケールの 不 定 性 を 解 決 するためには、3 画 像 上 に共 通 して 観 測 可 能 な 点 が 最 低 一 点 必 要 となる7437
Two-view SfMの連 結 による 手 法 の 問 題• カメラ 間 の 距 離 が 短 く、 画 像 上 での 物 体 の 見 かけの 動 きが 小 さい 場 合 、 特 に 並 進 ベクトルtの 推 定 結 果 が 不 安 定となりやすい• 複 数 画 像 から 共 通 して 観 測 できる 点 が 少 ない 場 合 には誤 差 の 蓄 積 が 早 い解 決 方 法• ビデオ 映 像 に 適 用 する 場 合 には、フレームを 間 引 く 等 により、 十 分 なベースライン 距 離 を 確 保 する• ただし、ベースライン 距 離 を 離 しすぎると、 対 応 点 探 索 が難 しくなる75蓄 積 誤 差 の 問 題1% scale error 1% scale error1% scale errorImage 100Image 1 Image 2Image 3Image 4仮 に+1%の 偏 ったスケール 誤 差 が 常 に 与 えられた 場 合 、 100フレーム 後 のスケール 誤 差 は、1.01 100 = 2.70 = 270% となる7638
蓄 積 誤 差 を 抑 えるためには?Image 1 Image 2Image 3 Image 4Image 100・ 多 数 の 地 点 から 観 測 可 能 な 共 通 の 特 徴 点 が 存 在 する 場合 、 誤 差 の 蓄 積 を 抑 える 事 が 可 能 となる・ できる 限 り 同 一 の 特 徴 点 を 長 く 追 跡 できることが 望 ましい77Bundle adjustmentS p( x,y,z)M iE reprojection =ipu ip − u ip ′ 2 + v ip − v ip ′ 2u ip , v ip : 特 徴 点 pのフレームiにおける 画 像 座 標u ip ′, v ip ′ : 特 徴 点 pの 三 次 元 位 置 をフレームiに 投 影 した 投 影 座 標カメラ 外 部 パラメータ M i と 三 次 元 位 置 S p をパラメータとして、 再 投 影 誤 差 の 総和 を 最 小 化 することで 誤 差 の 蓄 積 を 抑 止7839
2) 順 次 復 元 によるv-SLAMの 実 現新 たに 観 測 される 特 徴 点 の 三 次 元 位 置 を 復 元 し、信 頼 度 の 高 いものはmapに 追 加 するTwo-view SfMによる 復 元Image 1 Image 2三 次 元 位 置 を 復 元 済 みの 特徴 点 が 観 測 できる 限 り、PnP問 題 を 解 くことでカメラ 位 置を 推 定 可 能Two-view SfMで 初 期 の 三 次 元 復 元 を 行 い、 以 降 特 徴 点 の 三 次 元 位置 推 定 、カメラ 位 置 推 定 を 繰 り 返 すことで、 推 定 を 継 続 できる 79逐 次 復 元 によるv-SLAMの 流 れTwo-view SfMによる 初 期 推 定フレーム 毎 の 処 理特 徴 点 の 追 跡カメラ 位 置 ・ 姿 勢 の 推 定特 徴 点 の 三 次 元 位 置 の 推 定特 徴 点 の 追 加(option) Local / Global bundle adjustment8040
Bundle adjustmentの 効 果81順 次 復 元 によるv-SLAMの 特 徴• 単 純 なアルゴリズムではあるが、それなりに 動 く• 誤 差 の 蓄 積 があるが、 多 数 のフレームに 渡 って 特徴 点 の 追 跡 を 行 うことで、 一 定 レベルまでは 抑 止できる• Bundle adjustmentを 併 用 することで、 更 に 誤 差 の蓄 積 を 低 減 可 能 だが、 何 らかの 工 夫 なしには 処 理の 実 時 間 性 は 失 われる• 基 本 的 には 再 投 影 誤 差 を 逐 次 最 小 化 しているので、Global bundle adjustment / SfMの 初 期 値 としての 性 質 は 良 い8241
3)TrackingとMappingの 並 列 化による 手 法• MappingとTrackingを 並 列 かつ 非 同 期 に 行 うことで、 実 時 間 処 理 を実 現 しながら 蓄 積 誤 差 の 解 消 を 図 る 手 法• キーフレームのみを 最 適 化 の 対 象 とすることで、 処 理 を 効 率 化Tracking threadMapping threadtwo-view SfMによる 初 期 化特 徴 点 の 対 応 付 けカメラ 位 置 ・ 姿 勢 の 推 定キーフレームの 追 加キーフレームを 対 象 としたBundle adjustment+マップ 点 の 追 加83PTAMの 詳 細• Key-frameの 画 像 のみを 保 持• Key-frame 画 像 はピラミッド 画 像 として 保 存• 特 徴 点 のテンプレート 画 像 は 個 別 に 保 存 せず、 特 徴 点 が 最 初に 観 測 されたキーフレーム 上 の 座 標 を 保 存• 特 徴 点 の 対 応 づけは、 粗 密 的 に 実 行(1) 広 めの 探 索 範 囲 で50 点 対 応 づけ(2) カメラ 位 置 ・ 姿 勢 推 定(3) 狭 い 探 索 範 囲 で1000 点 再 投 影 ・ 対 応 づけ(4) カメラ 位 置 ・ 姿 勢 更 新• 特 徴 点 の 対 応 数 の 割 合 が 一 定 を 下 回 った 場 には 合 、マップへのkey-frameの 追 加 を 実 行 しない• 新 たなキーポイントの 追 加 は、キーフレーム 間 でのエピポーラ制 約 を 用 いた 対 応 点 探 索 と 三 角 測 量 により 実 現8442
PTAM(Parallel Tracking and Mapping)G. Klein et al., Parallel Tracking and Mapping for Small AR Workspace, ISMAR 2007854)Extended-Kalman-Filterによる 手 法EKFの 枠 組 みにより 現 在 のカメラ 位 置 姿 勢 ・ 移 動 速 度 と 特 徴 点 の 三 次 元 位 置を 格 納 したステートベクトルの 状 態 予 測 ・ 更 新 を 繰 り 返 す 手 法https://www.youtube.com/watch?v=mimAWVm-0qA86A. Davison, et al., “MonoSLAM: Real-Time Single Camera SLAM”, PAMI, Vol.29, No.6, 200743
MonoSLAMの 概 要 ・ 特 徴・EKFの 予 測 ・ 更 新 を 繰 り 返 すことで、カメラ 位 置 と 特 徴 点 の 三 次 元位 置 を 推 定・ 何 らかの 指 標 を 用 いたステートベクトルの 初 期 化 が 必 要・ 予 測 におけるモーションモデルとして、 一 定 速 度 の 運 動 を 仮 定・ 小 数 の 特 徴 点 が 長 時 間 観 測 されることを 前 提 としている長 所・ 複 数 センサ 情 報 を 扱 うことが 容 易短 所・ 観 測 情 報 を 用 いた 最 適 化 ができないため、 誤 差 の 蓄 積 が 起 こる・ 共 分 散 行 列 が 巨 大 となるため 大 量 の 特 徴 点 を 扱 うことは 難 しい87v-SLAM / SfMにおける 精 度 向 上のためには?(a) カメラの 画 角 を 広 げる( 可 能 なら 全 方 位 カメラ)(b) 特 徴 点 を 空 間 的 に 広 く 配 置 する(2D/3D 双 方 )(c) 特 徴 点 の 追 跡 精 度 を 高 める(d) 推 定 に 用 いる 特 徴 点 の 数 を 増 やす(e) 撮 影 対 象 までの 距 離 を 短 くする( 絶 対 位 置 推定 精 度 が 重 要 な 場 合 )8844
チュートリアル 概 要1. 導 入2. v-SLAMの 応 用 分 野3. カメラ 位 置 ・ 姿 勢 推 定 (Localization)4. 特 徴 点 追 跡 と 三 次 元 位 置 推 定 (Mapping)5. v-SLAMのアルゴリズム6. 様 々な 課 題 への 対 応7. 最 新 研 究 動 向89v-SLAMにおけるスケールの 不 定 性上 記 の 国 会 議 事 堂 のミニチュアモデルと、 本 物 の 国 会 議 事 堂は、 全 くサイズが 異 なるが、 画 像 上 の 見 かけ(ここでは 特 徴 点 の位 置 )は 同 じにすることができる本 質 的 に、 画 像 のみから 対 象 のスケール 情 報 を 復 元 することはできないため、 何 らかの 外 部 指 標 が 必 要9045
絶 対 位 置 の 決 定マップがその 場 で 構 築 されるため、 位 置 に 依 存 した 情 報サービスの 提 供 には、 何 らかの 事 前 指 標 が 必 要 となる*T.Lee et al., Initializing MarkerlessTracking Using a Simple Hand Gesture,ISMAR 2007*R. Castle et al., Video-rate Localization inMultiple Maps for Wearable AugmentedReality, ISWC, 200891蓄 積 誤 差 の 問 題 ・ 追 跡 失 敗 の 問 題• Loop closing・re-localization推 定 されたカメラの 動 き真 のカメラの 動 き基 本 的 な 処 理 の 流 れ1. 類 似 画 像 探 索 により 同 一 地 点 を 検 出2. 画 像 間 で 対 応 点 を 決 定3. 全 体 での 最 適 化 処 理9246
データ 量 の 削 減 、 高 速 化• Key frame based reconstruction全 ての 画 像 を 保 持 する 代 わりに、 一 定 の 基 準 によってキーフレームを 選 別 し、キーフレームのみを 利 用 して 三次 元 復 元 をしようとする 方 法• GPU、 並 列 計 算 (マルチコア)の 利 用• 時 間 での 計 算 打 ち 切 り 方 式 の 採 用• 粗 密 探 索 的 アプローチの 採 用93チュートリアル 概 要1. 導 入2. v-SLAMの 応 用 分 野3. カメラ 位 置 ・ 姿 勢 推 定 (Localization)4. 特 徴 点 追 跡 と 三 次 元 位 置 推 定 (Mapping)5. v-SLAMのアルゴリズム6. 様 々な 課 題 への 対 応7. 最 新 研 究 動 向9447
Direct methodとはFeature / key-point based method• 特 徴 点 のみを 利 用 し、それ 以 外 の 情 報 は 利 用 しないDirect method• 特 徴 点 に 限 定 せず、( 可 能 なら) 全 ての 画 素 の 三 次元 情 報 を 利 用 した 位 置 合 せを 行 う• 基 本 的 には、photo consistencyを 高 めるようにカメラ 位 置 ・ 姿 勢 を 推 定 する 枠 組 み95SVO: Fast Semi-Direct MonocularVisual Odometryhttps://www.youtube.com/watch?v=2YnIMfw6bJY 9648
DTAM: Dense Tracking and Mapping inReal-Timehttps://www.youtube.com/watch?v=Df9WhgibCQA97LSD-SLAM: Large Scale DirectMonocular SLAMhttps://www.youtube.com/watch?v=GnuQzP3gty4 9849
まとめ• vSLAMの 基 本 は、 特 徴 点 のトラッキング、カメラ 位置 ・ 姿 勢 ・ 三 次 元 位 置 推 定 、 最 適 化 処 理 の 繰 り 返 し• 高 速 化 のための 様 々な 工 夫 があるが、リアルタイム 処 理 には 実 装 テクニック 自 体 もかなり 重 要• 研 究 分 野 の 関 心 は、 特 徴 点 だけでなくより 密 な 画素 値 情 報 を 利 用 するDirect methodに 移 りつつある• 現 状 OpenCVや 他 のオープンソースプロジェクトが多 数 公 開 されており、 特 徴 点 ベースのvSLAMの 研究 ・ 開 発 に 対 する 敷 居 はかなり 低 くなっている99OpenCV3.0 内 の 使 えそうな 関 数Localization• solvePnP, solvePnPRansac• findFundamentalMat, findEssentialMat,• decomposeEssentialMat• recoverPose• RodriguesTracking, Mapping• triangulatePoints特 徴 点 検 出• SIFT, FAST, SURF他 多 数これらの 組 み 合 わせで 簡 単 なvSLAMを 構 築 することは 比 較的 容 易10050
Tracking CompetitionISMAR2015(9 月 福 岡 開 催 )でvisual SLAMを 対 象 としたcompetitionを 実 施 予 定下 記 Tracking Competition ペ ー ジ に 、 OpenCV と Ceressolverの 組 み 合 わせで 構 成 されたvisual SLAMのサンプルコードが 掲 載 される 予 定http://ypcex.naist.jp/trakmark/tracking-competition/初 心 者 をターゲットとした 電 子 情 報 通 信 学 会 PRMUアルゴリズムコンテストとしてのvSLAMコンペティションの 共催 も 予 定101Open Source Projects:Loop Closure detector:• OpenFABMap: https://code.google.com/p/openfabmap/Bundle Adjustment・ SBA: http://users.ics.forth.gr/~lourakis/sba/・ Ceres solver: http://ceres-solver.org/Visual SLAM・PTAM: http://www.robots.ox.ac.uk/~gk/PTAM/・PTAMM: http://www.robots.ox.ac.uk/~bob/research/research_ptamm.html・SVO: https://github.com/uzh-rpg/rpg_svo・LSD SLAM: http://vision.in.tum.de/research/lsdslam・Open DTAM: https://github.com/anuranbaka/OpenDTAM10251
参 考 文 献• 特 徴 点 抽 出FAST: E. Rosten and T. Drummond. Machine learning for high-speed corner detection. In Proc.9th European Conference on Computer Vision (ECCV’06), Graz, May 2006.Shi-Tomasi: J. Shi and C. Tomasi, “Good features to track,” in Proceedings of the IEEEConference on Computer Vision and Pattern Recognition, pp. 593–600, 1994.• v-SLAMアルゴリズムPTAM: G. Klein et al., Parallel Tracking and Mapping for Small AR Workspace, ISMAR 2007monoSLAM: A. Davison, et al., “MonoSLAM: Real-Time Single Camera SLAM”, PAMI, Vol.29,No.6, 2007SVO: C. Forster, M. Pizzoli, D. Scaramuzza, “SVO: Fast Semi-Direct Monocular VisualOdometry”, ICRA, 2014DTAM: R. Newcombe, S. Lovegrove and A. Davison, “DTAM: Dense Tracking and Mapping inReal-Time”, ICCV, 2011LSD-SLAM: J. Engel, T. Schöps, D. Cremer: “Large-Scale Direct Monocular SLAM“, In EuropeanConference on Computer Vision (ECCV), 201410352