SSIIチュートリアル佐藤

Visual SLAM(v-SLAM)の応用分野画像生成・可視化• 拡張現実感 (AR: Augmented Reality)• 隠消現実感 (DR: Diminished Reality)• 自由視点画像生成• 実物体・実シーンの三次元モデル生成 / 仮想化自動化• ロボットナビゲーション• 車両の自動走行 / 運転支援その他• Structure from Motion 法の初期値生成7Augmented Reality ( 拡張現実感 )・実シーンにCGによる仮想世界を合成提示する手法・リアルタイムにカメラの位置・姿勢を推定する必要があるG. Klein et al., Parallel Tracking and Mapping for Small AR Workspace, ISMAR 2007 84

Diminished Reality ( 隠消現実感 )・実シーンから不要な物を視覚的に取り除く手法・リアルタイムにカメラの位置・姿勢を推定する必要があるN. Kawai, T. Sato, and N. Yokoya: Diminished reality considering background structures, ISMAR2013 9自由視点画像生成・本来撮影されていない視点からの映像を合成する手法・シーンの三次元構造と元のカメラの位置関係が必要となる・例えばStreet view 画像群から任意経路で移動するビデオが生成可能1m元のカメラパス仮想カメラ仮想カメラの移動経路T. Sato, H. Koshizawa, and N. Yokoya: Omnidirectional free-viewpoint rendering using a deformable3-D mesh model, IJVR, 2010.10* 本研究ではSfMの初期値生成にvSLAMを利用5

自由視点画像生成による遠隔ロボットの操縦支援システム操縦者の頭部位置に連動した自由な視点位置からの画像生成を行い、死角領域を確認しながらリアルタイムでのロボット操作を支援するシステムF. Okura, Y. Ueda, T. Sato, and N. Yokoya: Free-viewpoint mobile robot teleoperation interface usingview-dependent geometry and texture, ITE Trans. on MTA. 2014.11* 本研究ではKinectによるvisualでないSLAMを利用しているが、原理的にはvSLAMでも同様のことが実現可能v-SLAMを用いた湾曲した紙面のスキャンシステムT Sato, A. Iketani, S. Ikeda, M. Kanbara, N. Nakajima, and N. Yokoya: Video mosaicing forcurved documents by structure from motion, ACM SIGGRAPH2006, Sketches. 126

関連研究 : Structure from Motion・動画像または画像群から、カメラの位置・姿勢とシーン中の特徴点の三次元位置を復元する手法・Multi-view Stereo 法などと組み合わせてシーンの形状復元に用いられるhttp://www.cs.cornell.edu/~snavely/bundler/13全方位 SfM in 東大寺大仏殿147

SfM と v-SLAM の関係SfMv-SLAMオフライン・高精度リアルタイム・逐次出力SfMv-SLAM入力画像群動画像 ( 連続撮影画像 )リアルタイム性不要要結果出力一括逐次利用可能な情報全て( 復元対象から見て未来の情報も利用 )現時点までの情報のみ破綻時の復帰処理比較的容易容易ではない特徴点追跡容易ではない( 連続撮影でない場合 )誤差の蓄積小 ~ 中大比較的容易( 探索範囲の限定が可能 )15最も単純なSLAMの実現方法mappinglocalization初期値Image 1 Image 2何らかの方法で、カメラ位置の初期値が与えられれば、localization, mappingを繰り返すことで、推定を継続できる168

チュートリアル概要1. 導入2. v-SLAMの応用分野3. カメラ位置・姿勢推定 (Localization)4. 特徴点追跡と三次元位置推定 (Mapping)5. v-SLAMのアルゴリズム6. 様々な課題への対応7. 最新研究動向17カメラ位置・姿勢の表現Q. カメラはどこにありますか。またどちらを向いていますか。A. カメラは位置 :・青森県 xxx 市にある・東京の600km 北にある・緯度 135 40’xxx, 軽度 34 39‘xxxにある姿勢 :・東を向いている・太平洋を向いている・月の方向を向いている基準となる座標系を設定する必要がある189

GPS 座標系が良い?緯度 135 40’xxx経度 34 39‘xxx高さ 10^10km緯度 135 40’xxx経度 34 39‘xxx 緯度 135 40’xxx経度 34 39‘xxx先行車両との位置関係は?利用用途に応じてそれに適した座標系を決定する必要がある19ローカル座標とワールド座標yyyxzワールド座標zxローカル座標(カメラ座標 )zローカル座標(カメラ座標 )xワールド座標 : 全体の共通基盤となる座標系ローカル座標 : ワールド座標系とは独立に運動する物体毎に設定される座標系(カメラに対象した場合はカメラ座標 )2010

カメラ位置・姿勢推定問題とはyカメラ座標系xシーンzz画像座標系Muyvx0ワールド座標系ワールド座標とカメラ座標の間の座標変換行列 Mを求める問題Mを用いることで、ワールド座標上の任意の点を画像上に射影することができる21絶対位置・姿勢と相対位置・姿勢y絶対位置・姿勢y相対位置・姿勢yxzzワールド座標xカメラ座標系 ( 位置 A)zxカメラ座標系 ( 位置 B)zyxカメラ座標系 ( 位置 B)絶対位置・姿勢 : 他の系から参照可能で再現可能な世界座標において推定される位置・姿勢情報相対位置・姿勢 : 再現可能でない座標系による推定v-SLAMでは、何らかの基準を設けない限り、相対位置・姿勢しか推定できない2211

カメラ位置・姿勢推定によるAR 画像生成AR ToolkitではARマーカ上に世界座標を設定し、世界座標系に固定された3DCGをカメラ座標に変換・投影することで、画像上にCGを合成提示している23ワールド座標からカメラ座標への座標変換行列 MM WtoC =r 11 r 12 r 13 t 1r 21 r 22 r 23 t 2r 31 r 32 r 33 t 30 0 0 1=R t0 T 1上記のMを用いて、ワールド座標系の三次元位置 x w , y w , z w は、カメラ座標系の三次元位置 x c , y c , z c に, 下記の式で射影される。x cx w x w ty 1cywz= M WtoC czw= R yw + t 2zw t113x c , y c , z cyxM WtoCzx w , y w , z wxScenezy02412

カメラ外部パラメータMの自由度M WtoC =r 11 r 12 r 13 t 1r 21 r 22 r 23 t 2r 31 r 32 r 33 t 30 0 0 1=R t0 T 1カメラ位置・姿勢推定において、この行列はカメラ外部パメータと呼ばれ、 Rは回転行列、tはカメラの並進ベクトルを表す。Rは、何も考えなければ9 自由度、tは3 自由度で、Mは合計 12 自由度を持つ。一般には、 Rを3 自由度で表現することで、 M の自由度は6となる25回転行列の表現オイラー角表現 : 各軸周りの回転角度がα, β, γの場合cosα −sinα 0 cosβ 0 sinβ 1 0 0R = sinα cosα 0 0 1 0 0 cosγ −sinγ0 0 1 −sinβ 0 cosβ 0 sinγ cosγ回転軸・回転角による表現 : 回転軸ベクトルr = (n 1 , n 2 , n 3 )まわりにθラジアン回転する場合cosθ + n 2 1 (1 − cosθ) n 1 n 2 (1 − cosθ) n 1 n 3 1 − cosθ + n 2 sinθR = n 1 n 2 1 − cosθ + n 3 sinθ cosθ + n 2 2 (1 − cosθ) n 2 n 3 1 − cosθ − n 1 sinθn 1 n 3 1 − cosθ − n 2 sinθ n 2 n 3 1 − cosθ − n 1 sinθ cosθ + n 2 3 (1 − cosθ)ただし、|r| = 1クオータニオン表現 : q 0 , q 1 , q 2 , q 3 = (cos θ 2 , n 1sin θ 2 , n 2sin θ 2 , n 3sin θ 2 )とおくと、R =q 2 0 + q 2 1 − q 2 22 − q 3 2(q 1 q 2 − q 0 q 3 ) 2(q 1 q 3 + q 0 q 2 )2(q 1 q 2 + q 0 q 3 ) q 2 0 − q 2 1 + q 2 22 − q 3 2(q 2 q 3 − q 0 q 1 )2(q 1 q 3 − q 0 q 2 ) 2(q 2 q 3 + q 0 q 1 ) q 2 0 − q 2 1 − q 2 22 + q 32613

カメラ座標系間の変換y−1M AtoB = M B M AM AM Byzxカメラ座標系 ( 位置 A)yxzzxワールド座標カメラ座標系 ( 位置 B)座標系の逆変換は、逆行列を算出することで得られるため、カメラ座標間の変換は容易に求まる27投影モデルyカメラ座標x画像座標zシーンzvuyカメラ座標上の三次元位置を画像上に投影した投影座標を決定するためには、投影モデルを決定する必要があるx世界座標28014

• 直交投影代表的な投影モデルuv = s 0 0 00 s 0 0x cy cz c1(x c , y c , z c )画像平面(u, v)• 透視投影λuv1=f x 0 c x 00 f y c y 00 0 1 0校正行列 K (カメラ内部パラメータ)* 以後説明簡単化のため、f x = f y = f, c x = c y = 0とするx cy cz c1(x c , y c , z c )画像平面(u, v)29カメラ座標系と透視投影 (ピンホール)カメラモデルyfvx(u, v)z画像上の点の二次元位置uカメラ座標系における点の三次元位置(x c , y c , z c )単純な透視投影の式 : u = f x c, v = f y cz c z c30* 実際には、カメラの投影歪み、アスペクト比、等を考慮したカメラ内部パラメータが必要15

透視投影カメラモデルyカメラ座標x画像座標Kzシーンzλuv1vu= K M WtoCx wywzw1xy0世界座標v-SLAMでは、内部パラメータKは変動しないことを前提に、事前にキャリブレーションにより取得しておくことが一般的31Perspective N Point (PnP) 問題y(u, v)(x w , y w , z w )xローカル座標系z対応点yz画像座標x世界座標ワールド座標においてN 点の三次元位置 (x w , y w , z w )と、その画像上の座標 (u, v)のペアからカメラ外部パラメータ行列 Mを推定する問題3216

PnP 問題の最小解• P3P: 3 点の対応からカメラ位置を推定最大 4つの解が存在するため、一意に解を定めるには付加的な情報が必要• P4P: 4 点の対応からカメラ位置を推定解が一意に得られるただし、 v-SLAMでの利用を想定する場合には、N>=20 程度ないと、安定した解が得られない場合が多い (Nが小さい場合は誤差の蓄積速度が上がる)33Image space errorとObject space errorカメラ位置・姿勢推定問題は、基本的には誤差最小化問題となるが、Object space errorよりもImage space errorを最小化することで良い推定結果が得られることが知られている。y(u, v)Image space error(x w , y w , z w )Object space errorzxカメラ座標yzx画像平面世界座標Object space errorの最小化では線形に解が得られるため、初期値の算出に用いられる3417

Object space errorの最小化λu pv p1= M WtoCx wpy wpz wp1*ここでは簡単化のためKを省略u p = x wpr 11 + y wp r 12 + z wp r 13 + t 1x wp r 31 + y wp r 32 + z wp r 33 + t 3v p = x wpr 21 + y wp r 22 + z wp r 23 + t 2x wp r 31 + y wp r 32 + z wp r 33 + t 3x wp r 31 + y wp r 32 + z wp r 33 + t 3 u p − (x wp r 11 + y wp r 12 + z wp r 13 + t 1 ) = 0x wp r 31 + y wp r 32 + z wp r 33 + t 3 v p − (x wp r 21 + y wp r 22 + z wp r 23 + t 2 ) = 0As = 0,A = −x wp −y wp −z wp 0 0 0 x wp u p y wp u p z wp u p −1 0 u p0 0 0 −x wp −y wp −z wp x wp u p y wp u p z wp u p 0 −1 v p,s = r 11 r 12 r 13 r 21 r 22 r 23 r 31 r 32 r 33 t 1 t 2 t 3 T .35A =Direct Linear Transform観測点が6 点以上得られる場合N N−x w1 −y w1 −z w1 0 0 0 x w1 u 1 y w1 u 1 z w1 u 1 −1 0 u 10 0 0 −x w1 −y w1 −z w1 x w1 u 1 y w1 u 1 z w1 u 1 0 −1 v 1−x w2 −y w2 −z w2 0 0 0 x w2 u 2 y w2 u 2 z w2 u 2 −1 0 u 20 0 0 −x w2 −y w2 −z w2 x w2 u 2 y w2 u 2 z w2 u 2 0 −1 v 20 0 0 −x wN −y wN −z wN x wN u N y wN u N z wN u 0 −1 v,…−x wN −y wN −z wN 0 0 0 x wN u N y wN u N z wN u N −1 0 u Ns = r 11 r 12 r 13 r 21 r 22 r 23 r 31 r 32 r 33 t 1 t 2 t 3 T .As = 0Aは観測情報のみから成り、sは未知パラメータから成るSVD, 疑似逆行列等により解を得ることが可能Direct Linear Transformの問題 :・回転行列の成分であるRが正規直交基底を満たさない3618

Image space errorの最小化による6 自由度カメラ位置・姿勢の決定y(x w1 , y w1 , z w1 )(u 1 , v 1 )xImage space erroryzカメラ座標(u p , v p )画像平面(x wp , y wp , z wp )x世界座標Image space error E im :xx wpcp2 2E im = p { u p − fx cp /z cp + vp − fy cp /z cp } , yycp = M wpWtoC zz wpcp1この問題は非線形最小化問題となるため、良い初期値が必要*vSLAM/SFMでは、Re-projection error( 再投影誤差 )と呼ばれる37E im繰り返しによるImage Space Errorの最小化DLT 等により得られる初期値局所解局所解大域最適解0パラメータ2 2E im = p { u p − fx cp /z cp + vp − fy cp /z cp }Levenberg-Marquardt 法などを用いれば数回の繰り返しで最小値に到達3819

誤対応が存在する場合の対応- ロバスト推定 -• RANSAC• 少数の点を繰り返しランダムにサンプリングし、inlier 数を最大化するモデルを選択する手法• M-estimator• 最小自乗法では、outlierの影響が極めて大きくなるため、例外値の重みを小さくするような誤差関数を用いる方法*inlier: 正しい対応点、outlier: 誤った対応点39RANSACによるカメラ位置姿勢推定yinlierxカメラ座標Image space errorinlieroutlierinlier1. 何らかの方法で、仮の対応点 (2D-3D 対 )を決定する(tentative match)2. 仮の対応点群から、ランダムにn 点を選択する3. 選択したn 組の(2D-3D) 点を用いてPnP 問題を解くことで、カメラ位置・姿勢を推定する4. 推定したカメラ位置・姿勢を使って、全ての3D 点を画像上に投影する。5. 投影点と画像上の2D 点の間の距離 (image space error)が閾値以上のものをoutlier,それ以外をinlierとして、inlierの数を数える。6. 2.~5.を繰り返し、inlier 数が最大となるカメラ位置・姿勢を選択し、これによりoutlierを排除する4020

M-estimator(M 推定 )E im = p {f u p − fx cp /z cp + f v p − fy cp /z cp }f(x)f(x) = x 2f x =c 26 1 − 1 − x cc 262 3 x ≤ cotherwisex41RANSAC / M-estimatorの特徴• RANSAC• 十分な繰り返し回数が確保されない場合、inlierをoutlierと判定し、処理が破綻する場合がある• 仮の対応点に含まれるoutlierの割合が小さい場合、outlierの影響を完全に排除することができる• 特に誤対応が多いと想定される場合には、多くの繰り返し回数を必要とし、処理に時間がかかる• M-estimator• outlierの影響を完全には排除できない• 初期値をDLT 等で与える場合、初期値がoutlierに影響され、局所解に陥る可能性がある4221

人工マーカを用いた手法の問題美観を損ねる場合がある屋外等の広域環境にマーカを配置・維持することが難しい43自然特徴を用いた位置合わせ手法特徴点線特徴シーン中に存在する、特徴点や線特徴を利用して位置合わせを行う4422

自然特徴として何が使えるのか• 特徴点 ( 輝度エッジのコーナー)多くの環境に存在する手動でのモデル化が比較的難しい• 線特徴 ( 線状の輝度エッジ)自然環境には少ない手動でのモデル化が比較的容易45事前知識を用いた位置合わせ手法- 三次元モデルを用いる手法現実物体CADモデル現実物体またはシーンの三次元モデルをあらかじめCAD 等により作成しておき、幾何位置合わせに利用する46*T.Dummond et al.、Real-Time Visual Tracking of Complex Structures, PAMI, 200223

線特徴を用いた幾何位置合わせ*CADモデルを入力画像上に投影し、投影されたモデルの輪郭線と画像上の輝度エッジの間の距離を最小化する (Visual Servo)47*T.Dummond et al.、Real-Time Visual Tracking of Complex Structures, PAMI, 2002線特徴 + 点特徴を利用した手法 (1/2)** Luca Vacchetti et al., Combining edge and texture informationfor real-time accurate 3D camera tracking, ISMAR 20044824

線特徴 + 点特徴を利用した手法 (2/2)** Luca Vacchetti et al., Combining edge and texture informationfor real-time accurate 3D camera tracking, ISMAR 200949自然特徴点ランドマークを用いる手法学習フェーズ実践フェーズ*自然特徴点の三次元位置と画像パターンを学習CADモデル等を用いることなくマーカレストラッキングを実現* Y. Genc et al., Marker-less Tracking for AR: A Learning-Based Approach, ISMAR 20025025

マーカレスAR 画像の生成結果5353拡張現実感によるユーザナビゲーション検出されたランドマークユーザに提示されるナビゲーション情報5427

カメラ位置・姿勢推定に関するまとめ• 三次元位置が既知の対象があれば、カメラ位置・姿勢はPnP 問題を解くことで推定可能• 三次元位置が既知の対象としては、マーカ、三次元モデル、SfM 等により事前に復元した自然特徴点の三次元位置、等が利用される• 自然特徴点の三次元位置をリアルタイムで推定できれば、v-SLAMを実現可能55チュートリアル概要1. 導入2. v-SLAMの応用分野3. カメラ位置・姿勢推定 (Localization)4. 特徴点追跡と三次元位置推定 (Mapping)5. v-SLAMのアルゴリズム6. 様々な課題への対応7. 最新研究動向5628

自然特徴点の三次元位置推定(Mapping)推定される自然特徴点の三次元位置自然特徴点の画像上の座標Object Space ErrorImage Space Error(Reprojection error: 再投影誤差 )カメラ位置・姿勢が既知、かつ特徴点の画像上の位置が既知の場合、Object Space ErrorまたはImage Space Errorを最小化することで特徴点の三次元位置を推定可能57特徴点の対応付け(Tracking, Matching)特徴点ベースのトラッキングの流れ1. 特徴点の検出2. 特徴量の抽出3. 対応点の決定4. 誤対応の排除5829

特徴点の検出v-SLAMにおいて特徴点検出オペレータに求められる要件 :・抽出処理が高速であること・繰り返し再現性 (Repeatability)が高いことv-SLAMでは、一般に直前のカメラ位置・姿勢を利用することができるため、スケール不変性を考慮する必要はないShi-Tomasi, Harris, Fastなどの高速・軽量な検出器で十分である場合が多い59v-SLAM 手法で利用されている特徴点・特徴量特徴点特徴量PTAM FAST 画素値そのものMonoSLAM Shi-Tomasi 画素値そのものSVOFAST with highestShi-Tomasi score in the cell画素値そのものVideoMosaic Shi-Tomasi 画素値そのもの6030

FAST 特徴点検出器注目画素周辺の16 画素の輝度値と、注目画素の輝度値の差に基づいて3 値化された16 次元ベクトル(darker, similar, brighter)を作成し、あらかじめ構築した決定木に基づいて特徴点かどうかを決定する手法非常に高速に特徴点を検出することが可能61Shi-Tomasi 特徴点検出器注目画素を中心とするウインドウ内の輝度勾配ベクトルのヘッセ行列の固有値分解により得られる最小固有値の値に基づいてコーナーを決定する方法dIdy第一固有ベクトル輝度勾配dIdx第二固有ベクトル第二固有値の値6231

特徴量の抽出v-SLAMでは、直前のカメラ位置・姿勢が既知であることから、特徴点周辺が平面であるとみなし、その法線情報を推定・保持しておくことで、スケール変化、回転、変形等について補正できる。このため、比較的大きい変形にも対応可能なSIFT,SURF 等のリッチな特徴点抽出オペレータは用いられず、画像テンプレートそのものを利用する場合が多い。63対応点の決定・誤対応の排除基本的には予測された範囲内の特徴点を対象に類似度評価を行い、最も類似したものを探せばよい対応点決定手法誤対応排除手法PTAM Zero-mean SSD (Pyramid) M-estimator in BundleadjustmentMonoSLAMNormalized CrossCorrelationExtended Kalman FilterSVO SSD Probabilistic depthVideo mosaic SSD RANSAC6432

対応点の探索範囲の限定カメラの動きについて、何らかの仮説が得られる場合には、それまでに推定されている特徴点の三次元位置を仮のカメラ位置・姿勢を用いて画像上に再投影することで、特徴点の出現位置を予測できる。対応点の探索範囲予想されるカメラ位置また、この様な仮説が得られないとしても、画像間での最大視差を設定することで、画像上での対応点の探索範囲を限定できる。65特徴点の三次元位置の決定 :Image space errorの最小化(x wp , y wp , z wp )(u p , v p )Image Space Error(Reprojection error: 再投影誤差 )世界座標Image space error E im :xx wpcp2 2E im = p { u p − fx cp /z cp + vp − fy cp /z cp } , yycp = M wpWtoC zz wpcp1Object space error, image space errorの順に最小化すれば三次元位置は容易に求められる6633

特徴点追跡と三次元位置推定に関するまとめ• カメラ位置・姿勢が既知であれば、対応点を決定することで特徴点の三次元位置は容易に決定可能• V-SLAMの分野では、高速性が重視されるため、特徴点検出オペレータとして、FAST 等の軽量なものが利用される• 大きなパターンの変形を考える必要がなく、対応点探索の範囲は限定可能であるため、単純な変形を考慮したテンプレートマッチングが用いられる67チュートリアル概要1. 導入2. v-SLAMの応用分野3. カメラ位置・姿勢推定 (Localization)4. 特徴点追跡と三次元位置推定 (Mapping)5. v-SLAMのアルゴリズム6. 様々な課題への対応7. 最新研究動向6834

1) Two-view SfMの連結による手法- エピポーラジオメトリ -n特徴点の組 (x 0 , x 1 )と、それらが作るエピポーラ平面 Rには以下の関係が成り立つn = t × Rx 0 = t × Rx 0x 1 T n = 071基本行列 (Essential matrix)n = t × Rx 0x 1 T n = 0x 1 T t × Rx 0 = 0 .t × R を Eで置き換えると、以下の式が得られるx T 1 Ex 0 = 0 .E = t × R は基本行列と呼ばれる。Eは (x 0 , x 1 )の組が5 点以上あれば推定できる。*D. Nister: “An efficient solution to the five-point relative pose problem”, PAMI,26(6):756-770, 20047236

SVD( 特異値分解 )による基本行列の分解Eを特異値分解することで、 E = UΣV T のように3つの行列の積に分解できる。ここで、UとVは正規直交行列。 t × とRは、以下の式で得られるt × = UZU T , R = UWV T or UW T V T ,ただし、0 1 0 0 −1 0Z = −1 0 0 , W = 1 0 00 0 0 0 0 173Two-view SfMによる推定結果の連結1. 基本行列の分解により、画像ペアの相対運動を推定Image 1M 1→2M 2→3M 1→3 =M 2→3 M 1→2Image 2 Image 2Image 3M =R αt0 12. 推定結果を連結Image 1 Image 2Image 3ここで、スケールの不定性を解決するためには、3 画像上に共通して観測可能な点が最低一点必要となる7437

Two-view SfMの連結による手法の問題• カメラ間の距離が短く、画像上での物体の見かけの動きが小さい場合、特に並進ベクトルtの推定結果が不安定となりやすい• 複数画像から共通して観測できる点が少ない場合には誤差の蓄積が早い解決方法• ビデオ映像に適用する場合には、フレームを間引く等により、十分なベースライン距離を確保する• ただし、ベースライン距離を離しすぎると、対応点探索が難しくなる75蓄積誤差の問題1% scale error 1% scale error1% scale errorImage 100Image 1 Image 2Image 3Image 4仮に+1%の偏ったスケール誤差が常に与えられた場合、 100フレーム後のスケール誤差は、1.01 100 = 2.70 = 270% となる7638

蓄積誤差を抑えるためには?Image 1 Image 2Image 3 Image 4Image 100・多数の地点から観測可能な共通の特徴点が存在する場合、誤差の蓄積を抑える事が可能となる・できる限り同一の特徴点を長く追跡できることが望ましい77Bundle adjustmentS p( x,y,z)M iE reprojection =ipu ip − u ip ′ 2 + v ip − v ip ′ 2u ip , v ip : 特徴点 pのフレームiにおける画像座標u ip ′, v ip ′ : 特徴点 pの三次元位置をフレームiに投影した投影座標カメラ外部パラメータ M i と三次元位置 S p をパラメータとして、再投影誤差の総和を最小化することで誤差の蓄積を抑止7839

2) 順次復元によるv-SLAMの実現新たに観測される特徴点の三次元位置を復元し、信頼度の高いものはmapに追加するTwo-view SfMによる復元Image 1 Image 2三次元位置を復元済みの特徴点が観測できる限り、PnP問題を解くことでカメラ位置を推定可能Two-view SfMで初期の三次元復元を行い、以降特徴点の三次元位置推定、カメラ位置推定を繰り返すことで、推定を継続できる 79逐次復元によるv-SLAMの流れTwo-view SfMによる初期推定フレーム毎の処理特徴点の追跡カメラ位置・姿勢の推定特徴点の三次元位置の推定特徴点の追加(option) Local / Global bundle adjustment8040

Bundle adjustmentの効果81順次復元によるv-SLAMの特徴• 単純なアルゴリズムではあるが、それなりに動く• 誤差の蓄積があるが、多数のフレームに渡って特徴点の追跡を行うことで、一定レベルまでは抑止できる• Bundle adjustmentを併用することで、更に誤差の蓄積を低減可能だが、何らかの工夫なしには処理の実時間性は失われる• 基本的には再投影誤差を逐次最小化しているので、Global bundle adjustment / SfMの初期値としての性質は良い8241

3)TrackingとMappingの並列化による手法• MappingとTrackingを並列かつ非同期に行うことで、実時間処理を実現しながら蓄積誤差の解消を図る手法• キーフレームのみを最適化の対象とすることで、処理を効率化Tracking threadMapping threadtwo-view SfMによる初期化特徴点の対応付けカメラ位置・姿勢の推定キーフレームの追加キーフレームを対象としたBundle adjustment+マップ点の追加83PTAMの詳細• Key-frameの画像のみを保持• Key-frame 画像はピラミッド画像として保存• 特徴点のテンプレート画像は個別に保存せず、特徴点が最初に観測されたキーフレーム上の座標を保存• 特徴点の対応づけは、粗密的に実行(1) 広めの探索範囲で50 点対応づけ(2) カメラ位置・姿勢推定(3) 狭い探索範囲で1000 点再投影・対応づけ(4) カメラ位置・姿勢更新• 特徴点の対応数の割合が一定を下回った場には合、マップへのkey-frameの追加を実行しない• 新たなキーポイントの追加は、キーフレーム間でのエピポーラ制約を用いた対応点探索と三角測量により実現8442

PTAM(Parallel Tracking and Mapping)G. Klein et al., Parallel Tracking and Mapping for Small AR Workspace, ISMAR 2007854)Extended-Kalman-Filterによる手法EKFの枠組みにより現在のカメラ位置姿勢・移動速度と特徴点の三次元位置を格納したステートベクトルの状態予測・更新を繰り返す手法https://www.youtube.com/watch?v=mimAWVm-0qA86A. Davison, et al., “MonoSLAM: Real-Time Single Camera SLAM”, PAMI, Vol.29, No.6, 200743

MonoSLAMの概要・特徴・EKFの予測・更新を繰り返すことで、カメラ位置と特徴点の三次元位置を推定・何らかの指標を用いたステートベクトルの初期化が必要・予測におけるモーションモデルとして、一定速度の運動を仮定・小数の特徴点が長時間観測されることを前提としている長所・複数センサ情報を扱うことが容易短所・観測情報を用いた最適化ができないため、誤差の蓄積が起こる・共分散行列が巨大となるため大量の特徴点を扱うことは難しい87v-SLAM / SfMにおける精度向上のためには?(a) カメラの画角を広げる( 可能なら全方位カメラ)(b) 特徴点を空間的に広く配置する(2D/3D 双方 )(c) 特徴点の追跡精度を高める(d) 推定に用いる特徴点の数を増やす(e) 撮影対象までの距離を短くする( 絶対位置推定精度が重要な場合 )8844

チュートリアル概要1. 導入2. v-SLAMの応用分野3. カメラ位置・姿勢推定 (Localization)4. 特徴点追跡と三次元位置推定 (Mapping)5. v-SLAMのアルゴリズム6. 様々な課題への対応7. 最新研究動向89v-SLAMにおけるスケールの不定性上記の国会議事堂のミニチュアモデルと、本物の国会議事堂は、全くサイズが異なるが、画像上の見かけ(ここでは特徴点の位置 )は同じにすることができる本質的に、画像のみから対象のスケール情報を復元することはできないため、何らかの外部指標が必要9045

絶対位置の決定マップがその場で構築されるため、位置に依存した情報サービスの提供には、何らかの事前指標が必要となる*T.Lee et al., Initializing MarkerlessTracking Using a Simple Hand Gesture,ISMAR 2007*R. Castle et al., Video-rate Localization inMultiple Maps for Wearable AugmentedReality, ISWC, 200891蓄積誤差の問題・追跡失敗の問題• Loop closing・re-localization推定されたカメラの動き真のカメラの動き基本的な処理の流れ1. 類似画像探索により同一地点を検出2. 画像間で対応点を決定3. 全体での最適化処理9246

データ量の削減、高速化• Key frame based reconstruction全ての画像を保持する代わりに、一定の基準によってキーフレームを選別し、キーフレームのみを利用して三次元復元をしようとする方法• GPU、並列計算 (マルチコア)の利用• 時間での計算打ち切り方式の採用• 粗密探索的アプローチの採用93チュートリアル概要1. 導入2. v-SLAMの応用分野3. カメラ位置・姿勢推定 (Localization)4. 特徴点追跡と三次元位置推定 (Mapping)5. v-SLAMのアルゴリズム6. 様々な課題への対応7. 最新研究動向9447

Direct methodとはFeature / key-point based method• 特徴点のみを利用し、それ以外の情報は利用しないDirect method• 特徴点に限定せず、( 可能なら) 全ての画素の三次元情報を利用した位置合せを行う• 基本的には、photo consistencyを高めるようにカメラ位置・姿勢を推定する枠組み95SVO: Fast Semi-Direct MonocularVisual Odometryhttps://www.youtube.com/watch?v=2YnIMfw6bJY 9648

DTAM: Dense Tracking and Mapping inReal-Timehttps://www.youtube.com/watch?v=Df9WhgibCQA97LSD-SLAM: Large Scale DirectMonocular SLAMhttps://www.youtube.com/watch?v=GnuQzP3gty4 9849

まとめ• vSLAMの基本は、特徴点のトラッキング、カメラ位置・姿勢・三次元位置推定、最適化処理の繰り返し• 高速化のための様々な工夫があるが、リアルタイム処理には実装テクニック自体もかなり重要• 研究分野の関心は、特徴点だけでなくより密な画素値情報を利用するDirect methodに移りつつある• 現状 OpenCVや他のオープンソースプロジェクトが多数公開されており、特徴点ベースのvSLAMの研究・開発に対する敷居はかなり低くなっている99OpenCV3.0 内の使えそうな関数Localization• solvePnP, solvePnPRansac• findFundamentalMat, findEssentialMat,• decomposeEssentialMat• recoverPose• RodriguesTracking, Mapping• triangulatePoints特徴点検出• SIFT, FAST, SURF他多数これらの組み合わせで簡単なvSLAMを構築することは比較的容易10050

Tracking CompetitionISMAR2015(9 月福岡開催 )でvisual SLAMを対象としたcompetitionを実施予定下記 Tracking Competition ページに、 OpenCV と Ceressolverの組み合わせで構成されたvisual SLAMのサンプルコードが掲載される予定http://ypcex.naist.jp/trakmark/tracking-competition/初心者をターゲットとした電子情報通信学会 PRMUアルゴリズムコンテストとしてのvSLAMコンペティションの共催も予定101Open Source Projects:Loop Closure detector:• OpenFABMap: https://code.google.com/p/openfabmap/Bundle Adjustment・ SBA: http://users.ics.forth.gr/~lourakis/sba/・ Ceres solver: http://ceres-solver.org/Visual SLAM・PTAM: http://www.robots.ox.ac.uk/~gk/PTAM/・PTAMM: http://www.robots.ox.ac.uk/~bob/research/research_ptamm.html・SVO: https://github.com/uzh-rpg/rpg_svo・LSD SLAM: http://vision.in.tum.de/research/lsdslam・Open DTAM: https://github.com/anuranbaka/OpenDTAM10251

参考文献• 特徴点抽出FAST: E. Rosten and T. Drummond. Machine learning for high-speed corner detection. In Proc.9th European Conference on Computer Vision (ECCV’06), Graz, May 2006.Shi-Tomasi: J. Shi and C. Tomasi, “Good features to track,” in Proceedings of the IEEEConference on Computer Vision and Pattern Recognition, pp. 593–600, 1994.• v-SLAMアルゴリズムPTAM: G. Klein et al., Parallel Tracking and Mapping for Small AR Workspace, ISMAR 2007monoSLAM: A. Davison, et al., “MonoSLAM: Real-Time Single Camera SLAM”, PAMI, Vol.29,No.6, 2007SVO: C. Forster, M. Pizzoli, D. Scaramuzza, “SVO: Fast Semi-Direct Monocular VisualOdometry”, ICRA, 2014DTAM: R. Newcombe, S. Lovegrove and A. Davison, “DTAM: Dense Tracking and Mapping inReal-Time”, ICCV, 2011LSD-SLAM: J. Engel, T. Schöps, D. Cremer: “Large-Scale Direct Monocular SLAM“, In EuropeanConference on Computer Vision (ECCV), 201410352

SSIIチュートリアル佐藤

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?