基于语义理解的三维重建

基于语义理解的三维重建 

WangWei 

2012年2月28日 

共34页 

1

内容提要 

1.语义理解在三维重建中的作用 

2.Learning 3-D Scene Structure from a Single Still Image 

3.总结与展望 

共34页 

2

1.语义理解在三维重建中的作用 

共34页 

3

三维重建存在的问题 

存在问题:(基于特征点匹配的自下向上重建方法) 

遮挡问题导致相应部分点云重建失败。 

在缺乏纹理的区域,只能获得稀疏的点云,甚至不能获得点云。 

重复性纹理导致重建错误。 

基线过大导致重建错误。 

需要大量图片 

...... 

解决思路:通过深层理解图像或点云中所包含的语义信息,或者由用 

户提供语义信息,指导三维重建过程或对三维重建结果进行优化。 

共34页 

4

语义层次模型 [1] 

视觉特征语义:也称低层语义,如图像的颜色、形状、纹理等低 

级视觉特征,与视觉感知直接相连。 

目标语义和空间关系语义:如房前有一棵树、桌上有个箱子等, 

需要识别和提取图像中的目标类别、目标之间的空间位置等关系, 

涉及到模式识别和逻辑推理的相关技术。 

高层语义:包括场景语义(如海滨、街道、室内等)、行为语义(如 

表演、超越、进攻等)和情感语义(如平静、和谐、振奋等)。 

[1]Deselaers T, Keeysers D, Ney H, Classification Error Rate for Quantitative Evaluation of Conten‐based 

Image Retrieval Systems, In Proc. Of International Conference on Pattern Recognition ( ICPR 2004), 2004, Vol. 

2, pp. 505‐508. 

共34页 

5

三维重建中的语义来源 

1.二维图像:图像中的目标所属类 

别、目标的几何特征、目标间的 

空间关系、图像整体空间结构等。 

目标相对大小 

遮挡关系 

纹理梯度 

亮度和阴影 

空气透视 

...... 

共34页 

6

2.三维点云:点云中的目标(如直 

线、平面、曲面等)及目标间空间 

几何关系。 

点云拓朴结构 

3.用户交互:用户交互式输入的高 

层知识(如目标类别、目标间的空 

间关系、目标属性等)。 

共34页 

7

部分文献 

[cvpr2011]Semantic structure from motion 

[ICCV2011]Semantic Structure From Motion with Object and Point 

Interactions 

[ICCV2011]Classification and reconstruction of surfaces from point clouds 

of man‐made objects 

[SIGGRAPH2011]Context‐Based Search for 3D Models 

[SIGGRAPH2011]Characterizing Structural Relationships in Scenes Using 

Graph Kernels 

[CVPR2010]Growing semantically meaningful models for visual SLAM 

[SIGGRAPH2010]L., Sharf, A., Zhang, H., Cohen‐Or, D., Chen, B. 2010, 

SmartBoxes for Interactive Urban Reconstruction 

[ICCV09]Decomposing a Scene into Geometric and Semantically 

Consistent regions 

共34页 

8

2. Learning 3D scene structure from 

a single still image 

共34页 

9

1.将图片分割 [1] 成多个Superpixels,假定空间场景由 

许多很小的Planes组成,Superpixels与Planes相互 

对应。 

2.求取每个Superpixel特征向量及“边缘特征向 

量”(纹理、颜色等)。 

3.MRF模型化Planes参数之间、Superpixels特征向量 

与Planes参数之间的关系。 

基本思路 

4.采用监督学习的方式求取相关参数。 

5.求解MRF模型,并根据Planes参数进行场景重建。 

6.为提高重建精度,融入对象检测与识别方法。 

7.大场景重建时与常规SFM算法相结合。 

Superpixels 

3‐d Mesh 

[1][ICCV2004]P. Felzenszwalb and D. Huttenlocher, “Efficient Graph‐Based Image Segmentation,” Int’l J. Computer 

Vision, vol. 59, 2004. 共34页 

10

空间平面参数α 特征: 

1.对空间平面上任意点q,满足 

2. 为摄像机中心到空间平面距离 

1 

 

3.任意射线R i(单位向量),空间点i的深度 

最终目标:argmax(P(α | x; θ)) 

α:空间平面参数; 

x :Superpixel特征向量集 

θ:模型参数(机器学习) 

空间平面参数化 

T 

q 

1 

共34页 

d 1 

i 

R 

T 

i 

 

i 

11

MAP-MRF模型简述 

 

 

F 

f 

df 

d 

f 

P 

f 

f 

C 

f 

R ) 

| 

( 

) 

, 

( 

) 

( 

* 

* 

贝叶斯风险: 

 

 

 

1 

0 

) 

, 

( 

* 

f 

f 

C 

 

 

f 

f 

if 

* 

otherwise 

) 

| 

( 

1 

) 

| 

( 

1 

) 

| 

( * 

* 

: 

: 

d 

f 

kP 

df 

d 

f 

P 

df 

d 

f 

P 

f 

f 

f 

f 

f 

f 

 

 

 

 

 

 

 

 

 

 

)} 

( 

) 

| 

( 

{ 

max 

arg 

) 

| 

( 

max 

arg 

) 

( 

min 

arg 

* 

* 

f 

P 

f 

d 

P 

d 

f 

P 

f 

R 

f 

F 

f 

F 

f 

F 

f 

 

 

 

 

 

(风险函数 

MAP估计: 

) 

1.MAP(最大后险概率) 

2.MAP‐MRF 

任意随机场为MRF随机场的充要条件: 

) 

( 

1 

1 

) 

( 

f 

U 

T 

e 

Z 

f 

P 

 

 

 

 

 

 

S 

i S 

i N 

i 

i 

i 

i 

i 

f 

f 

V 

f 

V 

f 

U 

' 

' 

2 

1 

) 

, 

( 

) 

( 

) 

( 

能量函数: 

12 

共34页

PLANE PARAMETER MRF模型(MAP-MRF) 

1 

P( 

X , , y, 

R, 

) f1 

( i 

| X i, 

vi, 

Ri; 

) f2 

( i 

, j | 

Z 

i 

i, 

j 

y 

i, 

j 

, R , R ) 

f ( ) :表征Superpixel(以下简称SPi)特征向量与空间平面参数之间的统计相关性。 1 

f ( ) :表征SP对应空间平面参数彼此之间的统计相关性。具体由SP之间的互连性、 

2 

共面性、共线性、遮挡关系等几部分共同决定,而这些关系的决定通过衡量 

在相邻SP中所选择的不同像素点之间的关系来实现。即: 

s 

si j 

f 

2 

( ) 

 

hsi 

, s 

{ s , s } N 

i 

j 

j 

( ) 

其中, 、为选择的像素,h为像素间的关系。 

i :SPi对应的空间平面参数 X i :SPi特征向量,即 524 x IR : s 1, 

S 

X i, 

s 

i 

i i , 

R i :摄像机中心到SPi所包含的像素点射线集合,即 i :Spi估计深度的置信度 y i, 

j 

:SP i、SP j对应空间平面之间是否为遮挡关系的标记 

共34页 

R : s 1, 

S 

R i, 

s i 

i i , 

i 

j 

13

特征与深度关系 

基本思路:图像某区域特征(纹理、颜色、边缘等)在一定程度上与该 

区域相应的空间平面的深度、方向等信息相关。 

设 ' 为SPi中像素si对应的估计深度, d 

其与si的特征向量之间存在如下关系: T 

x i, 

k 

' 

d x 

T 

, s 

i i 

:SP i中第s i个像素的特征向量 

r :模型参数(机器学习) 

r 

共34页 

s i 

14

d 为像素点s i的真实深度,则相对深度误差为: 

T 

R , s 

' 

' 

T T 

d ( d d) 

d d d 1 

R , s i 

( xi, 

s r 

) 1 

i : SP i i中第si个像素对应的射线 :SP i i对应平面参数 

i i 

i 

则图像SP特征向量与其对应的平面参数之间统计关系为: 

i, si 

T T 

f ( | X , v , R ; ) exp( | R ( x ) 1) 

1 

i 

i 

i 

i 

N 

 

s 1 

:SP i中第s i个像素估计深度的可信度(机器学习) 

i 

共34页 

i, 

s 

i 

i, 

s 

i 

i 

i, 

s 

i 

r 

15

共面关系 

基本思路:摄像机中心到SP i与SP j中心点的相对距 

离来实现共面性的约束。 

|) 

) 

( 

| 

exp( 

) 

, 

, 

, 

( ' 

' 

' 

' 

' 

' 

' 

' 

' 

' 

, 

0 

, 

, 

, i 

i 

i 

i 

i 

s 

j 

T 

s 

i 

i 

T 

s 

i 

ij 

s 

i 

ij 

j 

i 

s 

d 

R 

R 

y 

R 

y 

h 

 

 

 

 

 

' 

' 

' 

' 

, 

, 

1 

i 

i 

s 

i 

i 

T 

s 

i 

d 

R 

 

' 

, 

, 

' 

' 

' 

' 

1 

i 

i 

s 

i 

j 

T 

s 

i 

d 

R 

 

其中 

' 

, 

, 

, 

0 

' 

' 

' 

' 

' 

' 

i 

i 

i 

s 

i 

s 

i 

s 

d 

d 

d 

|) 

) 

( 

| 

exp( 

) 

, 

, 

, 

( ' 

' 

' 

' 

' 

' 

' 

' 

' 

' 

, 

0 

, 

, 

, j 

j 

j 

j 

j 

s 

j 

T 

s 

j 

i 

T 

s 

j 

ij 

s 

j 

ij 

j 

i 

s 

d 

R 

R 

y 

R 

y 

h 

 

 

 

 

 

) 

( 

) 

( 

) 

( ' 

' 

' 

' 

' 

' 

' 

' , 

 

 

 

 

j 

i 

j 

i 

s 

s 

s 

s 

h 

h 

h 

' 

' 

' 

' 

, 

, 

1 

j 

j 

s 

j 

j 

T 

s 

j 

d 

R 

 

' 

, 

, 

' 

' 

' 

' 

1 

j 

j 

s 

j 

i 

T 

s 

j 

d 

R 

 

' 

, 

, 

, 

0 

' 

' 

' 

' 

' 

' 

j 

j 

i 

s 

j 

s 

j 

s 

d 

d 

d 

' 

, 

, 

, 

' 

, 

, 

0 

, 

, 

' 

' 

' 

' 

' 

' 

' 

' 

' 

' 

' 

' 

' 

' 

) 

( 

) 

( 

j 

j 

j 

j 

j 

j 

j 

s 

j 

s 

j 

s 

j 

s 

j 

s 

j 

T 

s 

j 

i 

T 

s 

j 

d 

d 

d 

d 

d 

R 

R 

 

 

 

1 

2 

d 

d 

16 

共34页

连接关系 

基本思路:选择摄像机中心到SP i与SP j边界上点相对 

距离来实现连接性的约束。 

h , s 

j 

T 

T 

( i , j , yij 

, Ri. 

R j ) exp( yij 

| ( Ri, 

s i 

R j, 

s ) d0 

si j 

i 

j 

T 

R i, 

s 

, 

T 

i i 1 

di 

s R i j, 

s j j 1 

d j, 

s j 

其中 i si 

j s j d d d 0 , , 

( 

T 

T 

R i, 

s i 

R j, 

s j ) d0 

( di, 

s d j, 

s ) di, 

s d j, 

s 

i 

j 

i 

j 

i 

共34页 

j 

|) 

17

共线关系 

基本思路:选择摄像机中心到SP i与SP j共线点的相对 

距离来实现共线性的约束。 

T 

T 

hs ( i , j , yij 

, Ri 

s ) exp( yij 

| ( Ri, 

s i 

Ri, 

s j ) d0, 

i 

其中 

T 

R i, 

s i 

1 

di, 

s 

j 

i 

T 

R j, 

s j 1 d j, 

s 

, i 

i 

i si 

T 

T 

hs ( i , j, 

yij 

, R j s ) exp( yij 

| ( R j, 

s i 

R j, 

s j ) d0, 

h 

j 

s , s 

i 

j 

( ) hs 

( ) 

h ( ) 

i s j 

, j 

j 

j s j 

i 

j 

R 

d 

T 

' 

i, 

s 1 i j i, 

si 

R 

d 

T 

' 

j, 

s 1 j i j, 

s j 

d 

d 

d 

0, si 

i, 

si 

' 

i, 

si 

d 

d 

d 

0, s j i, 

s j 

' 

i, 

s j 

T 

T 

' 

' 

( R j, 

s , ) 0, 

( , , ) 

j i R j s j j d s d 

j j s d j j s d 

j j, 

s d j j, 

s j 

共34页 

|) 

|) 

18

遮挡关系 

基本思路:SP i与SP j对应空间平面的遮挡关系用SP i与SP j间的“边界特 

征向量”来确定,最终用变量y ij来标示,即: 

y ij=0:表示对应平面间为遮挡关系 

y ij=1:表示对应平面共面 

y ij通过逻辑回归分析与机器学习的方法获取。 

共34页 

19

* 

 

 

MAP-MRF模型的求解 

arg maxl 

ogP( 

| X , , y, 

R, 

) 

 

 

1 

arg max log f ( | X , v , R ; ) f ( , 

 

 

r 

 

1 i i i i 

Z i 

i, 

j 

K 

( 

M i 

arg min 

i s s i s i i s 

i 1 , i , i , 

 

 

T 

| ( R ) d 1| 

i i 

T 

T 

yij 

| ( Ri 

s i 

R j, 

s j ) ds 

, 

jN( i) 

s , s B 

 

i 

j 

ij 

, i 

j 

i s j 

T 

T 

y | ( R R ) d 

jN( i) 

s C 

j 

j 

ij 

j, 

s j i j, 

s j j s j 

| 

| 

2 

i 

j 

| 

y 

i, 

j 

, R , R ) 

其中,K为图像中所有SP数量,N(i)为Sp i的邻域SP集,B ij是Sp i与SP j边界 

点集(互连性),C j是SP j(共面性与共线性)中心。 

每一项皆为α的线性函数,最终的目标函数为: 

arg min Ax b Bx Cx 

x 

1 

共34页 

1 

1 

i 

 

i 

x 

 

 

 

 

 

K 

j 

20

参数学习 

已知真实深度(3D激光扫描器获取)与图像特征向量。 

1.遮挡关系参数的估计 [1] yij 

eij 

:SP i、SP j之间边界特征向量 

:模型参数(机器学习) 

2.深度估计的可信度的估计 [1] 

 

i, s 

 

T 

P( yij 

1 

| eij; 

) 1 

( 1 

exp( 

eij 

)) 

i, s 

i 

T 

P( i s 1 

| xi, 

s ; ) 

1 

( 1 

exp( 

xi, 

, i 

i 

si 

:SP i中第s i个像素估计深度的可信度 

i 

:模型参数(机器学习) 

[1]C.M. Bishop, Pattern Recognition and Machine Learning. Springer, 2006. 

共34页 

)) 

21

3.特征向量与深度关系参数 r 

的估计 

 

arg max log P( 

X , , y, 

R, 

) 

* 

r 

 

arg max log f ( | X , , R ; ) log f ( , | 

 

1 i i i i r 

r 

i 

i, 

j 

第二项与无关,上式可简化为: 

r 

 

r 

* 

M i 1 T 

r 

arg min 

 

 

i s i s xi 

s r 

i 1 , ( 

i 

, 1) 

 

i 

r 

d 

最后采用Multi‐Conditional Learning [1] 方法求取。 

i, 

s 

i 

2 

i 

j 

y 

ij 

, R , R ) 

[1]M.K. Chris Paul, X. Wang, and A. McCallum, “Multi‐Conditional Learning for Joint Probability Models with 

Latent Variables,” Proc.NIPS Workshop Advances Structured Learning Text and SpeechProcessing, 2006. 

共34页 

i 

j 

22

图像特征 

1.平滑、边缘及角点检测(3Χ3)模板全部作用于图像Y通道,另外,第 

一滤波模板单独作用于图像的Cb与Cr通道。 

2.用于方向检测(5Χ5)模板作用于图像的Y通道。 

Laws模板滤波(图像模式为YCbCr): 

设17个滤波器输出为 ,则 

) 

17 

, 

, 

1 

)( 

, 

( 

 

n 

y 

x 

F n 

 

 

i 

SP 

y 

x 

k 

n 

i 

y 

x 

F 

y 

x 

I 

n 

E 

) 

, 

( 

) 

, 

( 

* 

) 

, 

( 

) 

( 

令K=2、4,则分别求出能量值及峰态值,共生成34维特征向量。 

23 

共34页

为了充分利用上下文信息,对指定SP,从三个尺度上对其进行特征 

提取,并将每个尺度中其四邻域的SP特征也作为其特征的一部分: 

加入14个SP形状(如SP边数、像素密度等)、位置(如水平与垂直 

方向平均坐标等)及离心率特征 [1] 。 

最终特征向量维数:34*(4+1)*3+14=524 

[1][ICCV2005]D. Hoiem, A. Efros, and M. Herbert, “Geometric Context from a Single 

Image,” Proc. 10th Int’l Conf. Computer Vision, 2005. 

共34页 

24

边界特征向量(用于SP对应空间平面之间遮挡关系的判断): 

分别根据图像纹理、颜色、边缘等7个不同的属性,从两个尺度上对图像 

进行分割,共生成14个分割,对应14维特征向量,每个分量为任意两个 

SP是否属于同一分割区域的标记。 

如果SP i、SP j在14个分割中都属于同一个分割区域,则SP i、SP j对应的空 

间平面更可能为共面或互连关系,否则,则可能为遮挡关系。 

共34页 

25

实验结果 

数据:534幅分辨率为2272X1704图片(包含3D激光扫描器获取深度图), 

用400幅用于训练学习,134用于测试,另外用588幅分辨率为800X600 

普通图片进行测试,总体结果如下: 

共34页 

26

共34页 

27

融入目标信息优化重建结果 

基本思路:如果能获取空间场景中某些目标的信息 [1][2] (如位置、大小、 

方向等),则可有效地对三维结构进行优化。 

[1]N. Dalai and B. Triggs, “Histogram of Oriented Gradients for Human Detection,” Proc. IEEE CS Conf. 

Computer Vision and Pattern Recognition, 2005. 

[2]D. Hoiem, A. Efros, and M. Hebert, “Putting Objects in Perspective,” Proc. IEEE CS Conf. Computer Vision 

and Pattern Recognition, 2006. 

共34页 

28

大场景重建 

基本思路:设采用常规SFM方法求取深度 d ,从单幅图片中估计出的深 

度为 d ,在MRF模型中增加 T与 

的约束项。 

d d ( ) f 

i 

n n n n n n 

P ( | X , Y, 

dT 

; ) f1( 

| X , , R , Q ; ) 

n 

f 

n 

n 

n n n n 

f 2( | y , R , Q ) 

n n n n n 

f 3( | dT 

, yT 

, R , Q ) 

其中,Q为摄像机的姿态(3X4矩阵), yT 

为特征点匹配的可信度。 

3 

最终仍是线性优化问题。 

i 

n 

K 

 

i1 

T 

( | d , y , R, 

Q) 

exp( y 

| d R 1|) 

T 

T 

共34页 

T 

Ti 

3 

Ti 

i 

i 

29

共34页 

二维图像 

重建结果 

30

几点思考 

1.每个Superpixel的特征向量维数比较高(524维),如果进行降维处理 

(如KL变换),是否能对学习、预测的速度与精度有所提高? 

2.用14维Superpixels间的边缘特征向量来判断对应空间平面遮挡情况 

存在,可信度? 

3.三维重建的精度? 

4.大场景重建与SFM方法相结合,但SFM方法所占比重比较大,如果SFM 

方法失败(如特征点检测或匹配错误),会对重建结果造成多大影响? 

共34页 

31

3.总结与展望 

共34页 

32

总结与展望 

1.总结 

三维重建的难点不在于三维重建的过程,更在于对二维图像的理解。通 

过从原始图像中提取与理解尽量多的语义信息,或由用户提供适量的语 

义信息,近而将语义信息用于对三维重建过程的指导或对三维重建结果 

的优化的思路是可行。 

2.展望 

通过对图像低层语义的理解,在常规 

SFM重建方法的基础上,对整体重建速 

度和精度进行优化(遮挡、弱纹理区域 

重建得到的点云过于稀疏等问题)。 

通过对用户交互式提供的高层语义的 

理解,指导重建过程以达到较高的重 

建效果。 

共34页 

33

欢迎批评指正,谢谢! 

共34页 

34

基于语义理解的三维重建

Create successful ePaper yourself

Delete template?

Save as template?