27.09.2014 Views

视频中多线索的人脸特征检测与跟踪1 - 清华大学

视频中多线索的人脸特征检测与跟踪1 - 清华大学

视频中多线索的人脸特征检测与跟踪1 - 清华大学

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

1<br />

视 频 中 多 线 索 的 人 脸 特 征 检 测 与 跟 踪<br />

庄 莉 徐 光 祐 艾 海 舟 梁 路 宏 彭 振 云<br />

( 清 华 大 学 计 算 机 科 学 与 技 术 系 , 智 能 技 术 与 系 统 国 家 重 点 实 验 室 , 北 京 100084)<br />

摘 要 : 针 对 目 前 的 人 脸 特 征 检 测 与 跟 踪 算 法 存 在 的 对 环 境 适 应 能 力 差 , 缺 乏 自 我 检 错 能 力 的 缺 点 ,<br />

本 文 提 出 了 一 种 多 线 索 综 合 的 新 方 法 。 多 线 索 中 包 括 : 基 于 深 度 信 息 的 人 脸 区 域 粗 分 割 、 基 于 多 关<br />

联 模 板 匹 配 的 人 脸 检 测 、 利 用 多 尺 度 Sobel 卷 积 的 特 征 提 取 、 基 于 “ 特 征 眼 ” 的 人 眼 验 证 以 及 基 于<br />

多 视 图 的 校 验 方 法 。 多 种 线 索 互 相 补 充 、 自 我 检 错 和 纠 错 , 对 背 景 、 光 照 及 姿 态 变 化 具 有 较 强 的 适<br />

应 能 力 。 实 验 表 明 该 方 法 是 有 效 的 , 鲁 棒 的 。<br />

关 键 词 : 人 脸 识 别 , 人 脸 特 征 检 测 与 跟 踪 , 人 脸 检 测 , 多 尺 度 分 析<br />

1. 引 言<br />

人 脸 特 征 检 测 是 提 高 人 脸 识 别 性 能 的 关 键 问 题 。 这 是 因 为 : 人 脸 识 别 中 需 要 解 决 的 基 本 问 题 之<br />

一 是 如 何 处 理 由 于 光 照 和 姿 态 因 素 造 成 的 影 响 。 实 际 环 境 中 , 同 一 个 人 在 不 同 光 照 和 姿 态 下 人 脸 图<br />

象 在 表 观 上 的 差 别 , 往 往 比 不 同 人 在 几 乎 相 同 的 光 照 和 姿 态 下 在 表 观 上 的 差 别 还 要 大 。 同 一 个 人 在<br />

不 同 环 境 下 采 集 到 的 数 据 的 离 散 性 , 成 为 提 高 人 脸 识 别 正 确 率 的 重 要 障 碍 。J.Daugman[1] 和 Maxim<br />

A.Grudin[2] 在 分 析 和 比 较 了 现 今 流 行 的 几 乎 所 有 人 脸 识 别 方 法 后 指 出 : 现 有 人 脸 识 别 算 法 还 都 不 足<br />

以 做 到 对 光 照 、 姿 态 的 鲁 棒 性 。<br />

现 有 的 人 脸 识 别 方 法 大 致 可 分 成 基 于 特 征 描 述 的 和 基 于 模 板 的 二 类 方 法 [3]。 无 论 那 一 种 方 法 都<br />

需 要 依 靠 人 脸 特 征 的 检 测 技 术 。 基 于 特 征 描 述 的 方 法 对 光 照 和 姿 态 有 较 强 的 适 应 能 力 , 它 需 要 先 检<br />

测 特 征 , 然 后 进 行 描 述 。 而 基 于 模 板 的 方 法 为 了 对 采 集 的 原 始 数 据 进 行 规 范 化 和 校 正 处 理 , 从 而 减<br />

轻 光 照 和 姿 态 的 影 响 , 也 需 要 准 确 地 检 测 人 脸 特 征 。 因 而 , 特 征 检 测 已 成 为 提 高 人 脸 识 别 性 能 的 一<br />

个 亟 待 解 决 的 核 心 问 题 之 一 。 正 因 为 如 此 , 许 多 人 脸 识 别 研 究 者 [2][4][5][6] 都 把 解 决 人 脸 特 征 检 测<br />

的 鲁 棒 性 、 准 确 性 , 作 为 提 高 人 脸 识 别 性 能 的 一 个 重 要 途 径 进 行 研 究 。<br />

此 外 , 为 了 推 进 人 脸 识 别 研 究 走 向 实 用 化 , 我 们 认 为 应 该 对 基 于 视 频 输 入 的 人 脸 识 别 研 究 给 予<br />

更 多 重 视 。 因 为 从 现 场 采 集 的 人 脸 图 象 视 频 中 可 以 提 取 丰 富 的 多 姿 态 人 脸 样 本 , 通 过 统 计 学 习 的 方<br />

法 建 立 识 别 算 法 , 有 望 突 破 现 有 的 在 固 定 人 脸 姿 态 下 识 别 方 法 的 局 限 性 。 其 中 一 个 亟 待 解 决 的 问 题<br />

是 人 脸 样 本 的 提 取 和 规 范 化 问 题 , 其 核 心 就 是 视 频 中 人 脸 特 征 的 准 确 检 测 技 术 , 它 是 对 光 照 、 姿 态<br />

规 范 化 的 前 提 , 直 接 关 系 到 后 续 的 人 脸 识 别 统 计 学 习 方 法 的 有 效 性 。 因 此 , 本 文 重 点 研 究 视 频 中 的<br />

人 脸 特 征 的 准 确 检 测 技 术 。<br />

现 有 的 人 脸 特 征 检 测 算 法 容 易 受 到 光 照 、 姿 态 的 影 响 , 同 时 也 难 以 适 应 具 有 复 杂 背 景 的 环 境 。<br />

其 原 因 主 要 是 算 法 缺 乏 多 重 保 护 功 能 , 也 没 有 自 我 检 错 和 纠 错 的 能 力 。 而 要 具 备 上 述 能 力 的 基 本 条<br />

件 是 尽 量 利 用 与 人 脸 特 征 有 关 的 各 种 线 索 , 并 把 它 们 有 机 地 组 织 起 来 , 使 它 们 互 相 补 充 、 校 验 、 纠<br />

正 。 我 们 认 为 , 人 脸 检 测 与 人 脸 特 征 的 检 测 是 一 个 问 题 的 两 个 密 切 相 关 的 方 面 : 如 能 可 靠 地 检 测 人<br />

脸 区 域 , 根 据 人 脸 的 模 型 就 有 可 能 指 导 人 脸 特 征 的 检 测 ; 而 人 脸 特 征 的 检 测 又 可 用 于 校 验 人 脸 区 域<br />

检 测 的 正 确 性 , 从 而 提 高 人 脸 区 域 检 测 的 可 靠 性 。 所 以 , 可 靠 的 人 脸 特 征 的 检 测 需 要 把 上 述 二 者 结<br />

合 起 来 , 并 且 把 人 脸 检 测 作 为 人 脸 特 征 检 测 的 第 一 步 , 用 整 体 人 脸 位 置 来 指 导 局 部 特 征 检 测 。 此 外 ,<br />

对 于 无 表 情 变 化 的 人 脸 来 说 , 在 不 同 姿 态 下 的 人 脸 及 相 应 的 人 脸 特 征 可 看 成 是 一 个 刚 体 的 运 动 , 应<br />

该 满 足 刚 体 运 动 的 约 束 条 件 。 这 也 为 人 脸 特 征 的 检 测 提 供 了 重 要 的 线 索 。 基 于 上 述 思 考 , 我 们 提 出<br />

了 视 频 中 基 于 多 线 索 的 人 脸 特 征 检 测 和 跟 踪 算 法 。 为 了 鲁 棒 地 检 测 人 脸 区 域 , 我 们 采 用 基 于 立 体 视<br />

觉 的 深 度 信 息 , 同 时 结 合 基 于 多 关 联 模 板 匹 配 的 人 脸 检 测 算 法 。 为 了 验 证 人 脸 特 征 检 测 的 正 确 性 ,<br />

1<br />

受 高 技 术 项 目 863-306-ZT03-01-1 资 助 。<br />

1


我 们 利 用 了 基 于 “ 特 征 眼 ” 的 验 证 方 法 和 基 于 多 视 图 的 人 脸 特 征 校 验 方 法 , 使 我 们 的 算 法 不 但 具 有<br />

检 错 的 能 力 , 而 且 在 一 定 的 情 况 下 , 还 有 纠 错 的 能 力 。 实 验 表 明 , 本 文 提 出 的 人 脸 特 征 检 测 方 法 对<br />

复 杂 背 景 和 光 照 具 有 较 强 的 适 应 能 力 。 我 们 的 算 法 在 189 段 不 同 光 照 下 采 集 的 视 频 (50 帧 / 段 ) 上<br />

进 行 了 测 试 , 取 得 了 满 意 的 结 果 。<br />

本 文 结 构 如 下 : 首 先 是 引 言 , 第 2 节 是 人 脸 特 征 检 测 及 人 脸 识 别 系 统 框 架 , 第 3 节 详 细 叙 述 人<br />

脸 特 征 检 测 方 法 , 第 4 节 叙 述 特 征 跟 踪 策 略 , 第 5 节 是 实 验 结 果 。 最 后 是 总 结 和 讨 论 。<br />

2. 算 法 原 理 和 实 验 环 境<br />

如 图 1 所 示 , 人 脸 验 证 系 统 由 双 目 立 体 摄 象 机 作 为 视 频 输 入 , 从 连 续 的 视 频 图 象 中 获 取 各 种 姿<br />

态 的 人 脸 样 本 。 两 个 摄 像 头 相 距 约 0.3 米 , 待<br />

测 试 人 站 在 距 离 摄 像 头 约 2.5 米 的 位 置 。 计 算<br />

机 为 一 台 带 有 两 块 Matrox Meteor II 图 象 采 集<br />

卡 的 PentiumIII-966MHz PC。<br />

人 脸 特 征 检 测 和 跟 踪 算 法 如 图 2。<br />

特 征 检 测 和 跟 踪 的 过 程 分 为 检 测 和 跟 踪<br />

两 个 状 态 。 在 检 测 状 态 下 , 我 们 利 用 整 体 人 脸<br />

的 位 置 指 导 局 部 特 征 检 测 ; 多 帧 检 测 结 果 相 互<br />

初 始 化 当 前 状 态 : 检 测<br />

检 测 / 跟 踪 ?<br />

检 测<br />

立 体 摄 象 机 组<br />

跟 踪<br />

求 对 应 点 计 算 视 差 图 , 根 据 视 差 聚<br />

类 分 割 出 作 为 前 景 的 头 部 区 域<br />

在 分 割 得 头 部 区 域 内 用 多 关 联<br />

模 板 匹 配 定 位 人 脸 区 域<br />

根 据 人 脸 整 体 定 位 结 果 指 导 “ 局 部 ” 的 检 测<br />

校 验 特 征 是 否 正 确 ?<br />

设 置 状 态 : 跟 踪 ; 根 据 本 帧 特<br />

征 位 置 设 置 头 部 分 割 区 域<br />

设 置 状 态 : 检 测<br />

图 2. 算 法 流 程<br />

图 1. 实 验 环 境 结 构 图<br />

校 验 , 确 认 特 征 检 测 正 确 之 后 , 进 入 跟 踪 状 态 ; 跟 踪 状 态 下 , 首 先 利 用 上 一 帧 的 结 果 粗 定 位 头 部 所<br />

在 大 致 位 置 指 导 整 体 人 脸 的 检 测 , 再 在 整 体 定 位 的 结 果 上 进 行 局 部 检 测 。<br />

我 们 的 实 验 采 用 立 体 视 频 作 为 输 入 , 利 用 立 体 视 觉 进 行 粗 分 割 。 而 在 其 它 情 况 下 , 多 线 索 的 思<br />

想 和 本 文 中 的 粗 分 割 后 的 算 法 , 同 样 适 用 于 在 单 视 频 输 入 下 人 脸 特 征 的 提 取 和 跟 踪 。 如 : 对 于 单 视<br />

频 输 入 情 况 , 我 们 可 以 将 基 于 立 体 视 觉 线 索 的 分 割 替 换 为 基 于 肤 色 线 索 的 分 割 [7]。<br />

对 每 个 正 确 的 特 征 检 测 , 我 们 根 据 检 测 出 的 瞳 孔 中 心 和 嘴 中 心 位 置 进 行 几 何 位 置 和 光 照 的 标 准<br />

化 [8], 可 以 得 到 用 于 识 别 的 剪 裁 样 本 。<br />

3. 人 脸 特 征 检 测<br />

3.1. 基 于 立 体 视 觉 的 人 脸 区 域 分 割<br />

2


点<br />

数<br />

视 差 最 大 的 峰<br />

(a) 左 右 摄 像 头 拍 摄 图 像 、 分 割 视 差 图 , 左<br />

上 矩 形 是 立 体 视 觉 分 割 的 结 果<br />

(b) 最 低 分 辨 率 下 的 视 差 直 方 图<br />

视 差<br />

图 3. 立 体 视 觉 人 脸 区 域 粗 分 割<br />

基 于 立 体 视 觉 的 人 脸 区 域 分 割 [9], 假 设 待 测 试 人 站 在 所 有 背 景 的 最 前 面 , 因 此 在 视 差 图 上 将 具<br />

有 最 大 的 视 差 。 我 们 将 视 差 图 上 具 有 最 大 视 差 的 部 分 作 为 人 头 肩 的 位 置 , 大 致 划 分 出 人 脸 所 在 区 域 。<br />

如 图 3(a) 左 , 我 们 从 视 差 图 中 分 割 视 差 最 大 的 前 景 区 域 作 为 粗 分 割 的 人 脸 所 在 区 域 ( 图 中 实 线 外 框 )。<br />

分 割 人 脸 区 域 于 背 景 的 深 度 阈 值 是 自 适 应 自 动 确 定 的 。 因 此 对 人 脸 与 摄 像 机 之 间 的 距 离 无 需 作 严 格<br />

的 限 制 。<br />

在 双 目 匹 配 中 , 采 用 “ 由 粗 到 精 ” 的 相 关 匹 配 方 法 。 将 原 立 体 对 图 象 进 行 金 字 塔 分 解 , 得 到 不<br />

同 分 辨 率 的 一 系 列 图 象 。 根 据 低 分 辨 率 的 匹 配 结 果 ( 图 3(b)) 指 导 较 高 分 辨 率 的 匹 配 , 以 取 得 较 快<br />

的 匹 配 速 度 。 在 最 低 分 辨 率 下 的 视 差 直 方 图 中 , 取 得 视 差 最 大 的 峰 的 位 置 的 视 差 值 d*。 设 d(x,y) 为<br />

最 低 分 辨 率 下 左 眼 图 象 (x,y) 处 的 视 差 , 根 据 如 下 公 式 :<br />

' ⎧d(<br />

x,<br />

y)<br />

d ( x,<br />

y)<br />

= ⎨<br />

⎩ d *<br />

d(<br />

x,<br />

y)<br />

∈[<br />

d * −δ<br />

, d * + δ ]<br />

d(<br />

x,<br />

y)<br />

∉[<br />

d * −δ<br />

, d * + δ ]<br />

我 们 用 d’(x,y) 来 指 导 较 高 分 辨 率 的 匹 配 , 这 样 只 有 最 低 分 辨 率 下 视 差 在 d* 附 近 的 象 素 点 在 高 分<br />

辨 率 图 象 上 能 够 得 到 较 好 的 匹 配 ; 而 这 些 能 够 匹 配 的 象 素 点 , 正 是 我 们 希 望 分 割 出 的 头 肩 区 域 。<br />

通 过 双 目 立 体 视 觉 , 能 够 非 常 鲁 棒 地 将 人 脸 区 域 从 复 杂 的 背 景 中 分 割 出 来 。<br />

3.2. 整 体 人 脸 定 位<br />

我 们 采 用 基 于 多 关 联 模 板 匹 配 的 人 脸 检 测 算 法 [10] 在 立 体 视 觉 得 到 的 人 脸 分 割 的 基 础 上 , 进 一<br />

步 精 确 确 定 人 脸 位 置 。 人 脸 检 测 算 法 只 需 要 在 立 体 图 象 对 中 的 任 意 一 幅 图 象 中 进 行 即 可 , 具 体 方 法<br />

如 下 :<br />

1. 定 义 图 象 窗 口 和 模 板 之 间 匹 配 的 相 关 系 数 :<br />

2<br />

2<br />

给 定 灰 度 平 均 值 为 µ T 、 方 差 为 σ 的 模 板 T[M][N], 在 一 个 灰 度 平 均 值 µ R、 方 差 的 图 象 窗 口<br />

R[M][N] 中 ,T 和 R 的 相 关 系 数 r(T,R), 如 下 计 算 :<br />

T<br />

σ R<br />

r(<br />

T , R)<br />

=<br />

M − 1 N −1<br />

∑∑<br />

i = 0 j = 0<br />

( T [ i][<br />

j]<br />

− µ )( R[<br />

i][<br />

j]<br />

− µ )<br />

M ⋅ N<br />

T<br />

⋅σ<br />

⋅σ<br />

T<br />

R<br />

R<br />

2. 人 脸 模 板 的 取 得<br />

3


选 取 50 个 标 准 证 件 照 手 工 标 定 眼 睛 和 嘴 角 4 个 特 征 点 , 根 据 特 征 点 对<br />

样 本 图 象 进 行 几 何 校 正 并 裁 减 出 人 脸 样 本 (50×50), 并 且 都 进 行 灰 度 标 准<br />

化 ( 平 均 值 128, 方 差 64) 处 理 , 计 算 平 均 脸 。 然 后 将 得 到 的 平 均 脸 缩 小 到<br />

20×20 大 小 , 并 从 其 中 剪 裁 出 20×8 大 小 的 平 均 眼 。 如 图 4 所 示 。<br />

图 4. 多 关 联 模 板<br />

3. 多 关 联 模 板 匹 配 的 人 脸 检 测 算 法 的 匹 配 方 案<br />

在 立 体 视 觉 匹 配 得 到 的 分 割 中 , 首 先 使 用 双 眼 模 板 搜 索 候 选 人 脸 , 再 用 人 脸 模 板 匹 配 进 一 步 筛<br />

选 候 选 人 脸 , 仅 保 留 超 过 阈 值 的 匹 配 值 最 大 的 位 置 作 为 结 果 。 根 据 可 能 的 人 脸 大 小 范 围 , 算 法 通 过<br />

对 图 象 反 复 作 等 比 例 压 缩 重 采 样 并 在 压 缩 后 的 图 象 中 进 行 搜 索 的 方 法 实 现 多 尺 度 人 脸 的 定 位 [10]。<br />

为 了 在 一 定 程 度 上 减 少 光 照 的 影 响 , 在 每 个 搜 索 的 矩 形 区 域 , 进 行 了 光 线 校 正 。<br />

如 图 3(a) 所 示 , 实 线 的 外 框 是 立 体 视 觉 匹 配 的 结 果 , 虚 线 的 内 框 是 进 行 多 关 联 人 脸 模 板 匹 配 得<br />

到 的 人 脸 位 置 。 这 个 人 脸 位 置 和 大 小 , 就 是 “ 整 体 到 局 部 ” 指 导 人 脸 特 征 检 测 的 “ 整 体 ”。<br />

3.3. 人 脸 特 征 检 测<br />

在 整 体 人 脸 位 置 和 大 小 的 “ 指 导 ” 下 , 进 一 步 检 测 人 脸 器 官 的 位 置 。 我 们 检 测 的 人 脸 特 征 主 要<br />

包 括 左 右 眼 睛 ( 以 上 眼 睑 中 心 标 识 ), 鼻 ( 以 最 宽 处 左 右 标 识 ), 嘴 ( 以 左 右 嘴 角 标 识 )。<br />

整 体 人 脸 的 检 测 结 果 指 示 了 人 脸 各 个 器 官 的 大 致 分 布 情 况 。 因 此 , 可 以 认 为 3.2 节 检 测 结 果 区<br />

域 中 局 部 灰 度 变 化 比 较 大 的 位 置 是 人 脸 器 官 所 在 的 区 域 。<br />

从 3.2 节 检 测 结 果 区 域 , 我 们 能 够 得 到 人 脸 的 大 致 尺 度 。 图 象 中 人 脸 器 官 位 置 灰 度 变 化 情 况 ,<br />

跟 图 象 中 人 脸 尺 度 密 切 相 关 。 采 用 多 尺 度 的 小 波 分 析 (Wavelet Analysis)[11] 能 够 检 测 出 不 同 尺 度<br />

的 灰 度 变 化 情 况 ;Gabor 小 波 变 换 (Gabor Wavelet Transform)[12][13] 能 够 检 测 出 不 同 方 向 、 不 同<br />

尺 度 的 灰 度 变 化 。 这 些 基 于 小 波 的 检 测 方 法 能 够 得 到 所 有 尺 度 /( 方 向 ) 的 灰 度 变 化 情 况 , 但 是 计 算<br />

量 比 较 大 不 能 适 应 实 时 检 测 和 跟 踪 的 需 要 ; 而 我 们 希 望 得 到 的 仅 仅 是 某 一 能 够 反 应 器 官 位 置 的 尺 度<br />

(“ 器 官 尺 度 ”) 的 灰 度 变 化 , 全 部 尺 度 的 计 算 是 不 需 要 的 。 因 此 , 我 们 提 出 避 免 采 用 比 较 复 杂 的 小<br />

波 分 析 方 法 来 计 算 全 部 尺 度 和 方 向 上 灰 度 变 化 , 而 是 通 过 实 验 确 定 Sobel 算 子 卷 积 可 以 反 映 器 官 位<br />

置 灰 度 变 化 的 人 脸 尺 度 范 围 , 根 据 人 脸 整 体 定 位 的 结 果 将 其 映 射 到 这 个 尺 度 范 围 上 , 再 采 用 Sobel<br />

算 子 卷 积 就 能 够 有 效 地 检 测 出 “ 器 官 尺 度 ” 上 的 灰 度 变 化 。 因 为 Sobel 算 子 的 窗 口 大 小 是 固 定 的<br />

(3*3), 在 这 个 窗 口 大 小 下 只 能 够 检 测 某 一 尺 度 范 围 的 灰 度 变 化 即 边 缘 信 息 , 本 来 是 不 能 用 于 多 尺<br />

度 边 缘 检 测 的 ; 由 于 我 们 已 经 有 了 整 体 人 脸 检 测 结 果 的 指 导 , 故 可 以 将 整 体 人 脸 检 测 的 区 域 放 缩 到<br />

Sobel 算 子 能 够 检 测 的 人 脸 尺 度 范<br />

围 , 从 而 利 用 不 变 尺 度 算 子 达 到 多<br />

尺 度 检 测 的 效 果 。 而 这 个 Sobel 算<br />

子 的 “ 器 官 尺 度 ” 是 通 过 实 验 确 定<br />

的 。 由 于 检 测 横 向 边 缘 的 Sobel 算<br />

子 能 够 较 好 地 反 应 人 脸 器 官 位 置<br />

的 灰 度 , 这 里 采 用 图 5 所 示 的<br />

Sobel 算 子 。<br />

设 当 人 脸 尺 度 在 [R min , R max ] 范<br />

围 内 时 , 横 向 Sobel 算 子 能 够 比 较<br />

好 地 提 取 人 脸 器 官 位 置 的 灰 度 变<br />

化 。 在 整 体 人 脸 定 位 时 , 我 们 能 够<br />

得 到 图 象 中 人 脸 的 大 致 尺 度 R*,<br />

我 们 将 整 体 人 脸 从 图 象 中 剪 切 出<br />

来 并 缩 放 到 尺 度 (R min +R max )/2, 然<br />

后 对 缩 放 后 的 图 ( 图 5(a)) 用 横 向<br />

Sobel 算 子 卷 积 , 就 能 够 很 好 地 分<br />

⎡ 1 2 1 ⎤<br />

Sobel H<br />

= ⎢ 0 0 0 ⎥<br />

⎢⎣<br />

−1<br />

− 2 −1⎥⎦<br />

(a) 缩 放 后 的 分 割 图 (b) Sobel 卷 积 图<br />

100%<br />

90%<br />

累 计 直 方 图<br />

二 分 阈 值<br />

0 255<br />

(c) 累 计 直 方 图<br />

(d) 器 官 分 割 图<br />

图 5. 利 用 水 平 Sobel 卷 积 和 自 动 阈 值 选 取 得 到 人 脸 器 官 分 割 图<br />

4


割 出 不 同 尺 度 人 脸 上 的 器 官 位 置 , 同 时 避 免 了 较 为 复 杂 的 多 尺 度 分 析 。 我 们 对 尺 度 30pixel-200pixel<br />

的 人 脸 区 域 剪 切 图 进 行 实 验 , 得 到 R min ≈80,R max ≈125。<br />

在 人 脸 定 位 的 结 果 区 域 内 , 我 们 依 次 按 照 “ 眼 睛 鼻 子 嘴 巴 ” 的 顺 序 检 测 各 个 器 官 。<br />

1. 检 测 眼 睛<br />

我 们 在 横 向 Sobel 卷 积 的 结 果 图 ( 图 5(b)) 上 首 先 检 测 眼 睛 。 人 脸 器 官 在 横 向 Sobel 卷 积 的 结 果<br />

图 5(b) 中 表 现 为 灰 度 值 较 大 的 点 的 位 置 。 根 据 人 脸 器 官 占 整 个 人 脸 区 域 面 积 的 比 例 α%, 我 们 取 灰<br />

度 值 最 大 的 α% 的 点 ( 图 5(c) 累 计 灰 度 直 方 图 ) 作 为 可 能 器 官 所 在 位 置 , 其 余 (100-α)% 为 非 器 官 位<br />

置 。 实 验 中 , 我 们 取 α=10。 分 割 的 结 果 如 图 5(d)。<br />

首 先 在 图 5(d) 中 寻 找 所 有 连 通 域 , 并 剔 除 面 积 、 形 状 和 所 处 的 几 何 位 置 等 完 全 不 可 能 成 为 单 眼<br />

候 选 的 连 通 域 , 如 图 6 左 。 把 相 互 几 何 位 置 可 能 成 为 一 对 眼 睛 的 两 个 候 选 单 眼 配 对 成 为 一 个 候 选 双<br />

眼 对 , 如 图 6 中 。 对 于 选 出 的 候 选 双 眼 对 , 采 用 主 分 量 分 析 (Principle Component Analysis: PCA)<br />

的 特 征 眼 方 法 挑 出 真 正 的 人 眼 对 [6], 由 此 确 定 图 6 右 图 最 终 人 眼 ( 瞳 孔 ) 位 置 。 在 一 批 手 工 裁 减 得<br />

到 的 规 范 化 人 眼 样 本 ( 图 7(a)) 中 进 行<br />

主 分 量 分 析 , 并 取 特 征 值 之 和 大 于 全 部<br />

特 征 值 之 和 95% 的 特 征 向 量 作 为 特 征 眼<br />

( 图 7(b))。 将 图 7 中 图 的 候 选 人 眼 对 在<br />

特 征 眼 上 进 行 投 影 重 构 , 只 有 真 正 的 人<br />

眼 对 才 会 取 得 较 高 的 重 构 相 关 系 数 [6]<br />

( 图 7(c))。 由 此 , 我 们 取 重 构 系 数 最 大<br />

图 6. 单 眼 候 选 、 双 眼 候 选 对 、 最 终 确 定 人 眼<br />

的 人 眼 对 作 为 真 正 的 人 眼 对 。<br />

(a) 部 分 剪 裁 样 本<br />

(b) 部 分 特 征 眼<br />

候 选 人 眼 对 1 剪 裁 图 : , 重 构 图 : , 相 关 系 数 :0.9436<br />

候 选 人 眼 对 2 剪 裁 图 : , 重 构 图 : , 相 关 系 数 :0.7065<br />

(c) 候 选 人 眼 对 的 PCA 重 构 情 况<br />

图 7. 特 征 眼 方 法<br />

2. 检 测 鼻 子 和 左 右 嘴 角<br />

从 图 5(b)Sobel 卷 积 的 结 果 图 , 参 考 已 经 得 到 的 眼 睛 位 置 , 进 一 步 检 测 鼻 子 的 位 置 。<br />

根 据 眼 睛 的 位 置 、 尺 度 , 框 定<br />

左 右<br />

鼻 子 和 嘴 大 致 位 置 , 如 图 8 左 图 虚<br />

鼻<br />

线 框 所 示 。 对 这 块 区 域 沿 着 x 方 向 y<br />

计 算 灰 度 累 积 , 第 一 个 峰 的 位 置 指<br />

示 了 鼻 子 的 水 平 位 置 Y nose 。 在 [Y nose -<br />

σ, Y nose +σ] 沿 着 y 方 向 计 算 灰 度 累<br />

x<br />

积 , 可 以 确 定 鼻 子 最 宽 部 分 左 右 边<br />

界 。<br />

图 8 根 据 眼 睛 位 置 框 定 鼻 子 区 域 、 双 方 向 灰 度 累 积 图<br />

在 鼻 子 位 置 确 定 以 后 根 据 鼻 子<br />

5


位 置 很 容 易 在 图 5(d) 的 分 割 图 上 检 测 到 左 右 嘴 角 位 置 。<br />

4. 人 脸 特 征 跟 踪<br />

人 脸 特 征 的 跟 踪 是 建 立 在 前 一 帧 人 脸 特 征 检 测 正 确 的 基 础 上 。 一 般 的 人 脸 特 征 跟 踪 研 究 往 往 需<br />

要 手 工 给 定 第 一 帧 的 特 征 位 置 , 然 后 研 究 单 纯 的 跟 踪 策 略 [13][14]。 我 们 的 算 法 中 , 第 一 帧 的 特 征 位<br />

置 采 用 自 动 检 测 得 到 , 在 这 种 情 况 下 , 为 了 确 保 跟 踪 的 有 效 性 , 要 求 算 法 本 身 具 有 校 验 能 力 , 能 够<br />

自 动 判 断 检 测 的 正 确 性 并 去 除 错 误 。 进 行 有 效 的 校 验 应 该 使 用 独 立 的 信 息 源 和 不 相 关 的 算 法 , 以 保<br />

证 检 验 数 据 和 方 法 的 独 立 性 。 在 这 里 我 们 利 用 了 多 视 图 的 人 脸 图 象 和 刚 体 的 几 何 和 运 动 约 束 。<br />

4.1. 特 征 检 测 正 确 性 的 检 验<br />

通 过 相 邻 帧 的 检 测 结 果 之 间 的 相 互 校 验 , 我 们 来 确 定 检 测 的 正 确 性 。 假 设 中 性 表 情 下 的 人 脸 的<br />

运 动 大 致 满 足 刚 体 约 束 , 我 们 采 用 几 何 约 束 和 刚 体 运 动 约 束 来 进 行 校 验 。<br />

1. 几 何 约 束<br />

设 {f 1 , f 2 , f 3 ,…, f n } 是 连 续 n 帧 视 频 ,{d 1,i , d 2,i ,d 3,i , d 4,i , d 5,i } 是 f i 帧 检 测 出 的 { 左 眼 - 右 眼 、 左 眼 -<br />

左 嘴 角 、 右 眼 - 右 嘴 角 、 左 嘴 角 - 右 嘴 角 、 左 嘴 角 - 鼻 子 中 心 } 距 离 , 如 果 满 足 下 式 ,<br />

∀j, k ∈[1,<br />

n],<br />

j ≠ k,<br />

d<br />

j<br />

− di,<br />

i, k<br />

< δ<br />

i<br />

i =<br />

则 认 为 {f 1 , f 2 , f 3 ,…, f n } 满 足 几 何 约 束<br />

2. 刚 体 约 束<br />

1,2,3,4,5<br />

无 表 情 人 脸 的 多 视 角 图 象 被 可 以 看 成 是 刚 体 的 运 动 。 此 外 , 由 于 人 脸 到 摄 像 机 之 间 的 距 离 通 常<br />

要 比 人 脸 上 五 官 之 间 的 深 度 变 化 大 得 多 。 所 以 , 可 认 为 眼 睛 , 鼻 孔 和 嘴 角 是 分 布 在 一 个 平 面 上 。 这<br />

样 可 把 刚 体 的 运 动 约 束 简 化 为 仿 射 变 换 。<br />

设 X v<br />

v<br />

是 最 初 的 特 征 点 位 置 , X ' 是 运 动 后 的 特 征 点 的 位 置 , 有 下 面 的 射 影 变 换 关 系 式 :<br />

v v<br />

X'<br />

= RX + T ,<br />

⎡r<br />

R = ⎢<br />

⎣r<br />

11<br />

21<br />

r12<br />

⎤<br />

r<br />

⎥<br />

22 ⎦<br />

⎡t1<br />

⎤<br />

T = ⎢ ⎥<br />

⎣t2<br />

⎦<br />

可 以 证 明 3 对 点 的 ( X v , X v ' ) 可 以 完 全 确 定 一 个 射 影 变 换 的 参 数 R 和 T。 对 于 检 测 到 的 7 个 点 , 从<br />

其 中 选 出 3 个 点 有 35 种 情 况 。 对 这 35 组 3 对 点 , 都 计 算 相 对 正 确 的 特 征 点 对 的 变 化 参 数 R: {R1,<br />

R 2 , …, R 35 }。 如 果 满 足 下 式 :<br />

v v<br />

max || X ' −(<br />

R<br />

i<br />

X i<br />

+ T )<br />

认 为 检 测 出 的 7 个 特 征 点 满 足 刚 体 约 束 。<br />

i<br />

2<br />

||<br />

< δ , 其 中 δ 控 制 特 征 检 测 允 许 的 误 差 程 度 。<br />

当 连 续 n 帧 视 频 {f 1 , f 2 , f 3 ,…, f n } 同 时 满 足 几 何 约 束 和 刚 体 约 束 时 , 则 将 这 n 帧 特 征 都 标 志 为 正<br />

确 , 并 将 该 第 f n 帧 检 测 结 果 设 为 一 个 标 准 , 用 以 指 导 后 来 的 跟 踪 和 检 测 。 在 第 f n 帧 设 置 为 标 准 之 后 ,<br />

某 帧 与 标 准 帧 校 验 同 时 满 足 几 何 约 束 和 刚 体 约 束 时 才 认 为 该 帧 的 特 征 为 正 确 。<br />

4.2. 跟 踪 策 略<br />

在 第 i 帧 的 特 征 为 正 确 的 情 况 下 , 第 i+1 帧 在 上 一 帧 的 基 础 上 进 行 跟 踪 。 具 体 做 法 是 :<br />

1. 根 据 第 i 帧 的 特 征 位 置 , 确 定 人 脸 当 前 大 致 的 旋 转 、 尺 度 , 据 此 框 定 第 i+1 帧 人 脸 所 在 的 大<br />

致 位 置 。<br />

2. 采 用 3.2 节 所 述 方 法 定 位 整 体 人 脸 , 进 而 重 复 检 测 过 程<br />

3. 检 查 第 i+1 帧 检 测 结 果 和 第 i 帧 检 测 结 果 是 否 满 足 几 何 约 束 和 刚 体 约 束 。 满 足 , 标 志 第 i+1<br />

帧 特 征 正 确 , 下 一 帧 继 续 跟 踪 ; 否 则 , 标 志 第 i+1 帧 特 征 错 误 。<br />

4. 在 第 i 帧 的 特 征 为 错 误 的 情 况 下 , 进 行 4.1 所 述 连 续 n 帧 特 征 校 验 。<br />

5. 检 测 和 跟 踪 结 果<br />

我 们 在 189 段 不 同 光 照 下 采 集 的 视 频 (50 帧 / 段 ) 上 测 试 了 检 测 和 跟 踪 结 果 。 被 测 试 人 在 摄 像<br />

6


机 前 转 动 头 部 以 便 取 得 不 同 的 头 部 姿 态 , 对 每 个 人 采 集 50 帧 视 频 。 在 189 段 视 频 中 , 特 征 标 志 为<br />

正 确 的 帧 9280 帧 , 特 征 检 测 正 确 率 9280/(189*50)=98.2%。 在 PIII966MHz 的 PC 上 , 我 们 取 得 了 25fps<br />

的 检 测 和 跟 踪 结 果 。 图 9 中 是 两 段 视 频 中 的 部 分 实 验 结 果 。<br />

(a) 视 频 段 1: 第 1、5、10、15、19、24、29、33、37、41、45、50 帧 特 征 检 测 结 果<br />

(b) 视 频 段 2: 第 1、5、10、15、19、24、29、33、37、41、45、50 帧 特 征 检 测 结 果<br />

图 9 视 频 中 的 人 脸 特 征 检 测 与 跟 踪<br />

对 出 错 情 况 逐 个 进 行 考 察 和 分 析 后 , 我 们 发 现 错 误 基 本 上 发 生 于 两 种 情 况 : 极 端 光 照 , 如 明 显<br />

的 阴 阳 脸 ; 偏 离 正 常 姿 态 过 大 , 如 超 过 30° 的 俯 仰 或 旋 转 。 这 是 因 为 在 这 样 的 情 况 下 , 一 方 面 人 脸<br />

检 测 模 块 会 出 现 定 位 不 准 等 问 题 ( 我 们 的 人 脸 检 测 算 法 是 针 对 基 本 正 面 的 人 脸 设 计 的 , 能 够 容 忍 25°<br />

左 右 的 姿 态 变 化 ), 影 响 后 续 的 特 征 检 测 过 程 ; 另 一 方 面 , 当 人 脸 定 位 准 确 时 , 由 于 光 照 条 件 极 端 ,<br />

矫 正 效 果 不 好 , 依 据 特 征 眼 方 法 挑 选 候 选 人 眼 的 准 确 度 会 降 低 , 原 因 是 特 征 眼 也 是 在 比 较 正 常 的 光<br />

照 下 训 练 得 到 的 , 没 有 考 虑 极 端 光 照 情 况 。 但 在 实 际 应 用 中 , 算 法 不 能 适 应 的 这 种 极 端 情 况 是 可 以<br />

避 免 的 , 只 要 满 足 基 本 均 衡 的 照 明 条 件 , 如 正 面 光 照 情 况 , 以 及 限 制 识 别 时 人 脸 允 许 的 姿 态 变 化 范<br />

围 。 这 些 约 束 对 于 配 合 式 的 人 脸 识 别 与 验 证 应 用 问 题 完 全 是 合 理 的 。<br />

7


6. 总 结<br />

本 文 讨 论 了 较 复 杂 环 境 下 基 于 多 线 索 的 人 脸 特 征 检 测 和 跟 踪 , 将 与 人 脸 特 征 相 关 的 多 种 线 索 结<br />

合 起 来 , 通 过 各 种 信 息 相 互 补 充 , 提 高 系 统 的 鲁 棒 性 。<br />

采 用 “ 整 体 到 局 部 ” 的 指 导 : 立 体 视 觉 的 粗 分 割 和 多 关 联 模 板 人 脸 检 测 的 使 用 , 使 得 利 用 简 单<br />

的 Sobel 算 子 , 就 能 够 处 理 复 杂 的 多 尺 度 下 的 特 征 检 测 问 题 。 这 样 大 大 降 低 了 运 算 的 复 杂 度 , 使 得<br />

可 以 适 应 跟 踪 的 需 要 。<br />

根 据 帧 间 的 连 续 性 , 利 用 几 何 约 束 和 刚 体 约 束 能 够 自 动 地 判 断 检 测 结 果 的 正 确 性 , 同 时 实 现 “ 局<br />

部 到 整 体 ” 的 指 导 , 加 快 跟 踪 的 处 理 速 度 。<br />

大 量 的 实 验 表 明 这 是 一 种 行 之 有 效 的 人 脸 特 征 检 测 方 法 , 可 以 用 于 基 于 视 频 的 人 脸 识 别 研 究 ,<br />

对 进 一 步 推 进 人 脸 识 别 研 究 有 重 要 的 应 用 价 值 。<br />

参 考 文 献<br />

1. Daugman J. Face and gesture recognition: overview. IEEE PAMI, 1997,19(7) :675-676<br />

2. Grudin M.A. On internal representations in face recognition systems. Pattern Recognition, 2000,<br />

33:1161-1177<br />

3. Brunelli R., Poggio T. Face recognition: features versus templates. IEEE PAMI, 1995,<br />

15(10):1042-1052.<br />

4. Schubert A. Detection and tracking of facial features in real time using a synergistic approach of<br />

spatio-temporal models and generalized Hough-transform techniques. In: Proc. Conf. on Automatic<br />

Face and Gesture Recognition, Grenoble, France, 2000.<br />

5. Colmenarez A., Frey B., Huang T.S. Detection and tracking of faces and facial features. In: Proc. IEEE<br />

Conf. on Image Processing, Kobe, Japan, 1999.<br />

6. Peng Z., Tao L., Xu G., Zhang H. Detecting facial feature on images with multiple faces. In: Proc.<br />

conf. on Multimodal Interfaces, Beijing, China, 2000:191-198.<br />

7. Tao L.M. Color perception for machine vision and human skin-color features, Ph.D thesis, Tsinghua<br />

University, Beijing, 2001. (in Chinese)<br />

陶 霖 密 . 机 器 颜 色 视 觉 及 人 类 肤 色 特 征 . 博 士 论 文 , 清 华 大 学 , 北 京 ,2001。<br />

8. Hong W., Ai H., Zhuang L., Xu G. Video based face verification. In: Proc. of SPIE Vol. 4550, Wuhan,<br />

China, 2001:171-175.<br />

9. Darrell T., Gordon G., Harville M., Woodfill J. Integrated person tracking using stereo, color, and<br />

pattern detection. In: Proc. IEEE Conf. on Computer Vision and Pattern Recognition, Santa Barbara, California,<br />

1998, 601-609.<br />

10. Liang L., Ai H., He K., Zhang B. Face detection based on the matching of multiple related templates,<br />

Chinese Journal of Software,12(1):94-102. (in Chinese)<br />

梁 路 宏 , 艾 海 舟 , 何 克 忠 , 张 钹 , 基 于 多 关 联 模 板 匹 配 的 人 脸 检 测 , 软 件 学 报 ,12(1):94-102,<br />

2001。<br />

11. Chui C.K. An introduction to wavelets. Boston, Academic Press, 1992.<br />

12. Krüger V. and Sommer G. Gabor wavelet networks for object representation. In R. Klette, T. Huang, G.<br />

Gimel'farb (Eds.): Multi-Image Analysis, 10th International Workshop on Theoretical Foundations of<br />

Computer Vision, Dagstuhl Castle, Germany, 2000<br />

13. Krüger V. and Sommer G. Affine real-time face tracking using Gabor wavelet networks. In: Proc. of<br />

on Pattern Recognition, Barcelona, Spain, 2000<br />

14. Feris R. S. and Cesar R. M. Tracking facial features using Gabor wavelet networks. In Proc. of<br />

8


Brazilian Symposium on Computer Graphics and Image Processing, Gramado, Brazil, 2000.<br />

Multi-Clue Based Facial Feature Detection and Tracking in Video<br />

Li ZHUANG Guangyou XU Haizhou AI Luhong LIANG Zhenyun PENG<br />

Computer Science and Technology Department, Tsinghua University<br />

State Key Laboratory of Intelligent Technology and Systems<br />

Abstract<br />

Video based face recognition has recently attracts much attentions in computer vision and pattern<br />

recognition society. One of the key problems to the success of those video based approaches is the facial<br />

feature detection and tracking. It has been long to realized that it is very difficult to develop a robust<br />

algorithm for facial feature detection and tracking in video due to mainly two factors, lighting and pose<br />

variances. Traditional facial feature detection algorithms have several problems, such as poor adaptability<br />

to environment changes, lacking of self-verification ability, etc. In this paper, we propose a multi-clue<br />

based facial feature detection and tracking method to deal with these problems. Multi-clues include rough<br />

face region segmentation based on disparity or color information, face detection based on multiple related<br />

templates matching, feature detection based on multi-scale Sobel convolution, eye feature verification<br />

based on eigen-eyes, and facial feature verification with both geometry and rigid plane motion constrains<br />

in multiple views. First, binocular stereo video input is used for robustly extracting head region from<br />

complex background through disparity clustering. Then, the multiple related template matching method is<br />

applied to find the accurate face region from this rough segmentation. Facial organ candidates are extracted<br />

from the detected face region at a specific scale space called organ scale for Sobel filter. Eye pair is chosen<br />

from candidates by eigen-eyes method. Finally, nose and mouth corners are detected according to<br />

projections. The algorithm can automatically switch between facial feature detection and tracking based on<br />

embedded verification procedure. In this method multiple clues are joined together to supplement each<br />

other, which makes it possible of the automatically error-checking and even error-correcting, that greatly<br />

improves the algorithm’s adaptability to lighting and face pose changes under complex background.<br />

Experiment results over 189 video sequences demonstrate its effectiveness and robustness.<br />

Keywords: Face recognition, facial feature detection and tracking, face detection, multi-scale analysis<br />

9


庄 莉 : 女 ,1978 年 1 月 生 , 硕 士 生 , 清 华 大 学 计 算 机 系 。 研 究 方 向 为 人 脸 识<br />

别 。 研 究 方 向 为 人 脸 识 别 。<br />

Zhuang Li, born in Jan., 1978, MS Student, Dept. of Computer Sci. & Tech.,<br />

Tsinghua University, research field: face recognition.<br />

徐 光 佑 : 男 ,1940 年 2 月 生 , 清 华 大 学 计 算 机 系 教 授 、 博 士 生 导 师 。 研 究 方 向 为 计 算 机 视 觉 , 人 机<br />

交 互 技 术 和 多 媒 体 技 术 。<br />

Xu Guangyou, born in Feb., 1940, professor of Computer Department of Tsinghua University, director of<br />

PhD program, research field: computer vision, HCI and multimedia technology.<br />

艾 海 舟 : 男 ,1964 年 1 月 生 , 博 士 , 清 华 大 学 计 算 机 系 副 教 授 。 研 究 方 向 为 计 算 机 视 觉 、 模 式 识 别 、<br />

移 动 机 器 人 。<br />

Ai Haizhou, born in Jan., 1964, Ph.D., associate professor of Computer Department of Tsinghua University,<br />

research field: computer vision, pattern recognition and mobile robotics<br />

梁 路 宏 : 男 ,1973 年 9 月 生 , 博 士 。 现 工 作 于 Intel 中 国 研 究 院 。<br />

Liang Luhong, born in Sept., 1973, Ph.D., now work in Intel Research China.<br />

彭 振 云 : 男 ,1962 年 8 月 生 , 博 士 生 , 清 华 大 学 计 算 机 系 。 研 究 方 向 为 人 脸 识 别 。<br />

Peng Zhenyun, born in Aug., 1962, Ph.D. Student, Dept. of Computer Sci. & Tech., Tsinghua University,<br />

research field: face recognition.<br />

联 系 人 : 艾 海 舟<br />

清 华 大 学 计 算 机 系 ( 北 京 100084)<br />

电 话 :62784141( 办 公 室 ), 62788510( 家 ),13910-510015( 手 机 )<br />

E-mail:ahz@mail.tsinghua.edu.cn<br />

10

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!