复杂有序数据的可视化分析 - 北京大学可视化与可视分析研究组

vis.pku.edu.cn

复杂有序数据的可视化分析 - 北京大学可视化与可视分析研究组

复 杂 有 序 数 据 的 可 视 化 分 析

陈 为

chenwei@cad.zju.edu.cn

Tel: 0571-88206681-529; 13588477530

浙 江 大 学 CAD&CG 国 家 重 点 实 验 室

http://www.cad.zju.edu.cn/home/chenwei


复 杂 有 序 数 据

• 时 间 序 列 数 据

– 视 频 、MoCap、 气 温 、 心 电 图 、 股 票 交 易

– 动 态 CFD 数 据 、 三 维 动 态 监 测 数 据


复 杂 有 序 数 据

• 顺 序 排 列 数 据

– 文 本 、 生 物 测 序 、 质 谱

– 流 线 、DTI 纤 维


数 据 特 征

• 每 个 数 据 实 例 是 时 间 轴 上 的 单 个 事 件

• 时 间 或 顺 序 可 以 当 做 一 个 变 量

• 类 型 多 , 分 布 广

– 1974-1980 年 15 种 报 纸 和 杂 志 随 机 选 择 的 4000 个

图 像 ,75% 是 时 序 图 形 (E. Tufte)

• 数 据 量 大

• 多 维 、 多 变 量


可 视 化 分 析 的 挑 战

• 数 据 挖 掘 方 法 可 以 对 时 变 数 据 进 行 信

号 分 解 、 模 式 挖 掘

– 在 目 标 已 知 的 情 况 下 效 率 很 高

– 如 果 未 知

• 可 视 化 分 析 有 助 于 找 到 问 题 和 目 标 !

– 某 个 变 量 什 么 时 候 最 大 / 最 小

– 数 据 中 有 模 式 吗

– 两 个 序 列 是 否 相 似


时 序 数 据 的 可 视 化

• 离 散 点 vs. 区 间 点

• 线 性 时 间 vs. 周 期 时 间

[Muller & Schumann 2003; Frank 1998]

• 离 散 时 间 vs. 时 间 区 间 (TimeWheel)

• 顺 序 线 性 时 间 vs. 含 分 支 的 时 间

[Visual Methods for Analyzing Time-Oriented Data;

IEEE TVCG]


时 序 轴 的 表 达 类 型

• 静 态 的

展 示 记 录 的 东 西 , 多 视 角 , 允 许 比 较

• 动 态 的

展 示 随 着 时 间 变 化 的 感 觉 和 过 程 , 有 更 多

的 表 达 空 间


1. 标 准 时 间 点 连 线 显 示

• x 轴 表 示 时 间 ,y 轴 表 示 其 他 的 变 量


不 同 的 视 图 类 型


堆 叠 区 域 图

民 众 消 费 的

组 成 变 化


2. 顺 序 数 据 之 间 的 关 系

LifeLines: 某 个 领

域 的 个 人 记 录

• 不 同 的 事 件 类 型 使 用

不 同 的 颜 色

• 线 段 厚 度 表 示 某 个 变


• 交 互 : 点 击 一 个 事 件

产 生 更 多 的 细 节

• 类 似 于 Spotfire 的 动 态

查 询

[Plaisant et al CHI 1996]


看 病 记 录


PlanningLines

表 达 项 目 计 划 , 可 以 用 特 殊 的 图 标 演 示 时 间 轴 上 的 不 确 定 性


3. 多 变 量 数 据 演 示 :Streamgraph


TimeWheel


Cluster Calendar View


4. 动 画 与 交 互

动 画 演 示

NY Times


4. 动 画 与 交 互

• 遵 循 Shneiderman 原 则

• 多 视 图 链 接 相 互 协 调

• 例 子 : 用 户 画 一 个 粗 略 的 形 状 确 定 一 个 需 要

查 询 的 时 间 线 , 系 统 返 回 相 近 匹 配 线


可 视 化 分 析 案 例

• 基 于 统 计 的 比 较 可 视 化

– 空 气 质 量 数 据 [SpringerChapter]

– 全 二 维 飞 行 质 谱 分 析 数 据 [USA Patent]

• 基 于 低 维 流 形 嵌 入 的 简 洁 可 视 化

– MoCap 人 体 运 动 [PVis2010]

– DTI 纤 维 丛 [VIS2010]

• 基 于 虚 拟 单 词 频 率 的 抽 象 可 视 化

– 动 态 体 数 据 [InSub]

– 蛋 白 质 DNA、 视 频 、 文 本 [JZUS2011]

• 基 于 事 件 表 达 的 交 互 分 析

– 时 变 数 据 的 自 动 动 画 生 成 [PG2010]

– Mocap 人 体 运 动 [InSub]


基 于 统 计 的 比 较 可 视 化

• 数 据 量 大

• 需 要 挖 掘 的 信 息 少

• 需 要 进 行 数 据 比 较

• 解 决 方 法

– 基 于 统 计 的 多 层 次 模 板

– 可 视 化 比 对


空 气 质 量 数 据

• 数 据 来 源 : 利 用 SMOKE 模 型 建 立 CMAQ 数 据

库 , 用 于 理 解 大 气 变 化 与 分 布 中 不 同 的 化

学 与 物 理 过 程

• 随 时 间 演 化 , 数 据 量 大

– 每 个 小 时 可 以 产 生 一 批 三 维 空 间 分 布 数 据

– 每 个 时 刻 , 在 不 同 的 三 维 格 点 上 记 录 上 百 个 化

学 元 素

• 大 量 数 据 雷 同 类 似 ; 主 要 的 数 据 特 性 变 化

缓 慢 , 且 呈 现 周 期 性


空 气 质 量 数 据

• 数 据 来 源 : 利 用 SMOKE 模 型 建 立 CMAQ 数 据

库 , 用 于 理 解 大 气 变 化 与 分 布 中 不 同 的 化

学 与 物 理 过 程

• 随 时 间 演 化 , 数 据 量 大

– 每 个 小 时 可 以 产 生 一 批 三 维 空 间 分 布 数 据

– 每 个 时 刻 , 在 不 同 的 三 维 格 点 上 记 录 上 百 个 化

学 元 素


对 四 个 季 节 的 空 气 质 量 数 据 的 体 绘 制 显 示 非 常 类 似 的 化 学 形 状 结 构 。 从 上 到 下 :

早 晨 , 中 午 和 晚 上 。 一 个 明 显 规 律 是 , 夏 秋 两 季 的 密 度 高 , 春 冬 两 季 的 密 度 低 。


二 维 高 度 模 板

(a)(b) 分 别 是 两 种

显 示 模 式 , 以 天

维 单 位 显 示 某 个

属 性 的 最 高 和 最

低 值 。 在 最 下 一

行 , 显 示 了 模 板

的 用 途 : 白 线 表

示 某 个 特 殊 的 数

据 。 不 正 常 数 据

( 右 ) 可 以 很 方

便 显 示 出 来 。


三 维 统 计 模 板 : mean, median, mode, variance. 颜 色 是 通 过 底 部 的 颜 色 映 射

条 实 现 的 。


三 维 统 计 模 板 : height, correlation, frequency, time. 颜 色 是 通 过 底 部 的 颜 色 映

射 条 实 现 的 。


集 成 可 视 化 : 检 测 异 常 区 域 ( 见 圆 圈 区 域 )

[Year-Long Time-Varying 3D Air Quality

Data Visualization; Springer]


全 二 维 气 相 飞 行 质 谱 数 据

Genomics

• 1D(SNP)

Lipidomics

• 1D

Proteomics

• MS(2D)

Metabolomics

• NMR

• MS

MS

LC

GC

GCxGC

GCxGC-

TOF MS


全 二 维 气 相 飞 行 质 谱 数 据

数 据 转 换

• 输 入 输 出

数 据 预 处 理

• 切 割 、 去 噪 、 配 准

可 视 化

• 二 维 和 三 维 可 视 化

生 物 标 志 物 分 析

• 成 组 比 较

• 质 谱 比 对 分 析


全 二 维 气 相 飞 行 质 谱 数 据


全 二 维 气 相 飞 行 质 谱 数 据

Normal

Cancer


全 二 维 气 相 飞 行 质 谱 数 据

Normal template

Cancer template


全 二 维 气 相 飞 行 质 谱 数 据


全 二 维 气 相 飞 行 质 谱 数 据


全 二 维 气 相 飞 行 质 谱 数 据


全 二 维 气 相 飞 行 质 谱 数 据

Text-based

Visual analytics

Convert LECO to CDF file

Convert CDF files to 3D

representation

Manually preprocess data to

eliminate uninteresting or

confounding regions

Visually explore the samples and

perform noise removal operations

Perform statistical analysis

Perform statistical analysis

Manually identify interesting

potential biomarkers

Visually identify interesting

potential bio-markers

Validate by checking the mass for

each compound

Visually validate by exploring the

mass spectrum

Run commercial samples of these

potential biomarkers

Visually explore the potential

biomarkers of other samples


全 二 维 气 相 飞 行 质 谱 数 据

对 于 一 个 102 个 数 据 的 样 品 集 , 对 100 个 潜 在 的 生 物 标 志 物 进 行

分 析 , 手 工 方 法 需 要 1000 小 时 , 我 们 的 方 法 只 需 要 70 个 小 时 。

Process #Bio-markers Criteria

Raw data 102400 No

Statistical analysis 54450 e.g., PCA, PLSDA

Combinative filtering 3868 P-value < 0.01

Combinative filtering 773 loadings > 0.002

Combinative filtering 467 Correlation < 0.6

Combinative filtering 104 ROC area > 0.75

Visual exploration 32 Mass spectrum


基 于 低 维 流 形 嵌 入 的 简 洁 可 视 化

• 数 据 量 大 , 不 利 于 操 纵 和 浏 览

• 使 用 线 性 或 非 线 性 变 换 将 复 杂 顺 序 数 据 投 影

到 低 维 空 间

• PCA, MDS, LLE, IsoMap, LLP, LPP

• 在 投 影 时 保 留 重 要 的 关 系 ( 例 如 , 无 信 息 损

失 、 数 据 区 分 )


Motion tracks

• 目 标

– 区 分 不 同 类 型 的 运 动 ( 如 跳 跃 , 跑 步 , 走 路 )

– 同 一 类 型 的 不 同 运 动

• 关 键 想 法

– 将 属 于 同 一 类 型 运 动 的 所 有 运 动 序 列 数 据 用 SOM 方

法 进 行 聚 类

– 将 关 键 帧 用 LLE 投 影 到 二 维

– 计 算 任 意 一 个 新 的 运 动 帧 相 对 于 关 键 帧 的 权 重

– 根 据 权 重 计 算 运 动 帧 的 二 维 位 置 , 然 后 按 照 时 序 链

接 起 来


Motion tracks


扩 散 张 量 成 像 数 据

• Diffusion Tensor Images

– 将 磁 场 作 用 于 空 间 区 域 , 获 取 水 分 子 的 扩 散 属 性

– 捕 获 含 水 分 子 区 域 的 张 量 信 息

42


DTI 纤 维 丛 的 交 互 可 视 化

• 通 常 一 个 模 型 中 包 含 大 于 5000 纤 维

• 难 以 在 三 维 空 间 中 操 纵

• 关 键 思 路

– 将 纤 维 看 成 高 维 向 量

– 用 MDS 投 影 到 二 维 空 间

– 让 用 户 在 多 个 窗 口 中 操 纵


DTI 纤 维 丛 的 交 互 可 视 化


DTI 纤 维 跟 踪 不 确 定 性 可 视 化

– 在 纤 维 建 模 过 程

中 , 由 于 各 种 因

素 影 响 , 会 造 成

很 强 的 不 确 定 性

– 如 何 衡 量 、 比 较 、

可 视 化 这 种 不 确

定 性 呢

– 方 法 是 在 归 一 空

间 里 做 保 持 距 离

的 低 维 嵌 入 , 从

低 维 嵌 入 中 发 现

分 布 规 律


变 形 数 据 的 可 视 分 析


四 维 心 脏 跳 动 的 不 正 常 的 形 状 改 变 . 左 : 左 心 室

第 13 帧 的 手 工 分 割 结 果 ;( 中 ) 左 心 室 第 13 帧 的

自 动 分 割 结 果 ; ( 右 ) 形 变 的 二 维 嵌 入 效 果 ,

圆 圈 处 为 不 正 常 区 域 , 对 应 于 三 维 的 红 色 区 块


基 于 虚 拟 单 词 频 率 的 抽 象 可 视 化

• 有 用 特 征 隐 藏 在 大 量 的 数 据 中

• 将 特 征 看 成 虚 拟 单 词 ; 将 数 据 看 成 文 本

• 从 单 词 的 统 计 分 布 出 发 分 析 数 据 的 一 些 特

性 , 如 周 期 性 , 异 常 点 等 等


时 变 体 数 据 的 Timeline 可 视 化


特 征 点 ( 虚 拟 单 词 )

• SIFT 算 子

• 特 征 点 定 位

• 方 位

• 用 于 纹 理 分 析 的 一 阶 统 计

– 局 部 梯 度 范 数 直 方 图

– 局 部 体 素 值 直 方 图

– 梯 度 范 数 方 差

– 体 素 值 方 差

52


3D SIFT

53


基 于 传 输 函 数 的 特 征 点 选 取

54


生 成 Timeline

• 将 特 征 点 聚 类 , 表 达 为 不 同 的 虚 拟 单 词

• 将 所 有 的 虚 拟 单 词 汇 集 为 词 库

• 改 进 的 Lowbow 算 法

– 在 体 数 据 序 列 中 均 匀 采 样

– 建 立 序 列 采 样 点 处 的 局 部 窗 口 和 窗 口 内 所 有 特 征 点 关 于 词 库 的 直 方 图

• 利 用 MDS 进 行 降 维

– 计 算 两 两 采 样 点 处 的 局 部 直 方 图 之 间 的 差 别

– 用 MDS 投 影 并 连 接 为 曲 线

55


不 同 的 特 征 聚 类 数 目 效 果

Energy 时 变 体 数 据 实 例 , SIFT 尺 寸 为 2048, 不 同 的 聚

类 数 目 ( 即 词 库 尺 寸 )

200 700 1000 1500

57


不 同 的 特 征 效 果

58


飓 风 实 例

飓 风 伊 莎 贝 尔 袭 击 Outer Banks, North Carolina. 左

边 的 部 分 ( 蓝 色 到 黄 色 ) 演 示 了 每 12.4 小 时 带 来 的

潮 汐 提 升 的 周 期 性 。 右 边 部 分 ( 黄 色 到 红 色 ) 揭 示

了 海 洋 平 面 从 正 常 分 布 到 飓 风 的 巨 大 变 化 。


Timelines 的 比 较

不 同 的 时 间 段

Jan 1 st -11 th w/ Feb 1 st – 11 th Jan 16 th -26 th w/ Feb 16 th –26 th 60


Average

density

平 行 Timelines

Number of

feature

points

Average

height

61


空 气 质 量 数 据

June

62


长 文 档 的 顺 序 可 视 化

• 关 键 思 路

– 将 文 档 转 换 为 一 个 基 于 词 频 的 多 层 次 曲 线

• y =(the,boy,saw,the,man,in,the,park,with,the,telescope)

• 单 词 列 表 =

• Bag of words: y = (4/11; 1/11; 0; … ; 1/11; 0; …; 0)

• 层 次 参 数 曲 线 : 分 段 线 性 曲 线

64


长 文 档 的 顺 序 可 视 化


长 文 档 的 顺 序 可 视 化

• 快 速 文 档 浏 览

• 文 档 分 段 和 摘 要

• 潜 在 文 档 模 式 的 挖 掘

66


基 于 虚 拟 词 袋 的 视 频 可 视 化

• 虚 拟 词 袋 :SIFT 算 子 检 测

– 视 频 摘 要

– 全 局 语 义 变 换 检 测


基 于 “ 基 因 词 袋 ” 的 DNA 序 列 可 视 化

• DNA 数 据 尺 寸 大 : 可 能 有 30 亿 个 基 对

• 序 列 含 义 未 知 , 模 式 微 小

• 将 核 苷 酸 列 表 (ATCG) 转 化 为 单 词

• ATCG 的 k- 阶 组 合 ( 可 取 为 6)


基 于 事 件 分 析 ( 语 义 ) 的 交 互 分 析

• 用 户 的 因 素 需 要 交 互

• 浏 览 ( 镜 头 摇 晃 、 旋 转 )、 动 态 查 询 、

Brushing

• 难 点 : 难 于 调 节 参 数 、 难 于 用 参 数 表 达

• 基 于 事 件 分 析 ( 语 义 ) 的 交 互 分 析

• 定 义 潜 在 语 义

• 检 测 语 义

• 可 视 化


基 于 事 件 分 析 的 顺 序 数 据 可 视 化 分 析 模 型


时 变 数 据 的 事 件 图 表 示

• 目 标 : 方 便 用 户 理 解 时 变 体 数 据 的 演 化 规


– 将 某 个 有 语 义 的 特 定 事 件 抽 象 为 一 个 层 次 细 节

事 件 图 (event graph), 以 数 据 特 征 作 为 节 点

, 事 件 关 系 作 为 链 接

– 对 事 件 图 的 交 互 浏 览 或 自 动 播 放 ( 以 合 适 的 起

点 和 路 径 ) 形 成 解 释 性 动 画


时 变 数 据 的 事 件 图 表 示

• G = {{nodes}; {tree links}; {relation links}}

• 节 点 表 示 从 不 同 方 面 描 述 的 不 同 层 次 细 节

的 ( 以 时 间 区 间 划 分 ) 事 件 特 征 , 如 暴 风

眼 附 近 的 速 度 、 路 径 和 风 的 旋 转

• 父 子 节 点 之 间 用 tree links 链 接

• 不 同 事 件 之 间 在 时 间 上 的 相 似 性 用 relation

link 表 示


时 变 体 数 据 的 事 件 图 表 示

• 叶 节 点 是 一 个 简 单 的 基 本 事 件 , 如 匀 速 度

• 节 点 的 子 节 点 数 目 与 该 节 点 对 应 的 时 间 区 间 中

的 事 件 复 杂 度 有 关

• 每 个 节 点 的 属 性 包 括 : 事 件 特 征 、 时 间 范 围 、

事 件 特 征 的 重 要 性 和 tree 链 接 、relation 链 接


时 变 体 数 据 的 事 件 图 表 示

• 自 动 动 画 生 成 ( 即 graph 的 遍 历 ) 原 则 :

– 一 个 事 件 由 开 始 处 的 概 括 和 事 件 细 节 的 光 滑 过 渡

组 成

– 相 关 的 事 件 特 征 根 据 时 序 或 重 要 性 顺 序 地 演 示

– 除 非 用 户 指 定 , 节 点 的 播 放 不 允 许 重 复

在 第 一 个 层 次 上 从 风 的 旋 转 过 渡 到 移 动 速 度 的 效 果 演 示 。 在 这 个 过 程 中 , 视

点 光 滑 旋 转 , 绘 制 结 果 淡 如 淡 出 地 融 合 。


时 变 体 数 据 的 事 件 图 表 示

• 用 户 交 互 操 作

– 选 择 特 征

– 选 择 层 次

– 选 择 起 始 点

– 忽 略

– 重 复

• 绘 制 参 数 全 部 自 动 确 定 ( 对 于 时 变 体 数 据 的 )

: 时 间 步 长 数 ; 数 据 分 辨 率 ; 视 点 ( 如 sky

view, local view, dynamic view)


运 动 捕 获 数 据 的 可 视 语 义 分 析


工 作 列 表

• Wei Chen, Zi'ang Ding, Song Zhang, Anna MacKay-Brandt, Stephen Correia, Huamin Qu, John

Allen Crow, David F. Tate, Zhicheng Yan, Qunsheng Peng. A Novel Interface for Interactive

Exploration of DTI Fibers. In IEEE Transactions on Visualization and Computer Graphics, 2009.

• Yu Li, Aidong Lu, William Ribarsky, Wei Chen. Digital Storytelling: utomatic Animation for

Time-Varying Data Visualization. Computer Graphics Forum (Special Issue of Pacific

Graphics 2010). Accepted

• Yueqi Hu, Shuangyuan Wu, Shihong Xia, Jinghua Fu, Wei Chen. Motion Track: Visualizing

Motion Variation of Human Motion Data. In Proceedings of IEEE Pacific Visualization

Symposium, March 2010, Taibei

• Aidong Lu, Wei Chen, William Ribarsky, David S.Ebert. Year-Long Time-Varying 3D Air Quality

Data Visualization. Advances in Information and Intelligent Systems, Springer. 2009 page

286-306

• Xiaoyong Yang, Ziang Ding, Wei Chen, Song Zhang. Visualizing DTI fibers as 2D/3D points. In

Visualization and Image Processing of Tensor Fields: Advances and Perspectives. Springer.

2010.

• David S.Ebert, Wei Chen et al. Visual analytics of metabolimics datasets for early cancer

detection. USA Patent Application.

• Jinghua Fu, Wei Chen et al. Structural Visualization of DNA Sequences. To appear Journal of

Zhejiang University C. Accepted


致 谢

• 合 作 者

– Song Zhang Mississipi State University

– Qunsheng Peng Zhejiang University

– Huamin Qu HKUST

– Aidong Lu UNCC

– Shihong Xia ICT, CAS

– Ke-sheng Huang Taiwan Qinghua University

– 小 组 成 员 : 丁 子 昂 ; 严 志 程 ; 叶 樉 ; 王 桂 珍 ; 陈 广 宇 ; 陈

海 东 ; 傅 靖 华 ; 胡 越 琦

• 基 金 资 助 :973/NSFC/ZJNSFC

More magazines by this user
Similar magazines