21.04.2015 Views

PAM - abc

PAM - abc

PAM - abc

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Scoring Matrices<br />

in<br />

Multiple Sequence<br />

Alignment<br />

Yuan Yaxia<br />

May 2007


Outline<br />

• 何 为 打 分 矩 阵<br />

• 简 单 打 分 矩 阵<br />

• <strong>PAM</strong> 矩 阵<br />

• Blosum 矩 阵<br />

• 总 结


何 为 打 分 矩 阵<br />

定 义 :<br />

给 不 同 的 序 列 匹 配 定 义 的 一 系 列 相 似 性 分 值 。<br />

目 的 :<br />

我 们 并 不 能 直 接 计 算 出 两 条 序 列 的 最 佳 匹 配 , 因 此<br />

需 要 找 到 一 个 可 以 估 计 任 何 匹 配 的 某 一 统 计 数 , 使 生 物<br />

学 序 列 匹 配 最 显 著 的 匹 配 统 计 数 最 大 。


简 单 打 分 矩 阵<br />

单 一 打 分 矩 阵 :<br />

如 果 两 个 氨 基 酸 相 同 , 就 打 一 个 分 值 , 不 同 就 打 另<br />

一 个 分 值 , 不 管 替 换 的 情 况 。 例 如 , 相 同 就 打 1 分 , 不<br />

同 就 打 0 分 , 这 就 是 最 简 单 常 用 的 单 一 打 分 矩 阵 。<br />

遗 传 密 码 子 打 分 矩 阵 :<br />

所 有 的 点 突 变 都 产 生 于 核 苷 酸 的 变 化 , 因 此 氨 基 酸<br />

替 换 的 分 值 应 取 决 于 由 一 个 密 码 子 转 变 为 另 一 密 码 子 所<br />

必 需 的 点 突 变 的 数 量 。 由 这 一 模 型 而 产 生 的 打 分 矩 阵 将<br />

根 据 导 致 密 码 子 改 变 所 需 改 变 核 苷 酸 的 数 量 来 定 义 两 个<br />

氨 基 酸 之 间 的 距 离 , 此 为 遗 传 密 码 子 打 分 矩 阵


遗 传 密 码 子 打 分 矩 阵


<strong>PAM</strong> 矩 阵<br />

Dayhoff 打 分 矩 阵 :<br />

Dayhoff 及 其 同 事 利 用 在 70 年 代 初 期 做 的 一 个 蛋 白<br />

质 序 列 和 进 化 数 据 集 , 对 一 些 哺 乳 动 物 蛋 白 质 序 列 的 比<br />

对 发 展 出 了 一 个 精 确 的 突 变 打 分 矩 阵 (mutation data<br />

matrix)。 这 个 打 分 矩 阵 对 特 定 蛋 白 质 序 列 比 对 中 , 序<br />

列 的 差 异 是 随 机 发 生 的 还 是 源 自 共 同 祖 先 序 列 的 机 率 作<br />

了 定 量 。<br />

(a)TTYGAPPWCS (b) TTYGAPPWCS<br />

TGYAPPPWS TGYAPPPWS<br />

* *** * * * ***


<strong>PAM</strong> 矩 阵


<strong>PAM</strong> 矩 阵<br />

<strong>PAM</strong> 是 一 个 进 化 时 间 单 位 :<br />

假 设 同 一 位 点 不 会 发 生 二 次 以 上 的 突 变 , 则 1<strong>PAM</strong> 等<br />

于 100 个 氨 基 酸 多 肽 链 中 预 期 发 生 一 次 替 换 所 需 的 时 间 。<br />

1<strong>PAM</strong> 相 当 于 所 有 的 氨 基 酸 平 均 有 1% 发 生 了 变 化 , 经 过<br />

100<strong>PAM</strong> 的 进 化 , 并 非 每 个 氨 基 酸 的 残 基 均 发 生 变 化 : 有<br />

一 些 可 能 突 变 多 次 , 甚 至 又 变 成 原 来 的 氨 基 酸 , 而 另 一<br />

些 氨 基 酸 可 能 根 本 没 有 发 生 过 变 化 。 因 此 利 用 大 于<br />

100<strong>PAM</strong> 的 时 间 间 隔 可 能 达 到 区 分 同 源 性 蛋 白 质 的 目 的 。<br />

N <strong>PAM</strong>:<br />

表 示 对 原 始 <strong>PAM</strong> 矩 阵 N 次 方 。


<strong>PAM</strong> 矩 阵<br />

%Difference <strong>PAM</strong><br />

1 1<br />

5 5<br />

10 11<br />

15 17<br />

20 23<br />

25 30<br />

30 38<br />

35 47<br />

40 56<br />

%Difference <strong>PAM</strong><br />

45 67<br />

50 80<br />

55 94<br />

60 112<br />

65 133<br />

70 159<br />

75 195<br />

80 246<br />

85 328<br />

<strong>PAM</strong>250 矩 阵 相 当 于 约 20% 匹 配 率 。<br />

而 50% 匹 配 率 约 为 <strong>PAM</strong>80。


Blosum 矩 阵<br />

出 发 点 :<br />

Dayhoff 模 型 假 设 , 蛋 白 质 序 列 各 部 位 进 化 的 速 率<br />

是 均 等 的 。 但 事 实 上 并 非 如 此 , 因 为 保 守 区 的 进 化 速 率<br />

显 然 低 于 非 保 守 区 。<br />

Henikoff 算 法 :<br />

对 不 同 家 族 蛋 白 质 序 列 片 段 的 区 间 (blocks) 进 行 比<br />

对 , 不 加 入 gaps, 这 些 序 列 区 间 对 应 于 高 度 保 守 的 区 域 。<br />

氨 基 酸 匹 配 率 可 通 过 各 区 间 可 能 的 匹 配 率 得 到 。 再 将 这<br />

些 匹 配 率 计 入 匹 配 率 表 。 其 进 化 相 关 机 率 的 计 算 方 法 与<br />

Dayhoff 矩 阵 相 似 。


Blosum 矩 阵<br />

N Blosum:<br />

指 以 簇 群 方 式 将 不 同 进 化 距 离 (N%) 整 合 进 矩 阵<br />

内 : 当 两 个 序 列 匹 配 的 匹 配 率 高 于 某 个 阈 值 时 便 归 为<br />

一 个 簇 群 。 将 匹 配 率 高 于 阈 值 的 序 列 加 入 簇 群 内 。 然<br />

后 将 以 簇 群 内 所 有 序 列 计 算 匹 配 率 表 , 从 而 也 象 <strong>PAM</strong> 矩<br />

阵 一 样 产 生 一 系 列 的 矩 阵 。<br />

N 表 示 簇 群 的 阈 值 水 平 , N 越 大 , 表 示 关 系 越 近 。<br />

Blosum80 指 以 80% 匹 配 率 为 阈 值 将 序 列 区 间 归 为 簇 群 。<br />

Blosum62 最 接 近 于 <strong>PAM</strong>250。


Blosum62


总 结<br />

<strong>PAM</strong>:<br />

对 相 关 性 未 知 的 序 列 进 行 比 对 : 只 进 行 一 次 比 对<br />

时 常 用 <strong>PAM</strong>120 矩 阵 。 如 想 得 到 结 果 更 全 面 更 有 效 的 结<br />

果 则 应 使 用 多 个 矩 阵 。 用 三 个 矩 阵 :<strong>PAM</strong>40、<strong>PAM</strong>120、<br />

<strong>PAM</strong>250, 可 得 出 全 面 覆 盖 的 结 果 。 只 用 <strong>PAM</strong>80 和 <strong>PAM</strong>200<br />

两 个 矩 阵 也 可 达 到 较 好 的 覆 盖 面 。<br />

对 两 个 同 源 序 列 进 行 比 对 : 多 用 几 个 不 同 的 <strong>PAM</strong> 矩<br />

阵 会 得 到 较 好 的 结 果 。 如 果 只 进 行 一 次 比 对 常 用<br />

<strong>PAM</strong>200 矩 阵 。 如 果 进 行 两 次 分 析 , 那 用 <strong>PAM</strong>80 和<br />

<strong>PAM</strong>250, 或 者 <strong>PAM</strong>120 和 <strong>PAM</strong>320 可 以 得 到 较 好 的 结 果 。<br />

作 比 对 最 好 是 根 据 序 列 对 实 际 差 异 程 度 来 选 用 相<br />

应 的 <strong>PAM</strong> 矩 阵 。


总 结<br />

Blosum:<br />

<strong>PAM</strong> 矩 阵 从 1 到 250<strong>PAM</strong> 两 极 距 离 太 远 , 可 能 引 起 不<br />

准 确 ; 而 Blosum 直 接 从 最 同 源 的 序 列 的 区 间 排 比 获 取<br />

匹 配 率 , 不 考 虑 进 化 距 。 因 此 Blosum 矩 阵 的 优 点 是 符<br />

合 实 际 观 测 结 果 , 不 足 之 处 是 它 不 能 提 供 进 化 信 息 。<br />

Blosum 矩 阵 的 突 变 数 据 来 源 于 未 加 gaps 的 序 列 区<br />

间 排 比 , 相 当 于 蛋 白 序 列 的 保 守 区 。 大 量 试 验 表 明 ,<br />

Blosum 矩 阵 总 体 比 <strong>PAM</strong> 矩 阵 更 适 合 于 生 物 学 关 系 的 分 析<br />

和 局 部 相 似 性 搜 索 。

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!