Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Scoring Matrices<br />
in<br />
Multiple Sequence<br />
Alignment<br />
Yuan Yaxia<br />
May 2007
Outline<br />
• 何 为 打 分 矩 阵<br />
• 简 单 打 分 矩 阵<br />
• <strong>PAM</strong> 矩 阵<br />
• Blosum 矩 阵<br />
• 总 结
何 为 打 分 矩 阵<br />
定 义 :<br />
给 不 同 的 序 列 匹 配 定 义 的 一 系 列 相 似 性 分 值 。<br />
目 的 :<br />
我 们 并 不 能 直 接 计 算 出 两 条 序 列 的 最 佳 匹 配 , 因 此<br />
需 要 找 到 一 个 可 以 估 计 任 何 匹 配 的 某 一 统 计 数 , 使 生 物<br />
学 序 列 匹 配 最 显 著 的 匹 配 统 计 数 最 大 。
简 单 打 分 矩 阵<br />
单 一 打 分 矩 阵 :<br />
如 果 两 个 氨 基 酸 相 同 , 就 打 一 个 分 值 , 不 同 就 打 另<br />
一 个 分 值 , 不 管 替 换 的 情 况 。 例 如 , 相 同 就 打 1 分 , 不<br />
同 就 打 0 分 , 这 就 是 最 简 单 常 用 的 单 一 打 分 矩 阵 。<br />
遗 传 密 码 子 打 分 矩 阵 :<br />
所 有 的 点 突 变 都 产 生 于 核 苷 酸 的 变 化 , 因 此 氨 基 酸<br />
替 换 的 分 值 应 取 决 于 由 一 个 密 码 子 转 变 为 另 一 密 码 子 所<br />
必 需 的 点 突 变 的 数 量 。 由 这 一 模 型 而 产 生 的 打 分 矩 阵 将<br />
根 据 导 致 密 码 子 改 变 所 需 改 变 核 苷 酸 的 数 量 来 定 义 两 个<br />
氨 基 酸 之 间 的 距 离 , 此 为 遗 传 密 码 子 打 分 矩 阵
遗 传 密 码 子 打 分 矩 阵
<strong>PAM</strong> 矩 阵<br />
Dayhoff 打 分 矩 阵 :<br />
Dayhoff 及 其 同 事 利 用 在 70 年 代 初 期 做 的 一 个 蛋 白<br />
质 序 列 和 进 化 数 据 集 , 对 一 些 哺 乳 动 物 蛋 白 质 序 列 的 比<br />
对 发 展 出 了 一 个 精 确 的 突 变 打 分 矩 阵 (mutation data<br />
matrix)。 这 个 打 分 矩 阵 对 特 定 蛋 白 质 序 列 比 对 中 , 序<br />
列 的 差 异 是 随 机 发 生 的 还 是 源 自 共 同 祖 先 序 列 的 机 率 作<br />
了 定 量 。<br />
(a)TTYGAPPWCS (b) TTYGAPPWCS<br />
TGYAPPPWS TGYAPPPWS<br />
* *** * * * ***
<strong>PAM</strong> 矩 阵
<strong>PAM</strong> 矩 阵<br />
<strong>PAM</strong> 是 一 个 进 化 时 间 单 位 :<br />
假 设 同 一 位 点 不 会 发 生 二 次 以 上 的 突 变 , 则 1<strong>PAM</strong> 等<br />
于 100 个 氨 基 酸 多 肽 链 中 预 期 发 生 一 次 替 换 所 需 的 时 间 。<br />
1<strong>PAM</strong> 相 当 于 所 有 的 氨 基 酸 平 均 有 1% 发 生 了 变 化 , 经 过<br />
100<strong>PAM</strong> 的 进 化 , 并 非 每 个 氨 基 酸 的 残 基 均 发 生 变 化 : 有<br />
一 些 可 能 突 变 多 次 , 甚 至 又 变 成 原 来 的 氨 基 酸 , 而 另 一<br />
些 氨 基 酸 可 能 根 本 没 有 发 生 过 变 化 。 因 此 利 用 大 于<br />
100<strong>PAM</strong> 的 时 间 间 隔 可 能 达 到 区 分 同 源 性 蛋 白 质 的 目 的 。<br />
N <strong>PAM</strong>:<br />
表 示 对 原 始 <strong>PAM</strong> 矩 阵 N 次 方 。
<strong>PAM</strong> 矩 阵<br />
%Difference <strong>PAM</strong><br />
1 1<br />
5 5<br />
10 11<br />
15 17<br />
20 23<br />
25 30<br />
30 38<br />
35 47<br />
40 56<br />
%Difference <strong>PAM</strong><br />
45 67<br />
50 80<br />
55 94<br />
60 112<br />
65 133<br />
70 159<br />
75 195<br />
80 246<br />
85 328<br />
<strong>PAM</strong>250 矩 阵 相 当 于 约 20% 匹 配 率 。<br />
而 50% 匹 配 率 约 为 <strong>PAM</strong>80。
Blosum 矩 阵<br />
出 发 点 :<br />
Dayhoff 模 型 假 设 , 蛋 白 质 序 列 各 部 位 进 化 的 速 率<br />
是 均 等 的 。 但 事 实 上 并 非 如 此 , 因 为 保 守 区 的 进 化 速 率<br />
显 然 低 于 非 保 守 区 。<br />
Henikoff 算 法 :<br />
对 不 同 家 族 蛋 白 质 序 列 片 段 的 区 间 (blocks) 进 行 比<br />
对 , 不 加 入 gaps, 这 些 序 列 区 间 对 应 于 高 度 保 守 的 区 域 。<br />
氨 基 酸 匹 配 率 可 通 过 各 区 间 可 能 的 匹 配 率 得 到 。 再 将 这<br />
些 匹 配 率 计 入 匹 配 率 表 。 其 进 化 相 关 机 率 的 计 算 方 法 与<br />
Dayhoff 矩 阵 相 似 。
Blosum 矩 阵<br />
N Blosum:<br />
指 以 簇 群 方 式 将 不 同 进 化 距 离 (N%) 整 合 进 矩 阵<br />
内 : 当 两 个 序 列 匹 配 的 匹 配 率 高 于 某 个 阈 值 时 便 归 为<br />
一 个 簇 群 。 将 匹 配 率 高 于 阈 值 的 序 列 加 入 簇 群 内 。 然<br />
后 将 以 簇 群 内 所 有 序 列 计 算 匹 配 率 表 , 从 而 也 象 <strong>PAM</strong> 矩<br />
阵 一 样 产 生 一 系 列 的 矩 阵 。<br />
N 表 示 簇 群 的 阈 值 水 平 , N 越 大 , 表 示 关 系 越 近 。<br />
Blosum80 指 以 80% 匹 配 率 为 阈 值 将 序 列 区 间 归 为 簇 群 。<br />
Blosum62 最 接 近 于 <strong>PAM</strong>250。
Blosum62
总 结<br />
<strong>PAM</strong>:<br />
对 相 关 性 未 知 的 序 列 进 行 比 对 : 只 进 行 一 次 比 对<br />
时 常 用 <strong>PAM</strong>120 矩 阵 。 如 想 得 到 结 果 更 全 面 更 有 效 的 结<br />
果 则 应 使 用 多 个 矩 阵 。 用 三 个 矩 阵 :<strong>PAM</strong>40、<strong>PAM</strong>120、<br />
<strong>PAM</strong>250, 可 得 出 全 面 覆 盖 的 结 果 。 只 用 <strong>PAM</strong>80 和 <strong>PAM</strong>200<br />
两 个 矩 阵 也 可 达 到 较 好 的 覆 盖 面 。<br />
对 两 个 同 源 序 列 进 行 比 对 : 多 用 几 个 不 同 的 <strong>PAM</strong> 矩<br />
阵 会 得 到 较 好 的 结 果 。 如 果 只 进 行 一 次 比 对 常 用<br />
<strong>PAM</strong>200 矩 阵 。 如 果 进 行 两 次 分 析 , 那 用 <strong>PAM</strong>80 和<br />
<strong>PAM</strong>250, 或 者 <strong>PAM</strong>120 和 <strong>PAM</strong>320 可 以 得 到 较 好 的 结 果 。<br />
作 比 对 最 好 是 根 据 序 列 对 实 际 差 异 程 度 来 选 用 相<br />
应 的 <strong>PAM</strong> 矩 阵 。
总 结<br />
Blosum:<br />
<strong>PAM</strong> 矩 阵 从 1 到 250<strong>PAM</strong> 两 极 距 离 太 远 , 可 能 引 起 不<br />
准 确 ; 而 Blosum 直 接 从 最 同 源 的 序 列 的 区 间 排 比 获 取<br />
匹 配 率 , 不 考 虑 进 化 距 。 因 此 Blosum 矩 阵 的 优 点 是 符<br />
合 实 际 观 测 结 果 , 不 足 之 处 是 它 不 能 提 供 进 化 信 息 。<br />
Blosum 矩 阵 的 突 变 数 据 来 源 于 未 加 gaps 的 序 列 区<br />
间 排 比 , 相 当 于 蛋 白 序 列 的 保 守 区 。 大 量 试 验 表 明 ,<br />
Blosum 矩 阵 总 体 比 <strong>PAM</strong> 矩 阵 更 适 合 于 生 物 学 关 系 的 分 析<br />
和 局 部 相 似 性 搜 索 。