13.07.2015 Views

系统发生分析小结 - abc

系统发生分析小结 - abc

系统发生分析小结 - abc

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

LOGO系 统 发 生 分 析 小 结Caas07f2a1-a4黄 拔 严 于 琳 琳 李 康 韦 永 龙


Introduction 系 统 发 生 (phylogeny) 是 指 生 物 形 成 或 进 化 的 历史 系 统 发 生 学 (phylogenetics) 研 究 物 种 之 间 的 进 化关 系 , 其 基 本 思 想 是 比 较 物 种 的 特 征 , 并 认 为 特征 相 似 的 物 种 在 遗 传 学 上 接 近 。 系 统 发 生 研 究 的 结 果 往 往 以 系 统 发 生 树(phylogenetic tree) 表 示 , 用 它 来 描 述 物 种 之 间的 进 化 关 系


蛋 白 质 与 核 酸 中 序 列 与 结 构 上 保 留 有 遗 传 的 痕迹 , 可 用 于 系 统 发 生 关 系 的 研 究 分 子 系 统 发 生 分 析 通 过 比 较 生 物 分 子 序 列 , 比 较序 列 之 间 的 关 系 , 构 造 系 统 发 生 树 , 进 而 阐 明 各个 物 种 的 进 化 关 系 。


系 统 发 生 分 析 一 般 是 建立 在 分 子 钟 基 础 上 的 分 子 钟 : 分 子 序 列 进 化是 按 照 一 恒 定 速 率 进 行的 , 所 以 积 累 突 变 的 数量 和 进 化 时 间 成 一 定 比例 , 基 于 这 个 假 说 , 发生 树 上 的 树 枝 长 度 可 以用 来 估 算 基 因 分 离 的 时间 。


直 系 同 源 与 旁 系 同 源 直 系 同 源 (orthologs): 同 源 的基 因 是 由 于 共 同 的 祖 先 基 因 进化 而 产 生 的 ; 旁 系 同 源 (paralogs): 同 源 的基 因 是 由 于 基 因 复 制 产 生 的 。用 于 分 子 进 化 分 析 中 的 序 列必 须 是 直 系 同 源 的 , 才 能 真实 反 映 进 化 过 程


系 统 发 生 树 系 统 发 生 树 就 是 一 个 用 来 表示 一 组 对 象 之 间 的 进 化 关 系的 树 形 结 构 。 系 统 进 化 树 分 有 根 (rooted) 和无 根 (unrooted) 树 。 有 根 树 反映 了 树 上 物 种 或 基 因 的 时 间顺 序 , 而 无 根 树 只 反 映 分 类单 元 之 间 的 距 离 而 不 涉 及 谁是 谁 的 祖 先 问 题 。有根树


进 化 树 的 构 建基 本 思 想 :物 种 体 内 同 功 能 生 物 分 子 ( 如 蛋 白 质 或 核 酸 分 子 )的 相 似 程 度 越 高 , 则 物 种 的 亲 缘 关 系 越 近 。具 体 步 骤 :• 选 择 “ 特 征 分 子 ”, 原 则 是 :a. 各 个 物 种 都 有 的 同源 分 子 ,b. 进 化 速 率 适 当 ;• 对 这 些 同 源 分 子 的 序 列 进 行 多 序 列 比 对 (multisequencesalignment), 截 取 比 对 的 最 好 的 区 域 作 为物 种 的 代 表 序 列 ;


3. 按 某 种 方 法 , 算 出 代 表 序 列 两 两 之 间 的差 异 度 ,4. 基 于 这 些 差 异 度 , 绘 制 系 统 发 生 树5. 对 系 统 发 生 树 进 行 可 信 度 检 验 (bootstrap)


选 择 特 征 分 子 既 可 以 用 核 酸 序 列 又 可 以 用 蛋 白 序 列 用 核 酸 序 列 还 是 蛋 白 序 列 主 要 取 决 于 序 列 的 性 质 和研 究 的 目 的 对 于 具 有 很 近 亲 缘 关 系 的 生 物 来 说 , 选 择 核 酸 序 列研 究 要 比 选 择 蛋 白 序 列 更 快 的 推 断 出 结 果 在 大 多 数 情 况 下 , 通 过 蛋 白 质 序 列 研 究 要 比 用 核 酸来 研 究 要 好 , 因 为 蛋 白 质 序 列 含 有 更 多 相 对 保 守 的序 列


由 于 蛋 白 质 序 列 由 20 个 氨 基 酸 组 成 , 而 核 酸 序 列是 由 4 种 核 酸 组 成 , 因 此 蛋 白 质 序 列 的 比 对 比DNA 序 列 的 比 对 更 灵 敏 。大 多 数 情 况 下 以 蛋 白 质 为 基 础 的 发 生树 比 以 DNA 为 基 础 的 发 生 树 更 恰 当 。


序 列 比 对 只 有 正 确 的 比 对 结 果 才 会 能 推 出 正 确 的 系 统 发 生 。错 误 的 比 对 结 果 会 导 致 最 后 发 生 树 在 分 类 上 的 错误 , 甚 至 是 整 个 树 的 错 误 多 序 列 比 对 的 结 果 应 该 进 行 检 验 并 找 出 一 个 最 合理 的 结 果 。 序 列 自 动 比 对 的 结 果 通 常 会 存 在 错误 , 应 该 进 行 进 一 步 的 编 辑 或 是 进 行 提 炼


对 这 些 同 源 分 子 的 序 列 进 行 多 序 列 比对 (multi-sequences alignment), 截 取比 对 的 最 好 的 区 域 作 为 物 种 的 代 表 序列


方 法 根 据 所 处 理 数 据 的 类 型 , 可 以 将 系 统 发 生 树 的 构建 方 法 大 致 分 为 两 大 类 :基 于 距 离 的 构 建 方 法UPGMA(unweighted pair group method with arithmeticmean, 平 均 连 接 聚 类 法 )、ME(Minimum Evolution,最 小 进 化 法 ) 和 NJ(Neighbor-Joining, 邻 接 法 )• 基 于 特 征 的 构 建 方 法最 大 简 约 法 (MP 法 ), 最 大 似 然 法 (ML 法 ), 进 化 简 约法 (EP 法 ), 相 容 性 方 法 等


Neighbor-JoiningMethod(NJ 法 / 邻 接 法 ) 不 需 要 关 于 分 子 钟 的 假 设 基 本 思 想 : 进 行 类 的 合 并 时 , 不 仅 要 求 待 合 并 的 类 是 相 近的 , 而 且 要 求 待 合 并 的 类 远 离 其 他 的 类


最 大 简 约 法 (MP) 解 释 一 个 过 程 的 最 好 理 论 是 所 需 假 设 数 目 最 少 的 那 一 个 。 对 所 有 可 能的 拓 扑 结 构 进 行 计 算 , 并 计 算 出 所 需 替 代 数 最 小 的 那 个 拓 扑 结 构 , 作为 最 优 树 。 最 大 简 约 法 不 需 要 在 处 理 核 苷 酸 或 者 氨 基 酸 替 代 的 时 候 引 入 假 设 ( 替代 模 型 )。 此 外 , 最 大 简 约 法 对 于 分 析 某 些 特 殊 的 分 子 数 据 如 插 入 、缺 失 等 序 列 有 用 。 在 分 析 的 序 列 位 点 上 没 有 回 复 突 变 或 平 行 突 变 , 且 被 检 验 的 序 列 位 点数 很 大 的 时 候 , 最 大 简 约 法 能 够 推 导 获 得 一 个 很 好 的 进 化 树 。 在 分 析 序 列 上 存 在 较 多 的 回 复 突 变 或 平 行 突 变 , 而 被 检 验 的 序 列 位 点数 又 比 较 少 的 时 候 , 最 大 简 约 法 可 能 会 给 出 一 个 不 合 理 的 或 者 错 误 的进 化 树 推 导 结 果适 用 于 近 缘 序 列


适 用 于 : 物 种 ( 序 列 ) 相 似 程 度 很 高 的 情 况 。 优 点 : 找 到 的 一 定 是 最 优 的 树 ( 结 构 ), 能 推 测 “ 祖 先 ”序 列 。 缺 点 : 当 物 种 ( 序 列 ) 的 数 目 较 大 时 (N>13), 计 算时 间 太 长 , 所 以 , 可 行 性 很 差 。


最 大 似 然 法 (ML) 选 取 一 个 特 定 的 替 代 模 型 来 分 析 给 定 的 一 组 序 列 数 据 , 使 得 获 得的 每 一 个 拓 扑 结 构 的 似 然 率 都 为 最 大 值 , 然 后 再 挑 出 其 中 似 然 率最 大 的 拓 扑 结 构 作 为 最 优 树 。 最 大 似 然 法 的 建 树 过 程 是 个 很 费 时 的 过 程 , 因 为 在 分 析 过 程 中 有很 大 的 计 算 量 , 每 个 步 骤 都 要 考 虑 内 部 节 点 的 所 有 可 能 性 。 最 大 似 然 法 也 是 一 个 比 较 成 熟 的 参 数 估 计 的 统 计 学 方 法 , 具 有 很好 的 统 计 学 理 论 基 础 , 在 当 样 本 量 很 大 的 时 候 , 似 然 法 可 以 获 得参 数 统 计 的 最 小 方 差 。 只 要 使 用 了 一 个 合 理 的 、 正 确 的 替 代 模 型 , 最 大 似 然 法 可 以 推 导出 一 个 很 好 的 进 化 树 结 果 。对 于 模 型 的 巨 大 依 赖 性 是 最 大 似 然 法 的 特 征


一 般 情 况 下 , 若 有 合 适 模 型 ,ML 的效 果 较 好 ; 近 缘 序 列 , 一 般 使 用MP( 基 于 的 假 设 少 ); 远 缘 序列 , 一 般 使 用 NJ 或 ML


系 统 发 生 树 的 可 靠 性 用 截 然 不 同 的 距 离 矩 阵 法 与 简 约 法 分 析 一 个 数 据集 , 如 果 能 够 产 生 相 似 的 系 统 发 生 树 , 这 样 的 树可 以 认 为 是 可 靠 的


进 化 树 的 可 信 度 检 验常 用 的 三 种 方 法 :1. The bootstrap2. Delete-half-jackknifing3. Permuting species within characters


The bootstrap方 法 : 对 “ 列 ” 进 行 “ 有 放 回 地 ” 重 取 样 。S1: AACAACS2: AACCCCS3: ACCAACS4: CCACCAS5: CCAAACS1: ACCCACS2: ACCCCCS3: CCCCACS4: CAAACAS5: CAAAACS1: AAAACCS2: AACCCCS3: ACAACCS4: CCCCAAS5: CCAACCS1: AAAAACS2: AACCCCS3: CCAAACS4: CCCCCAS5: CCAAAC…………


在 任 何 一 组 新 的 序 列 中 : 序 列 的 长 度 和 原 始 的 长 度 一 样 ; 某 些 “ 列 ” 可 能 被 使 用 多 次 , 而 某 些 “ 列 ” 则可 能 没 用 到 。


Delete-half-jackknifing从 一 组 (set) 原 始 序 列 中 ,“ 无 放 回 地 ” 随 机 抽 取 一半 的 “ 列 ”, 形 成 一 组 组 新 的 序 列 。 在 新 的 序 列 组 中 , 序 列 的 长 度 是 原 来 的 原 来 的一 半 。 在 一 组 新 的 序 列 中 , 每 一 “ 列 ” 最 多 出 现 一 次 。 这 种 方 法 的 思 想 和 效 果 都 和 bootstrap 类 似 。


Permuting species within characters方 法 : 对 “ 列 ” 进 行 “ 序 列 改 变 ”, 结 果 产 生 的 序 列 组 表 面 上看 起 来 和 原 来 一 样 , 但 本 来 所 含 的 分 类 关 系(taxonomic structure ) 信 息 已 被 破 坏 。 如 果 这 样 做 并 不 明 显 改 变 那 些 分 类 相 关 的 统 计 量 ( 如 树的 总 分 支 长 度 ), 则 我 们 认 为 原 来 的 序 列 组 不 含 有 意 义的 分 类 关 系 信 息 。 如 果 这 种 统 计 量 明 显 变 大 , 则 可 认 为 原 来 的 序 列 组 含有 明 显 的 分 类 关 系 信 息 , 以 此 为 基 础 构 建 的 树 是 有 意义 的 。 这 种 方 法 的 思 路 和 前 两 种 完 全 不 同 , 类 似 于 “ 反 证 法 ”。


具 体 做 法 ( 以 PHYLIP 包 为 例 ) 步 骤 :1. 用 “seqboot” 程 序 来 产 生 新 的 序 列 组 ( 一 般 地 ,100 到 1000 组 );2. 运 行 “dnapars” 产 生 相 应 数 目 的 “ 树 ”;2’. 也 可 先 用 “dnadist” 将 上 述 序 列 组 变 为 一 个 个 的距 离 矩 阵 , 然 后 用 “neighbor” 构 建 相 应 数 目 的“ 树 ”;3. 最 后 运 行 “consense”, 得 出 一 棵 “ 一 致 性 ” 的“ 树 ”, 其 各 结 点 上 带 有 bootstrap 值 。


分 子 进 化 与 系 统 发 育 分 析 软 件


软 件 名 称 网 址 说 明PHYLIPhttp://evolution.genetics.washinton.edu/phylip/software.html目 前 发 布 最 广 , 用 户 最 多 的 通 用 系 统 树 构 建 软 件 ,由 美 国 华 盛 顿 大 学 Felsenstein 开 发 , 可 免 费 下载 , 适 用 绝 大 多 数 操 作 系 统PAUP ftp://onyx.si.edu/paup 国 际 上 最 通 用 的 系 统 树 构 建 软 件 之 一 , 美 国simthsonion institute 开 发 , 仅 适 用 Apple-Macintosh 和 UNIX 操 作 系 统Tree of LifeMEGAMOLPHYPAMLPUZZLETreeViewphylogenyhttp://phylogeny.arizona.edu/tree/program/program.htmlhttp://bioinfo.weizmann.ac.il/databases/info/mega.sofftp://ftpsunmh.ism.ac.jp/pub/molphyhttp://abacus.gene.ucl.ac.uk/software/paml.htmlftp://fx.zi.biologie.unimuenchen.de/pub/puzzlehttp://taxonomy.zoology.gla.ac.uk/rod/treeview.htmlhttp://www.ebi.ac.uk/biocat/phylogeny.html美 国 University of Arizona 建 立 的 系 统 发 育 方 面 网 站美 国 宾 西 法 尼 亚 州 立 大 学 MasatoshiNei 开 发 的 分 子 进化 遗 传 学 软 件日 本 国 立 统 计 数 理 研 究 所 开 发 , 最 大 似 然 法 构 树英 国 University college London 开 发 , 最 大 似 然 法 构树 和 分 子 进 化 模 型应 用 quarter puzzling 方 法 ( 一 种 最 大 简 约 法 ) 构 建 系 统树英 国 University of Glasgow 开 发欧 洲 生 物 信 息 研 究 所 (EBI) 的 系 统 发 育 分 析 软 件


构 建 NJ 树 , 可 以 用 PHYLIP 或 者 MEGA。MEGA 是 Nei 开 发 的方 法 并 设 计 的 图 形 化 的 软 件 , 使 用 非 常 方 便 , 推 荐 使 用 。 虽然 多 序 列 比 对 工 具 ClustalW/X 也 自 带 了 一 个 NJ 的 建 树 程 序 ,但 是 该 程 序 只 有 p-distance 模 型 , 而 且 构 建 的 树 不 够 准 确 ,一 般 不 用 来 构 建 进 化 树 。 构 建 MP 树 , 最 好 的 工 具 是 PAUP, 但 该 程 序 属 于 商 业 软 件 ,并 不 对 科 研 学 术 免 费 。MEGA 和 PHYLIP 也 可 以 用 来 构 建 MP树 。 构 建 ML 树 可 以 使 用 PHYML, 速 度 较 快 。 也 可 使 用 Treepuzzle,该 程 序 做 蛋 白 质 序 列 的 进 化 树 效 果 比 较 好 。ML 还 可以 使 用 PAUP、PHYLIP( 或 BioEdit) 来 构 建 。


利 用 Phylip 构 建 进 化 树 使 用 示 例


Phylip 是 一 个 免 费 的 系 统 发 生 (phylogenetics) 分 析 软 件 包 ,由 华 盛 顿 大 学 遗 传 学 系 开 发 。Phylip 主 要 包 括 一 下 几 个 程 序组 : 分 子 序 列 组 、 距 离 矩 阵 组 、 基 因 频 率 组 、 离 散 字 符 组 、进 化 树 绘 制 组 。 根 据 分 析 数 据 , 选 择 适 当 的 程 序 选 择 适 当 的 分 析 方 法 : 若 分 析 的 是 DNA 数 据 , 可 以 选 择 简 约法 (DNAPARS)、 似 然 法 (DNAML,DNAMLK)、 距 离法 (DNADIST) 等 。 进 行 分 析 : 选 择 好 程 序 后 , 执 行 , 读 入 分 析 数 据 , 选 择 适 当的 参 数 , 进 行 分 析 , 结 果 自 动 保 存 为 outfile、outtree。


通 过 clustalw 比 对 获 得 的 蛋 白 序 列 推 测 进 化 树 。注 意 : 更 改 输 出 文 件 的 默 认 格 式 , 打 开 输 出PHYLIP 格 式 选 项


用 seqboot 创 造 抽 样 数 据 ( 一 般 100-1000 组 ), 运行 seqboot, 输 入 上 次 得 到 的 .phy 文 件 ( 按 路 径 )J 选 项 有 三 种条 件 可 以 选择 , 分 别 是Bootstrap、Jackknife 和Permute。


MP 法 运 行 protpars.exe, 选 择 需 要 改 变 的 参 数运 行 CONSENSE , 获 得 最 优 树 , 结 果 可 用treeview 查 看


运 行 protdist.exe ,NJ 法


然 后 再 运 行 neighbor运 行 CONSENSE , 获 得 最 优 树 , 结 果 可 用treeview 查 看


也 可 利 用 MEGA3.1 构 建 进 化 树MEGA3.1 是 一 个 关 于 序 列 分 析 以 及 比 较 统 计 的 工 具包 , 其 中 包 括 距 离 建 树 法 和 MP 建 树 法 , 可 自 动 或 手动 进 行 序 列 比 对 、 推 断 进 化 树 、 估 算 分 子 进 化 率 、进 行 进 化 假 设 测 验 , 还 能 联 机 的 Web 数 据 库 检 索 。 使 用 ( 略 )


总 结 在 进 行 系 统 发 生 的 推 断 分 析 中 , 最 重 要 的 因 素 不 是 进 行 系统 发 生 推 断 所 采 用 的 方 法 , 而 是 输 入 数 据 的 质 量 。 很 难 准 确 地 建 立 一 个 发 生 树 一 定 要 根 据 序 列 信 息 的 特 点 及 目 的 选 择 适 当 的 方 法 与 分 析软 件Take time to play withit


eferenceJin xiong.Essential Bioinformatics. 2006,Cambridge University Press. 孙 啸 , 陆 祖 宏 等 . 生 物 信 息 学 基 础 .2006, 清 华 大学 出 版 社http://www.genecool.com/bbs/http://evolution.genetics.washington.edu/phylip.html/


LOGO

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!