生物序列分析-中文版

biostatistic · 发表于 2011-6-7 14:31:25

前沿

1992 年在Snowbird 举行的一个神经网络会议上, David Haussler 和他加州大

学圣克鲁斯分校(UCSC) 的同事们(其中也包括本书作者之一Anders Krogh, AK)

描述了使用概率论模型对蛋白质序列进行多序列联配建模的初步结果, 他们称这种

模型为隐马模型(HMM). 随后他们技术报告的复本被广泛地传播开来, 其中一些流

传到剑桥大学的MRC 分子生物学实验室. 在那里Richard Durbin (RD) 和Graeme

Mitchison (GJM) 刚刚将自己的研究兴趣从神经建模转移到计算基因组序列分析上

来. Sean R. Eddy (SRE) 当时是该实验室的一名实验分子遗传学背景的博士后学

生, 他对计算分析感兴趣. 不久以后AK 也到剑桥大学工作了一年.

我们都快速地接受了概率论建模的思想, 相信HMM 及其随机文法对应物是优

美的数学对象, 而且十分适于提取埋藏在生物序列中的信息. 圣克鲁斯小组和剑桥

小组分别独立地开发了免费的HMM 序列分析软件包, 并分别独立地将HMM 方法

推广到用于进行RNA 二级结构分析的随机上下文无关文法上. 几乎与此同时, 在喷

气推进实验室/加州工学院(JPL/Caltech), 由Pierre Baldi 领导的另一个小组也受

Snowbird 会议的成果所启发, 进行基于HMM 方法的研究.

到1995 年底, 我们自认为在概率论建模技术方面已经掌握了比较多的经验, 但

另一方面也感到学界内此方面工作的交流相对缺乏. 虽然当时HMM 已经引起广泛

关注, 但它仍被很多人视为数学黑匣而非序列联配问题的自然模型. 许多详细描述

HMM 思想与方法的优秀文献仅限于语音识别领域, 这使得大量计算生物学家望而

却步. 更重要的是, 我们和其他几个小组都越发清晰的意识到HMM 方法可以应用

于更多问题, 例如蛋白质结构建、基因识别和系统发育分析等多个领域. 1995 年圣

诞节放假期间, 可能有点被雄心壮志、天真幼稚和假期闲暇所“怂恿”, 我们决定

写一本关于生物序列分析的书, 主要强调概率论建模在其中的应用. 在过去的两年

里, 当初那个宏伟的写作计划已经逐渐被精炼成我们对于一本实用书籍的期待.

因为作者固执己见, 所以本书带有很强的主观性, 并非序列分析的实用指南. 我

们主要想对序列分析的基础进行通俗易懂地介绍, 并向读者展示为什么我们觉得概

率论建模方法是有用的. 我们将尽量避免对特定计算机程序的讨论, 与此相对, 本书

把更多的笔墨花费在程序背后的算法与原理上.

我们仔细地引用了大量学者的工作, 我们的见解深受其影响. 但可以确信其中

必有遗漏, 这些文献我们本该阅读, 我们对此致以歉意. 同时, 本书内容必须涉及从

进化生物学到概率论、再到生物物理学的诸多研究领域, 受时间、精力以及作者理

解能力的限制, 我们处理一些问题时难免肤浅.

计算生物学是一门交叉学科. 包括我们在内, 研究者来自不同的研究背景, 例如

分子生物学、数学、计算机科学以及物理学. 本书设想的读者是背景为这些学科之

一的研究生或高年级本科生. 我们力求简洁而直观地呈现本书内容, 尽量避免令人

望而生畏的数学推导或过于技术性的生物学细节.

我们假设读者已经熟悉分子遗传学的基本原理, 例如DNA 到RNA 到蛋白质的

中心法则, 再例如核酸是由四种核苷酸子单元组成的序列, 蛋白质是由二十种氨基

酸组成的序列. 必要时本书会给出分子遗传学的更多细节. 我们也假设读者具备一

定的数学基础. 然而本书的部分章节仍包含一些数学性很强的描述. 我们已经尝试

将这些内容安排在每章的最后, 并作为整体安排在全书的末尾. 特别是最后一章, 第

11 章涵盖了概率论中与本书前面许多内容相关的主题.

我们向爽快地接受邀请并对本书部分手稿进行校对的人们表达自己的感激之

情. 我们特别感谢Ewan Birney、Bill Bruno、David MacKay、Cathy Eddy、Jotun

Hein 和S¿ren Riis. Bret Larget 和Robert Mau 提供了他们一直在系统发育研究中

使用的抽样方法的信息, 这些信息十分有帮助. David Haussler 勇敢地将本书尚未成

熟的手稿作为1996 年秋季的课堂讲义在UCSC 讲授, 同时我们也十分感谢David 以

及他的整个班级提供了宝贵的反馈信息. 我们也要感谢David 从一开始就将我们引

入了这个研究领域. 在刊印本书的过程中, 我们与剑桥大学出版社的David Tranah

及Maria Murphy 还有SG 出版公司的Sue Glover 合作得十分愉快. 虽然本书充满

方程、算法和伪代码, 但在编辑本书以及为本书进行LATEX 排版方面他们表现了非

凡的业务能力; 他们对于我们异常乐观并毫无精准可言的时间表也展示出非凡的容

忍. 书中难免存在错误, 但若没有以上所有人的努力, 相信错误的数量会更多.

我们也希望感谢为本书及相关工作提供资助的个人与集体, 他们包括维康基

金会(Wellcome Trust), 美国国家健康总署国家人类基因组研究所(NIH National

Human Genome Research Institute), 北大西洋公约组织(NATO), Eli Lilly 公司(Eli

Lilly & Co.), 人类前沿科学项目组织(Human Frontiers Science Program Organisa-

tion) 以及丹麦国家研究基金(Danish National Research Foundation). 我们也感谢

作者所在的研究所: RD 所在的Sanger 研究中心(Sanger Centre), SRE 所在的华盛

顿大学医学院(Washington University School of Medicine), AK 所在的生物序列分

析中心(Center for Biological Sequence Analysis), 还有GJM 所在的MRC 分子生

物学实验室(MRC Laboratory of Molecular Biology). Jim Durbin 和Anne Durbin

于1997 年2 月将他们在伦敦的房子慷慨地借给我们, 本书最终草稿的合并与审定就

是在此一气呵成. 我们感谢来自朋友, 家庭以及各个研究小组对写作过程的耐心等

待以及对不远万里来到英格兰的SRE与AK 所带来不便的容忍. 我们保证不再承担

新的如此宏伟的工程, 至少最近不打算这么做.

第一章绪论1

1.1 序列的相似性、同源性及联配. . . . . . . . . . . . . . . . . . . . . . 1

1.2 本书概述. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3 概率与概率论模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.4 补充读物. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

第二章二序列联配9

2.1 引言. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 计分模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 联配算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.4 更复杂模型的动态规划. . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.5 启发式联配算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.6 线性空间联配. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.7 分值的显著性. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.8 从联配数据推导计分参数. . . . . . . . . . . . . . . . . . . . . . . . 29

2.9 补充读物. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

第三章Markov 链与隐马模型(HMM) 33

3.1 Markov 链. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.2 隐马模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.3 HMM 的参数估计. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.4 HMM 的模型结构. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.5 更复杂的Markov 链. . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.6 HMM 算法的数值稳定性. . . . . . . . . . . . . . . . . . . . . . . . . 53

3.7 补充读物. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

第四章应用HMM 的二序列联配57

4.1 成对HMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.2 x 和y 的全概率, 对所有路径求和. . . . . . . . . . . . . . . . . . . . 61

4.3 次优联配. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.4 xi 联配上yj 的后验概率. . . . . . . . . . . . . . . . . . . . . . . . . 65

4.5 用于搜索的成对HMM 与FSA 之对比. . . . . . . . . . . . . . . . . 68

4.6 补充读物. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

第五章用于序列家族的pro¯le HMM 71

5.1 无空位计分矩阵. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5.2 添加插入与删除状态以获得pro¯le HMM . . . . . . . . . . . . . . . . 73

5.3 从多序列联配中导出pro¯le HMM . . . . . . . . . . . . . . . . . . . 74

5.4 基于pro¯le HMM 的搜索. . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 用于非全局联配的pro¯le HMM 变体. . . . . . . . . . . . . . . . . . 79

5.6 对概率估计的深入说明. . . . . . . . . . . . . . . . . . . . . . . . . . 81

5.7 最优模型的构建. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.8 训练序列的加权. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

.

生物序列分析-中文.pdf (3.8 MB, 下载次数: 180, 售价: 1 金钱)

jaxb · 发表于 2013-7-9 16:02:07

1分还是比较便宜的。

carelwang · 发表于 2013-12-31 10:00:49

多谢楼主分享！！！！~~~

kingwwd · 发表于 2016-3-26 18:46:30

非常感谢，好资料，很值得好好学习一下！

账号		自动登录	找回密码
密码			注册

生物序列分析-中文版

浏览过的版块