Wisconsin 软件包（GCG）综合性的序列分析

xiaoliu · 发表于 2011-6-27 22:50:54

Wisconsin 软件包（GCG）
Genetics  Computer  Group 公司开发的 Wisconsin 软件包，是一组综合性的序列分析
程序，使用公用的核酸和蛋白质数据库。SeqLab 是其图形用户界面（GUI ），通
过它可以使用所有 Wisconsin 软件包中的程序及其支持的数据库。此外，它还提供

了一个环境用于创建、显示、编辑和注释序列。SeqLab
括其它公用或非公用的程序和数据库。

也可以被扩展使其可以包

Wisconsin

软件包由

120

多个独立的程序组成，每个程序进行一项单一的分析任

务。包括所有程序的完整目录以及详细的描述可以在

Wisconsin 软件包的程序使用

文档中找到。GCG 支持两种核酸数据库(GenBank 数据库,  简化版的 EMBL 核酸序
列数据库)和三种蛋白质数据库(PIR,SWISS-PROT,  SP-TrEMBL)。这些数据库既有
GCG 格式的（供大多数  Wisconsin 软件包程序使用），也有 BLAST 格式的（供
BLAST 数据库搜索程序使用）。同时还提供了用于  LookUp 程序以及数据库参考
搜索的索引。
关于  GCG，Wisconsin 软件包，支持的平台以及硬件需求的一般性信息可以在
GCG 的主页以及 Wisconsin 软件包的用户手册中找到。GCG 主页提供了更新信息
以及 Wisconsin 软件包程序的完整列表。
SeqLab 中可以使用多个序列分析程序的特性使用户可以应用这些程序顺序地回答
相关问题或在对输入序列进行编辑后重复某项分析。而可以同时访问公用数据库和
本机序列的优点使用户可以在一个分析中使用其中任意一种而不用先进行转换或格
式化的工作。SeqLab 可以解决的序列分析问题：
(1)在两条 mRNA 中寻找开放阅读框架，翻译并对比 RNA 与蛋白质序列
对两条相关的  mRNA 进行测序的用户可能希望寻找开放阅读框架（ORF）、翻译
以及进行核酸与氨基酸序列间的两两对比。
把序列加入 SeqLab  Editor 中，从 Functions 菜单中选中 Map 选项运行 Map 程序。
Map 输出文件包含了限制性酶切图和 6 种可能的翻译框架的  ORF 的显示。这些
ORF 的起始和终止位置可进行标记并选为 SeqLab  Editor 中序列显示的范围，然后
可用 Edit 菜单的 Translate 操作进行翻译。翻译结果自动出现在 SeqLab Editor 中。
两条相关的核酸或蛋白质序列可用 Gap 程序或 BestFit 程序进行对比。Gap 程序寻
找两条序列间的全局最优对比结果。适用于两条待比对的序列是进化相关的情况。
BestFit 程序寻找两条序列的局部最优对比结果，它适用于两条序列不是进化相关
而是功能相关的情况。
(2)通过参考搜索寻找数据库中的相关条目并进行对比
研究一个特征序列家族成员的用户可能希望寻找这个家族中的其它成员并建立它们
的多序列对比。
从 Functions 菜单中选取 LookUp 程序。LookUp 在数据库条目的参考信息部分搜索
描述词并建立匹配条目的列表。在参考部分的  Definiton,  Author,  Keyword  和

Organism

域中搜索描述词并在词之间使用 “and”（&）、 “or”（|）以及“but  not”

（！）布尔表达式。例如，在

SWISS-PROT 条目的

Description

域搜索“lactate  &

dehydrogenase  &  h  &  chain”将产生一个输出文件，其中列出了乳酸脱氢酶 H  链
（lactate  dehydrogenase  H  chain）条目。这个输出文件可以从 Output  Manager 窗口
中加以显示，然后与用户的序列一起添加到 SeqLab Editor 中。
要创建所有这些序列的多序列对比，只要根据序列名称选中这些序列并从
Functions 菜单中运行  PileUp 程序。由  PileUp 产生的多序列文件也列在  Output
Manager 窗口中并可以直接添加到 SeqLab  Editor 中。推荐采用这一步的原因在于
数据库条目的特征表格（Features  table）信息可与对比结果一起被包括进来。必要
时对比结果是可以被编辑的，并且如果数据库条目有相似的特征，这些特征可被附
加给用户序列。
(3)用查询序列搜索数据库，将找到的条目与查询序列进行对比并产生进化系统树
克隆并测序一个未知功能基因的用户可能希望在一个数据库中搜索相似的序列。如
果搜索到了，用户可能进一步希望创建与查询序列最相似的序列的多序列对比并产
生数据的种系图。
往  SeqLab  Editor 中添加一个查询序列并从 Functions 菜单中选取  FASTA 程序。
FASTA 程序在数据库中搜索与查询序列相似的序列。输出文件可从  Output
Manager 窗口中加以显示并直接添加到  SeqLab  Editor 中。在这个输出文件中数据
库条目与查询序列局部相似性最好的区域被加以标记。如果要显示的话，每个数据
库条目只有这种区域可以显示在  SeqLab  Editor 中。不要的条目可以从  SeqLab
Editor 中一起被删除。
从 Functions 菜单中选中 PileUp 程序创建这些序列的多序列对比。输出可从 Output
Manager 窗口中加以显示并添加到 SeqLab  Editor 中更新已经存在的未对比序列。
必要时可对这一对比结果进行编辑，并且数据库条目的有用的特征表格信息也可以
添加给查询序列。
从 Functions 菜单中选取 PaupSearch 程序，程序提供了一个 PAUP（进化系统简约
性分析（Phylogenetic  Analysis  Using  Parsimony））中树搜索方式的  GCG 接口。
PaupDisplay 程序为 PAUP 中的树操作，鉴定以及显示方式提供了一个 GCG 接口。
(4)拼接交叠序列片段产生一连续序列，寻找并翻译这一序列的编码区域并在数据
库中搜索相似序列
克隆了一个基因，把它分解克隆为一组有交叠的序列片段并进行了测序的用户可能
希望把这些序列片段重新组装为一条连续的序列。一旦 contig 拼接完成，用户可能
希望在序列中寻找阅读框架，翻译并在数据库中搜索相似序列。
Fragment  Assmbly  System 的程序可用于拼接交叠序列片段。GelStart 程序创建一个
项目。GelEnter 程序把序列片段复制到项目中。GelMerge 程序寻找片段之间的交
叠并把它们拼接成  contig。GelAssemble 程序是一个编辑器，可用于编辑这些连续
的部分并解决片段之间的冲突问题。所有这些程序都可以从  Functions 菜单中选
取。一旦拼接完成，最终构成此 contig 的连续序列可以被保存为一个序列文件并添
加到 SeqLab Editor 中。
使用 Map、Frames、TestCode 或 Codon  Preference 程序可预测序列中的编码区（所
有这些程序可以从 Functions 菜单中选中）。使用 Edit 菜单的 Select  Range 功能选
择这些程序预测的区域并使用  Edit 菜单中的翻译操作把它们翻译为蛋白质。这些
提出的翻译区域也可以作为核酸共有序列的特征被加入。
选取蛋白质序列然后选择 Functions 菜单中 BLAST。BLAST 程序在数据库中搜索
与查询序列相似的条目，此程序既可以进行远程搜索也可以进行本机搜索。搜索结
果可以从  Output  Manager 窗口中加以显示。如果被搜索的是一个本机的数据库，
结果文件可以加入 SeqLab  Editor 或 Main  List 窗口中，并允许对找到的序列进行进
一步分析。
(5)对比相关的蛋白质序列，计算对比结果的共有序列，辨识序列中新的特征序列
模式，在数据库中搜索包含此模式的序列或在对比结果的共有序列中搜索已知的
蛋白质模式
辨识了一组相关序列的用户可能希望对其进行对比并计算对比结果的共有序列。如
果可以在对比结果中找到保守模式，用户可能希望在数据库中搜索包含这种模式的
其它序列。用户可能还希望在计算出的共有序列搜索已知的蛋白质模式。
选取待对比的序列，从 Functions 菜单中选取 PileUp 程序创建多序列对比，PileUp
程序的输出文件可从 Output  Manager 窗口中加以显示并添加到 SeqLab  Editor 中。
用户可以对对比结果的某个区域重新加以对比并以此替换原有的对比结果。只要选
取一个区域并重新运行 PileUp 即可。从 PileUp Options 窗口中选取"realign a portion
of  an  existing  alignment（重新对比一个已存在的对比结果的一部分）"，这可能有
利于选择一个替代评分矩阵或不同的创建和扩展处罚。新的输出文件将包含最初的
对比结果以及替换原始对比结果的重新对比的区域。
用 Edit 菜单中 Consensus 操作计算对比结果的共有序列。如果保守模式可被辨识，
从 Functions 菜单中选取 FindPatterns 选项。从共有序列中剪切下此特征序列模式并
把它粘贴到 FindPatterns 模式选择器中，并在数据库中搜索包含这一模式的序列。
此外，运行 Motif 程序可在共有序列中搜索已知的蛋白质模式。Motif 在蛋白质序
列中搜索在 PROSITE，蛋白质位点和模式的 PROSITE 字典中已知的蛋白质模式。
如果辨识出一个  Motif，则给所有序列增加一个特征，并标出它的位置。图 4.9 显
示了一个蛋白质序列的匹配、一个共有序列以及 Motif 搜索的结果。

(6)使用 Profile 进行相似性搜索并对比相关序列
序列分析的一个新的扩展领域是 Profile 技术。一个

profile 是一个位置特定的评分

矩阵，它包含了一个序列对比结果中每个位置的所有残基信息。这一点与共有序列
不同，共有序列中只包含每个位置的保守残基的信息。Profile 做好后可用于搜索数
据库、数据库划分或在一个集合中搜索与原始对比结果中的序列相似的序列。它也
可以用于把一条单独的序列与一个对比结果进行对比。
使用 ProfileMake 程序可创建一个序列对比结果的 profile。使用 ProfileSearch 程序
可用  profile 对数据库进行搜索，ProfileSegment 程序可以显示搜索结果。使用
ProfileGap  程序可将一个序列与  profile 进行对比。 ProfileMake,  ProfileSearch,
ProfileSegments 以及 ProfileGap 程序都可以从 Functions 菜单中启动。
GCG 的主页 http://www.gcg.com

账号		自动登录	找回密码
密码			注册

Wisconsin 软件包（GCG）综合性的序列分析

浏览过的版块