|
大规模基因表达谱数据分析方法
芯片分析能够检测不同条件下的基因转录变化,能够显示反映特征组织类型、发育
阶段、环境条件应答、遗传改变的基因谱。当芯片数据大量 出现, 产生了 新的问
题:如果将所有获得的数据集中起来,我们能否将未知功能的新基因归类到已知功
能分类中?能否将基因表达与基因功能联系起来?能否发现新类型的共调控基因?
能否从芯片表达数据中得出完整的基因调控网络?这些唯有通过计算的方法。基因
制图及测序所面临的问题与大规模基因表达分析的数学问题相比要小的多。这种新
类型的表达数据使我们直接面对生物系统和基因组水平功能的复杂性,从生物系统
单个成分的定性发展到完整生物系统行为的描述上来,这方面困难很多,目前只有
很少的分析工具。
聚类分析(clustering analysis)是大规模基因表达谱目前最广泛使用的统计技术,
最近又发展了一种机器学习方法-支持向量机(support vector machines,SVMs)。这
些分析方法均处在研究的初级阶段,随着大量数据及标准化数据库的出现,其它数
据挖掘技术包括神经网络和遗传算法将在基因表达数据分析中得到应用。
聚类分析
聚类通过把目标数据放入少数相对同源的组或“类”(cluster)里。分析表达数据,
(1)通过一系列的检测将待测的一组基因的变异标准化,然后成对比较线性协方
差。(2)通过把用最紧密关联的谱来放基因进行样本聚类,例如用简单的层级聚
类(hierarchical clustering)方法。这种聚类亦可扩展到每个实验样本,利用一组基
因 总 的 线 性 相 关 进 行 聚 类 。 ( 3 ) 多 维 等 级 分 析 ( multidimensional scaling
analysis,MDS)是一种在二维 Euclidean “距离”中显示实验样本相关的大约程度。
(4 )K-means 方 法聚类, 通过重复 再分配类 成员来使 “类 ”内 分散度最 小化的方
法。
聚类 方法 有两个 显著的 局限 :首先 ,要 聚类结 果要明 确就 需分离 度很 好(well-
separated)的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生
同样的聚类。但是,如果类是扩散且互相渗透,那么每种算 法的的 结果将 有点不
同。结果,每种算法界定的边界不清,每种聚类算法得到各自的最适结果,每个数
据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果,必须注意
判断不同的方式。对遗传学家来说,正确解释来自任一算法的聚类内容的实际结果
是困难的(特别是边界)。最终,将需要经验可信度通过序列比较 来指导 聚类解
释。
第二个局限由线性相关产生。上述的所有聚类方法分析的仅 是简单 的一对 一的关
系。因为只是成对的线性比较,大大减少发现表达类型关系的计算量,但忽视了生
物系统多因素和非线性的特点。
斯 坦 福 大 学 的 Michael Eisen 开 发 的 Windows 平 台 免 费 芯 片 数 据 分 析 软 件
CLUSTER 和 TREEVIEW,采用配对平均连锁(pairwise average-linkage)聚类分
析。这种方法中,每个不同的基因与其它的基因比较,鉴定最相关的基因对。这种
基 因 对 的 数 据 用 平 均 数 替 代 , 再 重 新 计 算 关 系 矩 阵 , 不 断 重 复 这 个 过 程 。
TREEVIEW 对 CLUSTER 计算结果进行图形输出,将芯片中的每个基因的表达比
值用彩色方块表示。
尽管 CLUSTER 软件易于使用且直观,但其算法仍有缺陷之处:实际数据由每次重
复的平均数据替代;相似性测定的选择(相关性/Eluclidean 距离);将等级模型用
于非等级过程;成对比较矩阵的计算负担。因此,出现了其它方法,包括自组织图
( self organizing maps,SOMs ) , 二 进 制 决 定 - 退 火 算 法 ( binary deterministic-
annealing algorithm),k-means 聚类等。Tamayo 等提供 Windows 平台的 SOMs 软件
包。
CLUSTER 和 TREEVIE 下载网址:http://www.genome.standford.edu
基于知识挖掘的机器学习方法
最 近 发 展 了 一 种 的 有 监 督 的 机 器 学 习 方 法 - 支 持 向 量 机 ( support vector
machines,SVMs)来分析表达数据,它通过训练一种“分类器”来辨识与已知的共调
控 基 因 表 达 类 型 相 似 的 的 新 基 因 。 与 经 典 的 无 监 督 聚 类 方 法 ( unsupervised
clustering)和自组织图(self-organizing maps)不同,该方法建立在已有的知识上
并有改进现有知识的潜力。
无监督的聚类方法,例如层级(hierarchical)和 K-means 聚类,假设每个基因仅属
于一“类”(cluster)。这在生物学意义上当然不是真实的。而且,事实上同一类基
因不是必 然意味着有相似的表 达类型。比如,k-means 聚类方 法事先指定产生的
“ 类 ”的 数 量 及 并 将 每 个 基 因 放 在 其 最 优 “ 类 ”, 并 不 总 是 有 意 义 。 需 要 对 类
(cluster)进行质量评价,“类”的“严谨性”和外围基因的存在(如果存在,它们与
下一类的接近度)以及一组核心特征基因应在质量上保证。最重要的是应考虑“类”
是否有生物学意义。
与无监督的方法产生基因的“类”相比,有监督的学习方法是向已知的“类”学习。训
练者必须提供 SVMs 以每个“类”正反两方面的例子。SVMs 提供一种层级的方法来
分析芯片数据。首先,对每个基因,应询问最近的邻居是否它与它们的关系是有生
物学意义的。其次,对已知共调控基因,应该询问它们的表达类型是否相似,如果
是这样,还有哪些其它的基因有相同类型。这些在监督阶段可通过 SVMs 或优化
的 SOMs 来判断。第三,应该通过无监督的学习方法进行基因分类并询问是否聚
类有生物学意义并且包括外围基因。最后,“类”可通过每个无监督的“类”的核心基
因训练 SVMs 的方法来检测和优化。
可视化
大规模基因表达数据挖掘另一重要方面是发展有力的数据可视化方法和工具。已经
发展了用简单图形显示提供聚类结果的途径,如上述的 TREEVIEW 软件。对大规
模基因表达原始数据的进行不失真的可视化并链接的标注过的序列数据库,可为基
因表达分析提供非常有价值的工具,有助于从新的视角看待基因组水平的转录调控
并建立模型。
|
|