|
基因表达公共数据库
数据库用途
(1)基础研究 将来自各种生物的表达数据与其它各种分子生物学数据资源,如经
注释的基因组序列、启动子、代谢途径数据库等结合,有助于理解基因调控网络、
代谢途径、细胞分化和组织发育。例如,比较未知基因与已知基因表达谱的相似性
能帮助推测未知基因的功能。
(2)医学及药学研究 例如,如果特定的一些基因的高表达与某种肿瘤密切相关,
可以研究这些或其它有相似表达谱的基因的表达的影响条件,或研究能降低表达水
平的化合物(潜在药物)。
(3)诊断研究 通过对数据库数据进行基因表达谱的相似性比较对疾病早期诊断具
有临床价值。
(4)毒理学研究 例如,了解大鼠某种基因对特定毒剂的反应可帮助预测人的同源
性基因的反应情况。
(5)实验质量控制和研究参考 实验室样本与数据库中标准对照样本比较能找出方
法和设备问题。此外,还能提供其他研究者的研究现状,避免重复 实验, 节约经
费。
数据库的特点和难点
目前急需建立标准注释的公共数据库,但这是生物信息学迄今面临的最复杂且富有
挑战性的工作之一。主要困难来自对实验条件细节的描述,不精确的表达水平相对
定量方法以及不断增长的庞大数据量。
目前所有的基因表达水平定量都是相对的:哪些基因差异表达仅仅是与另外一个实
验 比 较而 言 , 或者 与 相 同实 验 的 另一 个 基 因 的相 比 而 言。 这 种 方法 不 能 确定
mRNA 的拷贝数,转录水平是总的细胞群的平均水平。结果导致采用不同技术进
行基因表达的检测,甚至不同实验室采用相同技术,都有可能不能进行比较。对不
同来源数据的进行比较有必要采取两个步骤:首先,原始数据应避免任何改动,比
如采取数据标准化(data-normalization)的方法。其次,在实验中设计使用标准化
的对照探针和样本以便给出参考点至少使来自同一实验平台的数据标准化。
另一难点是对实验条件的描述,解决方法是对实验方法用采用规范化词汇的文件描
述:如基因名称,物种,发育阶段,组织或细胞系。还要考虑偶然的不受控制实验
因素也可能影响表达:例如空气湿度,甚至实验室的噪音水平。目前建立一种结构
能对将来实验设计的所有细节进行描述显然是不可能的。比较现实的解决办法是大
部分采用自由文本描述实验,同时尽可能加上有实用价值的结构。DNA 芯片实验
的标准注释必须采用一致的术语,这有待时间去发展。但目前,就应采用尽可能合
理的标准用于 DNA 芯片数据及其注释。
标准化的基因表达公共数据库要有五类必要的信息:
(1)联系信息:提交数据的实验室或研究人员的信息。
(2)杂交靶探针信息:对阵列上的每个“点”,应有相应的 DNA 序列在公共数据
库中的编号。对 cDNA 阵列,克隆识别号(如 IMAGE clone_id)应给出。
(3)杂交样本:细胞类型和组织来源用标准语言描述。常规诊断病理中使用的组
织和组织病理词汇可被采用,还可采用胚胎发育和器官发生中的标准词汇。样本来
源种属的分类学名称(如 Saccharomyces cerevisiae,Homo sapiens),应当提供。对
有些生物体如啮齿类动物和微生物,品系资料需要提供。关于实验中生物体状况的
资料,如用药或未用药非常关键,也需提供。“肿瘤与正常”或不同发育阶段也该注
明。细胞或生物体的遗传背景或基因型在特定例子中也应是重要的,如酵母基因缺
失和转基因鼠。最后,由于组织处理的会引起差别,故应包 括相关 的详细 处理方
法。
(4)mRNA 转录定量:这方面非常关键,很难通过一组“持家基因”做内参照进行
标准化,有关的具体定量方法应提供。
(5)统计学意义:理想地,应经济合理地有足够的次数重复一个实验以便给出基
因表达测定的变异情况,最好能提供合理的可信度值。
上述表达数据记录的前两个要求是简单的,第三个要求较困难需有标准术语协议,
但这并不只是表达数据的要求,类似的要求已在公共序列数据库或专业化的数据库
中得到成功解决。目前基因表达数据最富有挑战性的方面是最后两个方面。
现状和计划
几个大的芯片实验室如斯坦福大学和麻省理工学院 Whitehead 研究所等,在发展实
验室内部数据库;大的商业化芯片公司如 Affymetrix, Incyte,GeneLogic,正在开发
基于 Affymetrix 芯片技术平台的商业化基因表达数据库。哈佛大学已经建立了一个
的数据库,数据来自几个公共来源并统一格式。宾夕法尼亚大学计算生物学和信息
学实验室正在整合描述样本的术语。
目 前至 少有 3 个 大 的公 共基 因 表达 数 据库 项目 : 美国 基因 组 资源 国 家中 心的
GeneX;美国国家生物技术信息中心(NCBI)的 Gene Expression Omnibus;欧洲生
物信息学研究所(EBI)的 ArrayExpress.
欧美专家合作提出有关数据库的初步标准:实验描述和数据表示的标准;芯片数据
XML 交换格式;样本描述的术语;标准化、质量控制和跨平台比较;数据查询语
言和数据挖掘途径。(http://www.ebi.ac.uk/microarray/)。EBI 与德国癌症研究中
心正在开发 ArrayExpress , 一种与目前推荐标准兼容的基因表达数据库。该数据库
将 利 用 来 自 合 作 方 的 的 数 据 , 可 操 作 的 数 据 库 将 于 近 期 建 立
(http://www.ebi.ac.uk/arrayexpress)。
|
|