找回密码
 注册
查看: 11421|回复: 3

代谢组学

[复制链接]
发表于 2011-3-10 16:54:21 | 显示全部楼层 |阅读模式
最近分析一批有关疾病研究的代谢组学NMR数据,发现这是一个挺有意思的领域,略作记录。什么是代谢组学?简单来说,主要的组学研究有:基因组学、转录组学、蛋白质组学和代谢组学。顾名思义,代谢组学研究的是生物体的代谢产物,例如尿液、血浆之类的。最常见的是尿液,处于不同健康状况的人的尿液中所蕴含的代谢物是不一样的,通过分析其中代谢物的变化可以对疾病进行研究。第一步就是测出其中的各种代谢物及相应的含量。这类技术有质谱、NMR等等。其中NMR是最适合于用来从事代谢组学研究的。

NMR设备的原始数据经过基本处理后通常得到的都是FID数据,这是一种二进制格式。有大量的商业软件和开源软件可以用来对其做基本的处理,开源的有基于R的rNMR等,商业软件则有MestRe-C、MestRe NOVA等等。NMR数据专门的预处理有相位校正、基线校正等,其中的诸如分段积分、normalization之类的就是通用的数据预处理方法了。最终得到的就是化学位移和相应的信号强度的一组数据。开源软件基本上都比较垃圾,商业软件几乎都有一个月的试用期,所以我试用了N个商业软件,最后的选择是MestRe NOVA:跨平台、稳定、有历史、文档不算详细但还能提供不少信息、能批量处理数据、有很恶劣的脚本扩展功能——但至少是有了。

根据一些peak selection算法,找出数据中的峰值,然后把这些数据丢到代谢物数据库中去识别其中的代谢物。找到几个还算好使的数据库:

人类代谢物数据库:http://www.hmdb.ca/,被大量使用的数据库,但不能直接给出代谢物的相对浓度。
威斯康星大学的代谢物数据库:http://mmcd.nmrfam.wisc.edu/,我最终用的是这个,因为能得到代谢物的相对浓度。但在最后处理数据时,发现这个数据库导出的部分代谢物名称有问题,但我没能找到错误的来源。好在第一批数据规模较小,手动解决了这个问题。在考虑是不是要转到前面HMDB,然后自己写点代码来计算代谢物的相对浓度。
NMRShiftDB:http://www.ebi.ac.uk/nmrshiftdb/,界面看上去很不错,功能看上去很强大,不过批量作业功能不方便,而且有些结果竟然需要翻墙才能用,比较头疼。
还有很多类似的数据库,可以在pubmed里面找review,我觉得没有太大的差别。
有了量化的图谱,有了各个样本中代谢物的相对浓度,接下来就是用各种统计方法比较两组样本间的差异,并找出带来这种差异的代谢物。PCA、PLS、OPLS-DA、SVM、相关系数等等等等,其实我觉得这部分虽然是重点,但也是最没有特色的部分。

最后找到了N个对疾病有重要影响的代谢物,做KEGG的富集分析,然后找出能将这些代谢物连在一起的pathway。Cytoscape的MetScape能根据用户输入的代谢物名称或KEGG ID搜索KEGG pathways,能用,但并不是很好用;MBRole用来做基于KEGG pathway的代谢物富集分析,绝大部分的在线工具都只能做基因或蛋白质的KEGG pathway富集分析,支持代谢物分析的暂时只找到了这一个。

开源软件在这个圈子还有很多工作要做,R语言的圈子完全有能力做到,可能还没有引起太多人的关注吧。
回复

使用道具 举报

发表于 2011-5-15 21:31:52 | 显示全部楼层
请问版主,用SIMCA-P软件分析代谢组学数据,作PCA图,noise lever控制在多少比较合适?
回复 支持 反对

使用道具 举报

发表于 2017-1-6 10:41:34 | 显示全部楼层
新手上路,来学习大神们的数据处理和分析
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|生物统计家园 网站价格

GMT+8, 2024-11-21 17:00 , Processed in 0.024096 second(s), 16 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表