从一百万个数据库查询中确定守恒代谢生物标记物

Posted 化学数据联盟

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从一百万个数据库查询中确定守恒代谢生物标记物相关的知识,希望对你有一定的参考价值。


摘要


研究动机:代谢产物数据库为我们的代谢组学研究提供了独有的探索窗口,代谢产物数据库可以让我们把平日里搜索数量最多的生物标记物按照类别进行整理。在分析技术的改进和现阶段生物信息学的发展的驱动下,组学规模代谢产物分析或者代谢组学的实用性在生物标记物的发现当中具有的使用性能与日俱增。但是将生物标记物转化成与临床或者生物相关指标的成功性会受限。


研究结果:本着改进可转化代谢物生物标记物的发现,我们提出了超过一百万个在线数据库(METLIN)代谢产物数据查询的搜索分析。最常见的在代谢物线数据库是XCMS Online,它是一种以云为基础的数据处理和代谢通路分析平台。METLIN和XCMS的基本代谢产物数据的分析具有两个基本含义:这些代谢物可以指示应激物的守恒代谢反应,这个数据也可以被用来估算潜在生物标记物的相对独特性。


1.介绍

通常种群调查所采用的是无偏见和匿名的搜寻分析方法。从某种意义上说,一条查询结果就是某个或者一组条件的报告结果,这个报告让用户执行一次搜索行为。比如这样一种情况,一个用户会查询自己正在遭受的病症或者说查询的结果会反应一个人的偏见,但是在任意一种情况下这种查询到的结果,会在特定群体的语境当中发挥自身的信息功能。最近的使用案例包括搜索数据建立流感爆发的模型(Ginsberg et al., 2009),还可以让科研人员对整个美国地区的地域歧视设计出大致的衡量标准。利用这种思维方式,我们可以假设大多数搜索METLIN数据库的用户是来自和代谢组学研究相关的人群,这样一来,我们打算使用分析技术对更广泛的代谢组学研究进行调查,以此揭示出我们最常遇见的生物标记物。


生物标记物研究的潜在影响意义深远,包含诊断、预后、药物疗效研究和个性化医疗的开发。生物标记物的发现当中最有趣的一方面就是通过提高早期诊断或者患者具体诊疗方式(Davis et al., 2009)开发水平的提高,来降低整个医疗保健行业的投资成本。因此不难理解为何人们将独特的疾病特异性分子作为成百上千份和生物标记物先关的论文(Drucker andKrapfenbauer, 2013; Poste, 2011)的证据,并为此扶住了大量的精力。


生物标记物的发现加上新的高敏感度分析技术应用的重要性,已经为这项领域(Poste, 2011)贡献良多,然而,由于标准最佳做法的缺失让这些新发现的实践价值微乎其微。那些曾经发表的关于生物标记物的论文所产出的成功价值(Poste, 2011)相对很小。比如说,即使生物标记出版物每年的发行数量提高20%,但是临床生物标记的应用专利数量仍旧保持稳定的水平(Drucker andKrapfenbauer,2013)。以代谢组学为基础的生物标记物发现结果的出版物正为工作的主体带来持续稳定的贡献的同时也显示出相同的发展趋势,除了代谢组学与生俱来的筛选误差,相对而言,还是由不少基于代谢产物的测试(Xia et al., 2013)。


代谢实验,无论是使用传统的GC/MS技术(历史上第一次实验演示是在20世纪七十年代早期由Linus Pauling and Horning进行,Horningand Horning,1971;Paulingetal.,1971)来完成,还是使用现在较为先进的液-质连用((LC/MS)仪器来完成,这些实验的研究都是可以获取到对代谢物组学的综合性和定量认识。这些实验方式可以采用超过四个数量级(Patti et al., 2012)的高分辨率、高敏感度和动态范围的技术从生物样本当中检测出数千种代谢物。因此,我们极有可能很快产出具有丰富代谢物信息的数据库。


一个典型的代谢组学实验步骤包括以下几步:首先,收集每个样本组中样本的质朴相关数据。其次,用包括Metabolic profiler(Bruker)、Simca-P(Umetrics)、Markerlynx(Waters)、Mass Profiler Pro(Agilent)、MetAlign((Lommen, 2009)、MZmine(Pluskal et al., 2010)、MAVEN((Melamud et al., 2010)、MetaboAnalyst(Xia et al., 2012)和XCMS Online(Tautenhahn et al., 2012)的数据处理平台进行数据分析,以此来鉴定样本组群之间显著的变化特征。之后,通过搜索像METLIN这样的代谢产物数据库可以为这些具有很明显的市场特征的代谢物冠以一个被大家公认的定义。


METLIN是一种用于代谢物鉴定的高效平台。自从在2004年创建以来,METLIN已经成长为一个囊括240,000种代谢物的综合性平台,这些代谢物中有13,000种具有四种不同能量碰撞(SupplementaryFig. S1)的正负电离模式的MS/MS数据信息。由10,000名用户和600个原创出版物的引用让这个平台的应用指数范围很广。另外,METLIN已经将XCMS Online整合为一体,为这个基于云的数据处理平台的用户提供了代谢物的鉴定功能。


由于生物学家和生化学家将质谱作为一种探索性的工具进行大范围的使用,这让METLIN的使用(Supplementary Fig. S1)呈现出不断地增长状态。由于质谱技术使用起来非常灵敏且很容易上手,这也促进了METLIN的成长。跟进一步而言,友好的生物组学平台技术的发展以及统计工具的整合为在线数据分析技术的前进扫清了很多障碍(Gowda et al., 2014)。

如今技术的发展已将竞技场上的争逐变得更加白热化,以至于科研人员使用的工具都相差无几,这些工具大部分都是由耦合了大气压电离源或任意一种时差测距(TOF)、四级时差测距(QTOF)或者四级杆轨井道质谱分析器的液相色谱仪组成。因此,METLIN中的质谱搜索提供了可以区别对待不同代谢物的代谢组学实验。为了让搜索到的代谢物更加直观,METLIN数据库资源的搜索和检测可以测定通过百万条产寻结果获得的普遍观察的代谢物。


2.结果与讨论

使用代谢组学技术的科研人员现在正在研究关于生物领域的一些列问题,因此从METLIN产寻获取到的质谱应该可以反映这些实验的多样性。然后,由于代谢组学在某种范围内保持守恒,我们也期望找到搜索频率很高的普通失调代谢物。这个假设我们用图表1来进行评估,图表1向我们展示了大约由5,000名研究人员提交的数据库查询结果。


图表1.从一百万次METLIN代谢物数据库搜索结果创建的质谱搜索的累计次数。上图代表全球范围内查询位置的登陆地点。下面的质朴图表示返回METLIN搜索的输出总量。


有意思的是,尽管我们发现被搜索的代谢物的种类繁多,但是我们也发现实际上人们是择优进行质谱的搜索。另外,超过80%的代谢产物搜索结果都落于150到450之间的二项分布质谱范围内,与代谢组学测量的小分子一致。因为失调代谢物质谱可以通过高频进行检测,因此将会被更多地进行搜索。我们建议这种“质谱“的分布能够体现出代谢反应的守恒。METLIN当中查询频率最高的质谱是180.06。


从METLIN搜索获得的分析结果我们形成了一份质谱列表,每一种质谱曾被搜索的次数和代谢物鉴定的次数的每一次查询的返回表示他们的中性质谱(Fig. 2)。通过准确的质谱测量我们推测这个代谢物应该为葡萄糖,尽管使用数据库默认的30ppm质谱准确度查询返回总数为31的可能性代谢物。这个例子向我们描绘了一种元数据分析过程中需要考虑的含蓄的重要因素。

如果一个人希望将一种代谢产物划分为一种具体的或者非具体的信号的话,代谢组学当中通过MS/MS进行的代谢物鉴定仍旧是一种习惯性的做法。当你想试着了解代谢组学的时候,分子定性是非靶向代谢组学最具关键的一面。


为了鉴定核心代谢物,并进一步验证METLIN中搜索频率最高的假设结果与最容易出现失调的生物标记物有关联,我们也会对XCMS Online产生的元数据进行搜索。我们能够将METLIN命中列表与2000 XCMS Online实验的子数据观察得到的生物标记物进行交叉比较。XCMSOnline(xcmsonline.scripps.edu)是一个网页版的平台,它是专门为简化非靶向代谢组学实验而设计。


3.结束语

整个METLIN-XCMS数据为哪种通路最可能和压力反应以及体现具体反应具有相关性的的测试提供了机遇。比如,在METLIN中亚油酸具有很高的搜索频度,并出现在273个生物标记物背景的手抄本中,结果证实在我们的XCMS实验结果中,这是一种守恒的生物标记物。这就意味着它是一种通用标记物,适用于受各种微扰影响的很多物种守恒的压力系统。通过让这些数据可以使用,我们希望为其他的科研人员提供生物标记发现还转录的模板。



参考文献

Arab,L. (2003) Biomarkers of fat and fatty acid intake. J. Nutr., 133,925S–932S.

Bajad,S.U. et al. (2006) Separation and quantitation of water solublecellular metabolites by hydrophilic interaction chromatography-tandem massspectrometry. J. Chromatogr. A, 1125, 76–88.

Buszewski,B. and Noga,S. (2012) Hydrophilic interactionliquid chromatography (HILIC)-a powerful separation technique. Anal. Bioanal. Chem.,402, 231–247.

Chae,D.H. et al. (2015) Association between an Internet-based measure ofarea racism and black mortality. PLoS ONE, 10, 4.

Davis,J.C. et al. (2009) OUTLOOK The microeconomics of personalized medicine:today’s challenge and tomorrow’s promise. Nat. Rev. DrugDiscovery., 8, 279–286.

Drucker,E. and Krapfenbauer,K. (2013) Pitfalls andlimitations in translation from biomarker discovery to clinical utility inpredictive and personalized medicine. EPMA J., 4, 7.

Ginsberg,J. et al. (2009) Detecting influenza epidemics using searchengine query data. Nature, 457, U1012–U1014.

Gowda,H. et al. (2014) Interactive XCMS online: simplifying advanced metabolomicdata processing and subsequent statistical analyses. Anal.Chem., 86, 6931–6939.

Heiden,M.G.V. et al. (2010) Evidence for an alternative glycolytic pathwayin rapidly proliferating cells. Science, 329, 1492–1499.

Horning,E.C. and Horning,M.G. (1971) Metabolicprofiles—gas-phase methods for analysis of metabolites. Clin. Chem., 17, 802–809.

Ivanisevic,J. et al. (2013) Toward omic scale metabolite profiling: a dualseparation- mass spectrometry approach for coverage of lipid and central carbonmetabolism. Anal. Chem., 85, 6876–6884.

Lommen,A. (2009) MetAlign: interface-driven, versatilemetabolomics tool for hyphenated full-scan mass spectrometry data preprocessing.Anal.Chem., 81, 3079–3086.

Melamud,E. et al. (2010) Metabolomic analysis and visualization enginefor LC-MS data. Anal. Chem., 82, 9818–9826.

Mylonas,R. et al. (2009) X-Rank: a robust algorithm for small molecule identificationusing tandem mass spectrometry. Anal. Chem., 81, 7604–7610.

Patti,G.J. et al. (2012) Metabolomics implicates altered sphingolipids inchronic pain of neuropathic origin. Nat. Chem. Biol., 8, 232–234.

Patti,G.J. et al. (2012) Metabolomics: the apogee of the omics trilogy. Nat. Rev. Mol. Cell. Biol., 13, 263–269.

Pauling,L. et al. (1971) Quantitative analysis of urine vapor and breath bygas–liquid partition chromatography. Proc. Natl Acad. Sci. USA, 68,2374–2376.

Pluskal,T. et al. (2010) MZmine 2: modular framework for processing,visualizing, and analyzing mass spectrometry-based molecular profile data. BMCBioinformatics, 11, 395.

Poste,G. (2011) Bring on the biomarkers. Nature, 469, 156–157.

Smith,C.A. et al. (2005) METLIN: a metabolite mass spectral database. Ther.Drug Monitoring, 27, 747–751.

Spagou,K. et al. (2010) Hydrophilic interaction chromatography coupled toMS for metabonomic/metabolomic studies. J. Sep. Sci., 33, 716–727.

Tautenhahn,R. et al. (2012) XCMS online: a web-based platform to process untargetedmetabolomic data. Anal. Chem., 84, 5035–5039.

Wang,Z.N. et al. (2011) Gut flora metabolism of phosphatidylcholinepromotes cardiovascular disease. Nature, 472, U57–U82.

Weber,R.J.M. et al. (2012) MaConDa: a publicly accessible mass spectrometrycontaminants database. Bioinformatics, 28, 2856–2857.

Xia,J. et al. (2012) MetaboAnalyst 2.0—a comprehensive server formetabolomics data analysis. Nucleic Acids Res., 40, W127–W133.

Xia,J.G. et al. (2013) Translational biomarker discovery in clinicalmetabolomics: an introductory tutorial. Metabolomics, 9, 280–299.





从一百万个数据库查询中确定守恒代谢生物标记物

化学数据分析有困难?

快来扫码加联盟帮帮主个人微信

让帮主为你指点迷津






除非特别注明,本站所有文章均不代表本站观点。报道中出现的商标属于其合法持有人。请遵守理性,宽容,换位思考的原则。

点击“阅读全文”,了解详情


以上是关于从一百万个数据库查询中确定守恒代谢生物标记物的主要内容,如果未能解决你的问题,请参考以下文章

访问大熊猫数据一百万次 - 需要提高效率

处理一百万个并发套接字连接的最佳方法

程序员羽化之路--假如需要一百万个对象

树状数组。 数组修改某个元素的数值/求出前n个元素的和,需要在一百毫秒处理上百万个数字

antiSMASH数据库:微生物次生代谢物合成基因组簇查询和预测

熊猫-遍历一百万个单元格