如何利用常见的文本挖掘方法去探索分子数据集?

Posted 殷赋科技

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何利用常见的文本挖掘方法去探索分子数据集?相关的知识,希望对你有一定的参考价值。

关注殷赋科技科研计算更简单!


随着大数据时代的到来,现代生活中的各个方面都正在生成越来越多的数据,整理和搜索这些庞大的数据成为了一个挑战。本文介绍了第一个与化学相关的“主题建模”的方法,将大量的分子数据集整理成不同的“化学主题”,以整理药物化学领域中的大量分子数据。


图.化学主题建模的研究过程


研究过程及结果


化学主题指的是重现一组分子中共同片段的一种模式,主题建模是为了提取文本文档集合的隐藏主题结构而开发的概率框架。


化学主题建模流程如下:


1不同片段方法的评价


对数据集的化合物进行分割是创建一个化学主题模型的首要步骤。研究利用Morgan指纹、基于路径的RDKit指纹以及BRICS片段三种不同的方法分别对数据集中的化合物进行分割,接着对分割后得到的常见片段和罕见片段进行滤除(在10%以上的分子中出现的片段为常见片段,1%以下的分子中出现的片段为罕见片段)。同时,研究者对不同分割方法及过滤操作进行了评价。实验发现,过滤操作能够大大减少主题模型的词汇量,但可能会导致丢失一些只含有罕见片段的分子。


如何利用常见的文本挖掘方法去探索分子数据集?

图.三种不同切割方法挑选出的片段示例


如何利用常见的文本挖掘方法去探索分子数据集?

表.数据集A的分子切割结果


2主题数量的选择


研究者选择有36个化学系列的数据集A进行第一个实验。用三种切割方法对数据集A进行过滤后,选择不同的参数(1-100个主题)进行建模。实验发现,当选择50~60个主题时,模型能够呈现出最好的整体召回率(recall)和精确度precisionMorganRDKit片段分割方法比BRICS方法更好。


如何利用常见的文本挖掘方法去探索分子数据集?

图.选择不同主题数目检索数据A的召回率和精确度


3化学主题模型的进一步分析


基于第一个实验的结果,研究者进行了进一步实验。将数据集A的主题数目定为60,选择经过过滤的Morgan FP碎片矩阵。实验结果显示,三分之一的化合物系列能够获得超过90%的平均召回率及精度,而最好的化学主题几乎能描述出所有分子的骨架。有趣的是,具有相同子结构的化学系列可能会共享一个主题,这将导致模型精确度甚至召回率的降低。


如何利用常见的文本挖掘方法去探索分子数据集?

图.选择60个主题并以Morgan FP方法切割分子得到的数据集A的主题模型


如何利用常见的文本挖掘方法去探索分子数据集?

图.共享主要主题的化合物系列


如何利用常见的文本挖掘方法去探索分子数据集?

图.数据集A的化学主题模型中的两个表现最佳的化学主题


4主题的稳定性


化学主题模型的稳定性对分析解释数据十分重要。研究选择构成主题最可能的片段,计算不同回合中每个主题的片段概率向量的Tanimoto相似度。


如何利用常见的文本挖掘方法去探索分子数据集?

图.使用Morgan FP切割分子时的Tanimoto相似度结果


实验表明,即使主题的组成在不同的回合下发生变化,主题的整体意义仍然保持不变。因此,可以认为该模型具有很好的稳定性,能用于分析化学数据集。


5相关化合物的化学主题


接着,构建数据集B探索不同的设置下的化学主题建模。这个数据集包含了五个不同的蛋白质靶标,每个靶标又收集了27~47个化学系列。实验选择Morgan FP方法分割分子,其余操作与之前的实验设定相同。为了将化学主题模型应用于更大的分子集,实验还对批量学习(Batch Learning)和在线学习(Online Learning)这两种学习方法的性能进行了比较。


结果表明,主题模型能够很好地探索化学系列。两种学习方法的精确度并无显著差异,总的来说,在线学习表现稍好。


如何利用常见的文本挖掘方法去探索分子数据集?

表.数据集B


如何利用常见的文本挖掘方法去探索分子数据集?

表.两种不同方法运行结果


6ChEMBL22 数据集上的化学主题建模


最后一个实验是在包含约160万个化合物的ChEMBL22数据集上进行主题建模。ChEMBL22数据集中10%的随机样本可反映整个数据集情况,所以将子采集量设定为10%,选择与之前实验相同过滤及切割方法对数据集进行处理。接着,利用在线学习的方法运行。最后,研究还对模型拟合过程及数据到模型转换的运行时间进行了评估。实验发现,建立化学主题模型的运行时间随着主题数量的增加呈线性上升趋势,而转换这些数据的运行时间则少得多。


如何利用常见的文本挖掘方法去探索分子数据集?

图.建立化学主题模型词汇表的子样本大小的确定


如何利用常见的文本挖掘方法去探索分子数据集?

图.运行时间与主题数目关系


图.ChEMBL 22 的主题模型


总结


化学主题建模能在许多方面帮助优化和分析化学数据,例如,化学主题建模能够很好地从一个分子集中检索化学系列并将主题直接映射到分子上;帮助研究人员认识到分子数据集中隐藏的结构及分子间的替代关系;当有一个针对某一特定靶标的不同系列活性分子的主题模型时,还能通过组合片段和主题来构建新分子。


但是,过滤片段的步骤可能会导致一些特定分子的遗失等都是化学主题建模面临的挑战。总而言之,化学主题建模是一个很有前景的新方法,机遇与挑战并存。


参考文献:

Schneider N, Fechner N, Landrum G A, et al. Chemical topic modeling: Exploring molecular datasets using a common text-mining approach.[J]. Journal of Chemical Information & Modeling, 2017.


以上是关于如何利用常见的文本挖掘方法去探索分子数据集?的主要内容,如果未能解决你的问题,请参考以下文章

宁波站网络爬虫与文本挖掘

文本分类 Text Classification

智能时代的教育文本挖掘模型与应用

想用R和Python做文本挖掘又不知如何下手?方法来了!

python数据挖掘——文本分析

数说用文本挖掘剖析近5万首《全唐诗》