腾讯算法高级研究员陈松坚:智能问答技术及其应用

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了腾讯算法高级研究员陈松坚:智能问答技术及其应用相关的知识,希望对你有一定的参考价值。

参考技术A

随着人工智能的飞速发展以及广泛落地应用,越来越多的设备将会被植入智能问答技术,人机交互场景随处可见,智能问答在未来将会成为一个非常重要的入口。

腾讯小知凭借着业界领先的智能AI引擎算法和海量大数据仓库,已将智能问答技术落地实施,并且经过大量的业务考验和优化,知识点匹配度和准确率都已达到90%以上,在2018 年 GITC 全球互联网技术大会上,腾讯小知荣获年度互联网最具价值产品奖。

腾讯小知算法负责人陈松坚也在会场发表了关于智能问答技术原理及其在To B场景下的应用的专题演讲,从自己的角度为我们展现智能问答技术的最新成果。

他首先从智能问答是什么,为什么和怎么做的三个问题出发,阐明了他对当前智能问答技术的定位和价值,首先,现阶段的智能问答是信息检索技术的升级,是量变而未达到质变。但是无论在To B还是To C的场景下,当前的技术都能够切实解决一些用户的痛点,提升用户体验,是亟待推进和充满想象的方向。

在回答怎么做这个问题时,他详细介绍了几种不同的问答机器人的实现路径,包括单轮问答机器人,多轮问答机器人及阅读理解机器人。其中重点阐述了单轮问答机器人的实现原理,包括字面匹配,词向量匹配,深度语义匹配,迁移学习等技术。

此后他还分享了小知团队将上述技术产品化的经验,包括智能客服机器人和电话机器人两大块,主要分享了当前产品的形态,亮点和实际项目中取得的一些成果。

最后,他简单总结了小知目前完成的工作以及就智能问答的发展提出了自己的几点看法。

--------------------------------------------------------------

以下是演讲稿全文:

各位下午好,很高兴今天能在这里给大家做分享报告。先介绍一下,我们腾讯小知是致力于为政府和各行业提供一揽子智能问答解决方案的团队,目前已经落地的包括基于文本的智能客服机器人和基于语音的电话机器人等。

在大多数人的认知里,智能问答很可能是以上的3个印象,2011年打败了人类取得问答竞赛冠军的waston;2017年被沙特授予公民身份的机器人sofia;更为大家熟知的钢铁侠中的机器人管家jarvis。在大家心目中,智能就意味着能够像真人一样交流。然而作为从业者,很遗憾地告诉大家,目前的技术还远没有达到这个目标,我认为本质上目前的智能问答技术是对信息检索技术的一次升级,是量变而未到质变。这个皇冠上的明珠还等待我们去摘取。

既然问答技术还不成熟,那为什么还要投身到这个领域呢。我想从To B和To C两个角度去回答。对企业来讲,当前的问答技术虽然无法解答复杂的咨询,但是大部分的简单的头部问题是可以比较好的解答的。从本轮AI大潮NLP赛道的几名种子选手都从智能客服这个方向切入就可以看出企业是确实存在对智能问答的刚性需求。而对普通用户来讲,一方面siri等语音助手每天都在为用户提供便捷的交互界面,另一方面像amazon echo这一类的智能家居产品也逐步进入千家万户,成为物联网生态的中心入口之一,这便是智能问答的价值所在。

那如何实现智能问答机器人呢?我们先来看最基本的单轮问答机器人的实现原理。

熟悉搜索引擎的朋友会发现这个架构跟搜索引擎的很类似。单轮问答一般来说就是FAQ问答,是基于业务问答对组成的问答库进行检索匹配。其中FAQ问题集包含多个相似问法供用户问题去匹配。预处理阶段一般会进行文本纠错,标准化和底层NLP特征提取;召回阶段会在倒排索引中召回若干个候选问题(粗排),而最后的匹配阶段会基于各种模型进行匹配打分并返回得分最高的结果(精排)。匹配阶段还会引入其他模块,如知识图谱和拒识模型,目的是辅助提升匹配的最终准确率。

retrieval中的匹配可以看做是naive solution,词袋+VSM, 筛选候选够用了,但是精排需要更精致的策略,第一,要利用监督信息做拟合,我们构建基于问题对的训练语料,拟合是否匹配这个二分类目标。第二,特征上抛弃稀疏的词袋模型,而是构造各种相似度来做base scorer,然后利用非线性的抗噪能力强的xgboost来做融合,比如我们用到词bigram, 字bigram, 核心词,名词等特征集合的相似度。这种方法的优缺点是一体的,由于模型只学习字面相似的特征,因此不受领域影响,通用性强,适合用在冷启动阶段;但也因为只考虑字面相似,无法处理更深层的语义匹配。

那如何度量语义的相似呢。词向量技术的兴起是语义匹配的前提,所谓词向量,是将孤立的传统的token表示映射到相互关联的向量空间中,这种关联性,或者说是相似性,是通过词语的上下文的来描述的。也就是说,上下文越相似的词语,他们的语义就越相似,词向量的欧式距离就越近。这是很容易理解的,更妙的是,通过对向量进行简单加减运算,能够呈现出概念的关系,比如king-man+woman的结果非常接近于queen, 因此说明词向量能够一定程度刻画语义。那对句子如何做向量表示呢?一个简单的想法是直接求和平均,WMD是另一个比较有意思且有效的做法,他将计算句子到句子的相似度建模成一个运输的问题,把句子p的各个词,运输到q的各个词上,也可以说是变换;运输成本是词向量的cosine相似度,而要运输的是各个词在句子中的权重,用线性规划求解一个最优解,即为p到q的距离。另外还有个有效的方法是SIF,思路是做词向量加权求和,但是突显出句子中非通用的部分,即权重用词频倒数来计算权重,实验效果也很不错。

上面的方法有一个问题就是没有利用有监督信息,所以效果有明显的天花板。下面介绍这个工作是基于深层网络做有监督学习的匹配的,做法也比较简单,首先把句子文本用one-hot编码,假如词典大小是500K,那编码完长度就是500K维,其实等于是词袋模型,然后输入到一个多层的神经网络去学习,最终得到一个128维的向量作为句子的语义表示,然后用cosine计算两个句子与文档的相似度作为模型输出。这个方法其实是将高维稀疏的token特征映射到低维语义空间,跟词向量的思路很类似,只不过训练目标不同,并且这里使用了深层网络结构。

但是CNN对上下文的处理能力依赖于窗口大小,远距离就没办法处理了,因此要考虑另一种网络单元RNN,这种单元是专门为时序模型量身打造的,简单来说,每一时刻t上的隐藏状态,或者说第t个词上的语义编码,都由两个输入共同决定,即上一时刻的隐藏状态和当前时刻的原始输入,而为了解决远距离传递导致的梯度消失和梯度爆炸等问题,RNN有一些变种结构来应对,比如 LSTM和GRU等。

CNN和RNN都是对原始输入进行语义编码的基本单元,编码后的向量就可以接入多层感知机进行相似度计算,如果是直接计算cosine相似度,那就是dssm的升级版,而更常见的做法是把两个句子的编码向量拼接在一起,再经过一个多层感知机计算相似度,而这种方法统称为表达式建模;

另一种方案考虑到两个句子之间的交互信息对学习他们是否匹配显然更为重要,这一类方案被称为交互式建模,右边是一个典型的例子,他最大的不同是首先对两个句子的所有窗口组合进行拼接和卷积,得到交互信息。然后再进行多次卷积和池化得到表示。其他的交互方式还包括编码之后,进行交互操作,如作差,点乘等,还有计算attention表示,也是常见的交互方式。

下面介绍我们的方案,跟上面介绍的模型相比,我们的方案主要做了两处改动,一个是使用了稠密连接的网络结构,让rnn层的输入和输出拼接在一起做为下一层的输入,第二个是混合注意力机制,即在计算attention向量进行交互式建模的基础上,增加self-attention向量计算,然后把两个attention向量经过门机制进行融合,这样做一方面引入了问句间的交互信息,同时又增强了对自身的表达建模。

上面的模型是比较复杂的模型,参数量有5.8M。在实际中应用中训练语料会严重不足,为了解决这个问题,我们引入了迁移学习的策略。首先第一种是多任务联合学习,比如在拟合两个问句是否匹配的同时,也对问句进行分类预测;另外还可以同时对匹配的问题对做seq2seq的翻译模型训练。这两个策略都证明能有效提升准确率。

而另一个思路更加直观,即引入其他领域的语料,所谓多语料迁移。Fine-tune即参数微调是其中一种做法,即先用通用语料训练网络,固定底层表达层的参数,然后再使用领域语料调整上层参数;另一种思路参考了对抗学习的思想,即引入一个新的任务“混淆分类器”去判别当前样本是来自源语料还是目标语料,通过在损失函数中增加反向的混淆分类损失项,让混淆分类器尽可能地无法区分样本的来源,从而保证共享了参数的表达网络能够学习到两部分语料中共性的部分。

以上的介绍都是为了完成一个基本的单轮对话机器人,而实际应用中,往往存在需要需要交互的场景,比如查询社保余额,就需要用户提供指定信息,如姓名,身份证号,手机号等。这种是所谓任务导向型机器人,而另一种,基于知识图谱的机器人也往往会涉及到多轮交互。这里简单介绍一下多轮对话机器人的架构,整体上是一个对话管理系统,总的来说是管理会话状态,包含4个模块,分别是输入部分:自然语言理解模块NLU,负责意图识别和抽取槽位实体,比如这里匹配到了意图是查询社保余额,抽取到了社保号1234。得到的意图和槽位值会送入到对话状态追踪模块,DST,他负责会话状态的更新,形式化来说是一个函数,输入是当前状态s和当前的query经过NLU处理过得到的意图和槽位值q, 输出新的状态s‘,下一步是把s’送入DPL,对话策略模块,这个模块是根据新的状态s‘输出行动a,通常这个决策选择会依赖于一个外部数据库或知识图谱,最后,由输出部分,自然语言生成模块NLG负责将行动转换为自然语言文本,返回给用户。

前面提到的单轮FAQ机器人,有一个问题是问答准确率依赖于问答库的质量,而问答库的构建耗时费力,所以针对数据较大的非结构化文档,如果可以直接从中抽取答案,是非常理想的做法。比如斯坦佛大学开源的drQA,就是基于wikipedia的语料做的一个开放域上的问答机器人,我们来看看这种阅读理解机器人的架构示意,他也是基于检索重排的思路,首先把可能的文段从语料库中摘取出来,然后送入阅读理解模型进行答案定位,打分,排序和选择得分最高的答案。阅读理解模型与匹配模型是类似的,需要先对问题和候选文段进行编码表示,不同之处在于最终预测的目标是答案的起始和结束位置。我所在的团队在去年,在阅读理解的权威公开测评Squad v1中取得过第一的成绩,同时参加这个测评的包括了google, facebook, 微软,阿里idst, 科大讯飞等国内外同行。说明业界对这种技术还是非常看重的。

下面分享小知在把以上技术落地产品化的经验。首先我们来看看小知的整体架构图,核心引擎有两部分,一块是上面重点阐述的深度语义匹配模型,另一块是本次分享没有展开的知识图谱引擎,在此之上,我们构建了FAQ机器人,多轮会话机器人(任务机器人),闲聊机器人等。以下是我们单轮和多轮机器人的示例。

在我们实际的落地项目中,得益于深度迁移模型的语义匹配能力和行业知识图谱的的精准匹配和辅助追问,小知机器人能够做到95%左右的问答准确率,并且节省了50%以上的服务人力,切实为政府和企业提升效率和降低成本。

在智能客服的基础上,我们又打造了基于语音的电话机器人,力主融合智能客服,人工在线客服,工单系统和电话机器人,为客户打造从售前售中售后的整体解决方案。

以下是电话机器人的整体架构图,核心是自然语言理解NLU模块,负责识别用户提问意图

提取相关实体。根据NLU输出的结果,内置的对话管理引擎会进行流程状态流转和跟踪。

另外,ASR语音识别和TTS语音合成是不可或缺的重要服务,这三个模块相互协作,共同完成与用户的交互。

最后对智能问答的未来发展提几点我的看法。目前学术界比较公认的一个方向是,需要更有机地结合模型和规则,而在问答领域,规则的一大组成部分就是知识图谱,包括开放领域的知识图谱和专业领域知识图谱。而更进一步地,我们需要研究带有推理性质的事理型知识图谱去描述领域内的规则和知识,让机器人能够处理带有复杂条件的问题,提供更智能的回复。在我看来,智能问答的一个突破口就在于解决以上三个问题。以上就是今天分享的内容,谢谢大家。

主讲人介绍:

陈松坚,腾讯数据平台部算法高级研究员,有着8 年的 NLP 研发经验,2017 年加入腾讯 TEG 数据平台部,负责智能客服产品腾讯小知的算法规划和落地。负责过多个智能客服项目,对封闭领域的智能问答有丰富的实战经验。

支持向量机法及其在中药研究中的应用

支持向量机法及其在中药研究中的应用



 要:在中医药现代化进程中,有效地结合现代科学技术手段对传统中医药进行更为合理的分析是一个重要研究方向。计算机科学技术与人工智能算法在中医药研究领域已取得长足发展,尤其是分类算法所具有的快速鉴别和分析能力,使其在复杂的中医药研究体系中发挥举足轻重的作用。对支持向量机分类算法及其结合其他算法在解决中医药相关领域问题方面及成果进行综述,以相关智能算法为基础探讨中医药研究过程中的诸多难题,为推动中医药现代化进程提供支撑。






中医药传承几千年,是中华文明的重要组成部分,其现代化研究虽已取得长足的进步,但仍存在许多关键性问题亟待解决。中药本身化学成分复杂,同时基原品种、产地来源、生长环境、采收季节、加工炮制工艺等诸多因素[1]形成了中药复杂多变的体系,外观相似的中药药理活性大相径庭,假冒伪劣的中药饮片常常被不法分子利用,严重影响中医药现代化的快速推进。传统鉴别手段需借助该行业相关专家以传统经验进行分析,但该方法存在着耗时长、效率低、准确率不能保证等一系列问题。人工智能算法的出现有效地解决了这一问题,同时进一步结合其他学科,发挥多学科联合应用的优势,取长补短,将大数据的分析模式与中医药整体观有机统一,可以从宏观上对中药进行综合鉴别判定分析,同时也可将之应用到符合传统中医药理论的中药配伍、中药药性药效、定性定量分析等领域,有力地推动了中医药现代化进程。

支持向量机SVM的定义及其在中药相关领域的应用

SVM作为近20年来高速发展的人工智能算法,属于二分类模型,如果数据服从某个(固定但未知的)分布,要使机器的实际输出与理想输出之间的偏差尽可能小,则机器应当遵循结构风险最小化(structural risk minimizationSRM)原则,而不是经验风险最小化原则[2]。通过事先选择的非线性映射将输入向量映射到高维特征空间,寻找最优超平面,然后在此空间中求解凸优化问题[3]SVM正是这一理论的具体实现,其中内核函数作为SVM的精髓,将原来线性不可分的样本可以在新的核空间下转变为线性可分。常见的核函数主要为线性核函数、多项式核函数、径向基核函数和sigmoid核函数。SVM的基本结构见图1,图中x1x2……xn表示的是输入变量,经过SVM内积核函数计算,不考虑变换拉伸过程中的具体映射关系,得到输出变量ySVM包括主要应用于模式识别与分类及差别分析等的支持向量分类(support vector classificationSVC)和主要用于数据的拟合并产生回归模型,用于相关预测等的支持向量回归(support vector regressionSVR[4]SVM是泛化能力很强的优质分类器,准确率也很高,SVM算法的分类作用目前主要应用于中药鉴定、中药药性、中药活性成分、中药安全性评价、药物分析、制剂工艺及中药配伍规律等研究领域。

支持向量机法及其在中药研究中的应用

1.1  产地识别鉴定研究

中药产地众多,质量参差不齐,且“一药多源”现象广泛存在,质量监控困难。而SVM算法为中药产地识别及中药鉴定研究提供了方法,已有研究以近红外光谱技术为基础,通过测定内部特征值及外部特征值,结合SVM算法,成功识别黄连饮片[5],并能快速鉴别枸杞子产地[6]。以此延伸至“内外结合”的中药质量控制新模式,实现传统“辨状论质”经验,得以现代“察外知内”的再现[7]。结合近红外光谱或者太赫兹时域光谱技术,能较为精准地鉴别中药,且具有自动识别的特点,而这种方法难以对紫外数据及中药指纹图谱数据进行分类鉴别。此外,该方法存在着缺乏对个体预测可信度的测量及整体预测准确性较差的问题。因此,欲将其更好地应用于中药鉴定领域需在其基础上进一步融合其他化学计量学方法。

1.2  中药药性研究

中药四性是中药药性理论的主要内容之一,是中药作用于生物体后出现的寒、热、温、凉4种生物效应的表征,长期指导着中医临床用药。目前对中药四性的研究主要集中在阐明其物质基础上。因此多采用药效学、药物化学等手段从药物成分结构方面寻找四性之奥秘,其研究方向也主要集中在运用现代科学技术方法预测药效成分与寒热药性的相关性。而支持向量机算法能够从初生物质这一难点入手对中药药性进行预测分析,有研究[8-9]指出通过支持向量机建立寒热药性的数学判别模型,发现游离脂成分以及多糖水解成分与中药寒热药性存在明显的相关性,可依据模型对药物药性进行判别。但要对中药药性展开进一步研究则需要将多种初生物质结合进一步分析,借助多学科的知识方可充分发掘其药性规律。

1.3  中药毒副作用研究

中药在临床应用常被认为是安全有效且毒副作用小,但随着现代科学的不断发展及研究的不断深入,类似于何首乌具有肝毒性等中药的毒副作用不断被发现,给中药的合理应用提出了新的课题,即如何准确有效地识别中药中潜在的毒性成分,建立中药安全评价方法体系。SVM凭借其强大的分类判别能力,结合外源数据库,构建合理的预测分析模型对具有潜在毒性的中药化学成分进行筛选,并在此基础上,结合系统药理学分析进一步阐明其毒性机制,在药物研发的早期阶段对化合物的毒性进行评价并将毒性较强的化合物尽早排除[10],可有效提高药物开发的效率和成功率。如在中药肾毒性研究中,有研究[11]借鉴化学药的定量-结构-活性关系(quantitative structure-activityrelationshipQSAR)模型进行检测,结果显示SVM算法在自身预测准确率方面远高于K-邻近算法。在其基础上,将肾毒化合物和无肾毒化合物转化为分子描述符,用SVM建立判别模型,用肾小管损坏模型[12]进一步判别肾毒性模型筛查结果为阳性的中药成分,其准确性较高。后将代谢组学技术结合SVM研究肾毒性小分子代谢标志物[13],设计出肾毒性判别模型,能够快速、高效地筛查中药中致毒性的成分,以及肾毒性生物标志物。此外,在山豆根[14]神经毒性成分筛选中,采取了与肾毒性成分筛选相似的处理方式,且进行了验证。在肝毒性成分[15]研究中,其模型较为复杂,以多种机器算法结合分子指纹构建的组合模型,整理出肝毒性位于前10的中药,为中药肝毒性的预测提供了合理的研究策略。在未来中药毒副作用研究过程中加强对致毒性成分的筛选判定,以达到祛除毒性成分,保留效应成分,更好地为中药临床合理用药提供技术支撑。

1.4  中药组方配伍研究

中药系多成分、多靶点作用,因此七情和合等配伍规律是中药组方基本理论体系的重要组成,但中药组方物质基础不明严重阻碍了中药配伍规律的现代化阐述。借助现代药理学的研究成果,筛选在临床上发挥作用的中药活性成分,回归预测治疗相关疾病的最佳药物配比已被证明是一条行之有效的途径。在大黄苷元治疗脑缺血配伍研究中[16],研究者采用了均匀设计-药效学验证-数学建模相结合的方法,对组分配伍剂量进行优化以阐明临床配伍量效关系,结果显示该模型能够模拟大黄各配伍组治疗脑缺血的药效预测。此外,在原有配伍剂量条件下,结合SVM算法对中药复方进行了二次开发[17],通过模型预测和实验验证,多个配伍组的药效优于原方,这项研究成果将推动中药经典名方的进一步研究开发及现有中药品种的二次开发。

1.5  中药复方制剂工艺优化和质量研究

中药制剂工艺参数的优化是决定药品质量及成本的关键因素,采用现代化科学智能算法对制剂工艺数据进行处理将会获得更精确的优化结果。在优化中药提取工艺所得到的数据集中,比较决策树和SVM算法的优劣性,结果表明决策树算法的结果可理解性较好,但SVM分类算法有更高的精度[18]。通过构建相关分类器,在总黄酮提取工艺中得到实际应用[19],其预测模型精确且泛化能力强,获得了较好的优化结果。在中药生产过程中,提取液浓度是一个非常重要但又难以测定的参数,常规检测方法主要是人工检测、离线检测,这些方法往往会造成每个批次之间具有主观差异[20]。但在线检测或线边检测是一个良好的解决方案,基于SVM建立提取液浓度的在线自适应软测量模型[21],实现了对提取液浓度的在线测量及控制,对中药生产加工的全局统筹及对物质基础动态变化规律的认识,可从根本上提高中药产品的质量[22]。如能进一步基于SVM建立中药质量标志物(Q-marker)体系的在线检测及控制,必将有效解决中药生产过程中物质传递稳定性等影响到成药质量的重要问题。同时在中药不同剂型质量分析中引入SVM算法,将为其质量研究提供更为精确的数据。如针对苦碟子注射剂的研究中[23],将受试者工作特征曲线(receiver operating characteristic curveROC)结合指纹图谱和SVM的指纹谱-ROC-SVM策略充分发挥了3者之间优势,能准确地将合格品、不合格品、高温加工样品、高照度加工样品区分开,表明该分析策略具有较强的实用性和准确性,可以进一步应用于中药注射液的监测或预测,大大提高中药注射剂的临床安全性。

1.6  中药有效成分研究

有效成分是中药治疗疾病的物质基础,而中药复方多成分在炮制、提取、浓缩、干燥、制剂加工等生产过程中,成分-成分、成分-辅料之间有可能形成非共价键形式结合的超分子体系,这也给中药物质基础研究带来了复杂性,如能阐明中药复方成分在生产过程中的结合与变化规律,将极大地推动中药药效物质基础的研究。有研究[24]建立了分类预测模型,对中药方剂在不同浓度下均形成聚集体这一现象进行了研究,精确地对中药有效成分三维结构与性质数据库的分子进行了预测,为中药有效成分研究提供了新的思路。

SVM与其他算法的结合及在中药研究中的应用

SVM作为一种传统的二分类算法,不仅能解决线性分类,还可以使用核函数有效地进行非线性分类。但由于SVM是借助二次规划求解支持向量,对大规模样本难以实施,在解决多分类问题上有困难,且由于SVM主要参数的选择能够在很大程度上影响分类性能和效果,目前参数优化缺乏理论指导[25]。因此当前针对复杂中医药体系研究往往都是与常见化学计量法相结合,以此达到分类识别预测等效果。化学计量学类似于生物计量学及经济计量学,主要使用统计学和数学工具从多元化的化学数据中提炼有效的相关信息,在探索多种中药物质相关联的数据、药材质量控制、多成分变化规律等中医药研究领域中发挥重要的作用。其本质是将复杂数据的变化删繁就简,从中提取更为有效且简洁的信息。针对中药复杂体系中具备多个特征数据的研究,多种算法交叉结合应用,主要遵循先降维,再回归,最后建模预测分类分析的原则以解决问题。

2.1  SVM与主成分分析principal component analysisPCA的结合

PCA在化学计量法中属于经典算法,主要是对特征光谱数据进行降维处理,可以在数据可视化的同时降低分类的时间成本。利用近红外漫反射光谱(near infrared diffuse reflectance spectraNIRS)法,结合PCASVM算法,在中药鉴定、中药构效关系及中药药性识别研究中得到了广泛的应用,也取得了良好的效果。PCA-SVM联用不仅能满足指标成分的筛选要求,同时能充分发挥在解决小样本数据及非线性等实际问题中的优势。

中药NIR光谱PCA-SVM鉴别模型[26]被建立并应用在6种树脂及其他类中药的鉴别过程中,实现了对中药的无损、快速鉴别。以PCA-SVM作为分类鉴别算法,结合比例-积分-微分(proportion integraldifferentialPID)算法研制了一套智能化自动检测系统,实现了对气室温度的智能控制,能够对红参、白参、西洋参、太子参、三七进行较高精度的鉴别[27],这些研究都推动了SVMPCA结合在中药鉴定学科中的应用。阐明中药产生药效的物质基础是实现中药现代化研究的关键,也是广大中药研究者长期以来努力的方向,通过计算机算法模型对活性物质进行筛选预测已被证明是一条行之有效的途径。有研究表明在活血化瘀类中药中[28-29],选取显著代表化合物空间结构的描述参数,建立了相关的定量预测模型,此方法实现了对未知中药相应性质的分类和预测,对于药物的筛选或新药的合成都具有重要的参考价值。在探讨中药红外光谱与药性的相关性研究中[30],采用PCA对中药光谱数据降维之后,选择主成分作为SVM输入变量,构建得到平性药和非平性药的识别模型,可较好地区分平性药与非平性药,为药性物质基础研究提供了一种新的研究思路。如能适当增加不同提取部位的红外数据以增加SVM计算所需要的特征变量,有可能提高中药药性的识别率。

2.2  SVM与层次分析法analytic hierarchy processAHP的结合

AHP是一种系统评价方法,常用于权重决策分析[31],属于定性与定量的结合,其计算方法有4种,即几何平均法、算术平均法、特征向量法、最小二乘法[32]。该分析方法在优化权重赋值时常可以摆脱人为主观影响,故应用广泛,已与SVM结合应用于中药方剂的优选。其具体结合思路首先利用AHP计算出指标权重,其次依权重来处理数据;最后用SVM对数据进行分类[33],两者结合能够更加全面、科学、客观地反映指标层对实验结果的影响。中药组合用药是新药研究的一个热点,根据方剂配伍理论,在中医传承辅助平台构建中药成方制剂的结构化数据库,经过AHP映射处理,在SVM模型下对方剂-疾病与方剂-证候数据集进行有效预测[34],将中医证候与中药方剂有力地关联起来,为进一步用现代科学语言阐明中医证候概念提供了支撑。

2.3  SVM与最小二乘法的结合

最小二乘支持向量机(least squares support vector machineLS-SVM)回归模型是经典SVM的改进,其算法是一种人工智能技术结合,将线性思想引入向量机,用以处理非线性问题,通过核函数降低了计算复杂性,加快了求解速度,主要应用在光谱数据的建模分析。有研究[35]对银杏叶提取物指纹图谱及其清除氧化自由基能力的训练集和测试集建立LS-SVM预测模型,能够对银杏叶抗氧化活性进行测定。并且在根据化学计量学理论建立相关预测模型时,发现中药的生物活性是复杂体系的整体作用。该模型的结合预测效果优于目前普遍单独使用的误差反向传播神经网络和偏最小二乘回归。不仅如此,凭借对指纹图谱的多维色谱数据区分和预报能力,LS-SVM得到更好的分类效果[36]。在羌活的指纹图谱研究中,并未将共有峰作为输入变量,而是将全部色谱数据进行分析处理,其预测效果优于单独采用共有峰的预测,更为重要的是这种方法的研究思路与中医药的整体观念不谋而合,是一种研究中药活性物质及确定中药Q-marker的重要方法。

2.4  SVM与遗传算法genetic algorithmGA的结合

在近红外定量分析常见的建模方法中,LS-SVM有建模速度快、优化参数少、泛化能力强等优点而备受关注[37]。而针对LS-SVM参数优化中的启发式算法则更多的被发掘应用,如蚁群算法、GA、粒子群算法等。通常情况下,因光谱数据无效数据较多,干扰信息庞杂,故如何对样本进行有效筛选,前处理是降低LS-SVM处理成本的重要条件。而基于GA的特征波长筛选可以在有效消除紫外(UV)光谱数据冗余信息的同时,保留光谱有效信息,从而降低模型的复杂度。在秦皮提取液的快速定量分析中[38],径向基核函数(radial basis functionRBF)凭借其拟合精度与预测性能均较好而非常适合作为建模函数,在其基础上进一步结合GA算法,成功地对秦皮甲素、秦皮乙素、秦皮素等进行含量测定。具体结合使用方法见图2[39]。同样在不同威灵仙[40]的代谢物分析中,GA-SVM模型显现出优秀的预测性能。

支持向量机法及其在中药研究中的应用

2.5  SVM与粒子群算法的结合

粒子群算法(particle swarm optimizationPSO)模拟鸟群捕食行为,其算法概念简单,控制参数少,易于实现,同时兼有进化计算和群智能优化的特点,通过个体间的协作与竞争,可以实现对复杂空间最优解的搜索[41],该算法不仅具有很强的全局搜索能力,而且是解决整数非线性优化、非线性连续优化和组合优化等问题的有效工具。利用LS-SVM多输入、多输出、非线性的特点,可进一步结合粒子群算法对复杂生产过程进行全局预测优化。在中药糖析出建模相关研究中,以SVM建立相关回归模型,结合多种粒子群算法对其参数进行寻优,解决模型参数较多或范围较大的问题。对山茱萸药材中多个质控指标(水分、浸出物、马钱苷和莫诺苷)的定量分析模型中[42],通过比较基于偏最小二乘回归法(partial least squares regressionPLSR)和人工神经网络(artificial neural networksANN)建立的NIR模型,得到PSO-LS-SVM模型能对山茱萸药材质量进行更为精确的控制。除在中药质量控制中的应用外,这种模型还用于建立红花[43]提取过程关键质控指标的定量分析模型。该优势在于避免使计算陷入局部最优,且容易实现,调整参数较少,因此SVM与粒子群算法相结合有可能用于解决中药从药材到制剂的动态迁移过程中Q-marker体系的研究,进一步充实中药Q-marker体系的建立与研究。本文以邵永[44]研究中的多种群粒子群算法(multipopulation particle swarm optimizationMPSO)对SVR模型参数进行优化流程举例,见图3

支持向量机法及其在中药研究中的应用

2.6  SVM与人工神经网络的结合

在中医药各相关研究领域,SVM和人工神经网络(artificialneural networkANN)作为数据挖掘算法均有非常广泛的应用。ANN是一种以生物学中神经网络为基本原理,以网络拓扑知识为理论基础,模拟人脑的神经系统对复杂信息的处理机制的一种数学模型。其实际上是一个有大量简单节点相互连接传递的复杂网络,能够进行复杂的逻辑运算的系统,具有高度的非线性、非局限性、非定性和非凸性4个基本特征[45]。有研究[46]利用基于SVM(径向基函数与多项式函数2种算法)和ANN [一对多网络(ACON)与一对一网络(OCON2种结构的网络] 对心血管疾病的中医临床信息和证候类别之间的关系进行分析,建立模型,观察其证候预测的准确性,反映一定的客观规律,实现中医诊断规范化,这也给ANNSVM结合应用在中医药研究领域提供了参考。

2.7  国外SVM与其他算法结合的研究

目前国外针对SVM的研究很多,根据数据处理难度衍生出很多相关算法的结合,但针对中药方面的先进算法却是少数,抛开各专业局限性,根据分类预测2大核心功能,如能够综合借鉴其优点,将更好地运用在复杂多变的中药领域。关于SVM有几种常见的结合:(1)多实例SVMMI-SVM[47]广泛应用于各种实际任务例如药物和图像分析。(2GA-共轭梯度(CG-SVM[48]目前用于药物动力学预测及相关毒性预测[49]。(3)特征变换和SVM的联合学习(F-SVM[50]属于扩展为联合学习非线性变换的分类器,能大幅度提高图像分类性能。(4PmSVM[51]是一种用于一般非线性核的线性回归SVM框架,实现了最高的学习速度和最高的准确性。前两者在药理学等专业有所应用,后2种方法则是SVM自身做出的改进,相比于SVM,都实现了更为精确的演算。若将其正确的引用至复杂的中医药行业,不离开分类预测的大框架下,必将加快中医药现代化进程。

3  基于SVM的中医药研究新思路

中药质量标准决定着中药的安全性与有效性,完善的质量标准将会促进中医药产业走向现代化[52]常规使用的中药质量表征方法有薄层色谱法、高效液相色谱法、气相色谱法、近红外光谱法等,但这些分析方法都存在数据集庞大且不明确、特征数据有效关联程度不够等一系列问题,尤其是近红外光谱技术的局限性,对不同类成分的研究缺乏有效分类技术手段,SVM的应用及其他分类算法的多学科交叉融合对中药质量标准研究具有重大指导意义。

中药质量应全面遵循中医药基础理论,应全面包括中药药性、药效、复方配伍及制剂加工等相关内容,才能够支撑中药现代化、规范化研究。鉴于此,结合SVM在中药相关研究领域中的应用,提出以下2种研究思路:(1)基于中药Q-marker概念[53],凭借SVM分类判别算法泛化能力强、分类预测能力强、客观真实且不需要大样本数据支撑等特点,将其融合到中药Q-marker的研究中来,有望获得更精准的Q-marker及相关质量标准,更好地推动Q-marker研究。在元胡止痛片[54]Q-marker鉴别中,以LS-SVM建立成分和功效之间的相关性模型,最终选择了3种成分(四氢巴马汀、羟乙基脯氨酸和欧前胡素)作为最小组合,既可以作为区分伪品的指标成分,又可以作为指示生物活性强度的Q-marker,成功改善该药片的质量控制。为Q-marker结合机器算法这一理念提供了有力证据,也证明基于SVM算法对Q-marker研究是一条行之有效的中药质量控制体系策略。(2)总量统计矩法具有整体、宏观和模糊分析等特点,可以对指纹图谱进行定性定量描述,是一种综合性、可量化的鉴定方法[55]。可在获得总量零、一、二阶矩等有相应意义的总量统计矩参数基础上,进一步运用SVM算法对其进行优化,有望为中药复方制剂加工过程中多成分质量迁移动态规律的研究提供支撑。在总量统计矩现有的参数体系,充分结合现代科学技术,发挥机器算法优势,进一步拓展总量统计矩的应用。

如何建立符合中医药特色的中药质量控制体系一直是中医药走向现代化的关键。SVM作为辅助中药研究的有效手段,其潜力不断被挖掘以提供更精确的数据信息。SVM算法属于有监督模式的化学模式识别方法,为新兴的人工智能技术,理论还在不断完善和发展中,具有巨大的研究潜力。SVM能够对色谱图信息进行数据化处理,使其数据整合后被计算机识别,现有研究表明其预测分类效果优于其他分类算法,为中药现代化研究提供了一个明确的方向。但目前SVM在中医药领域的应用尚存在结构不完善、结果不够精准等问题。如能将该算法与其他更多的专业算法相结合,对其进行优化,将对阐明中医药理论内涵提供逻辑更为精确的技术支持。

参考文献(略) 

来  源:杨  岩,肖佳妹,周  晋,贺福元,曾慧杰,杨岩涛. 支持向量机法及其在中药研究中的应用 [J]. 中草药, 2020, 51(8):2258-2266.

支持向量机法及其在中药研究中的应用


以上是关于腾讯算法高级研究员陈松坚:智能问答技术及其应用的主要内容,如果未能解决你的问题,请参考以下文章

腾讯高级研究员33页PPT详解构建图像识别系统的方法!

支持向量机法及其在中药研究中的应用

百分点认知智能实验室出品:智能问答中的对抗***及防御策略

论文笔记基于知识图谱的农业智能问答系统

智能聊天机器人技术研究与应用

智能聊天机器人技术研究与应用