人工智能在医药行业的应用
Posted c++服务器开发
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了人工智能在医药行业的应用相关的知识,希望对你有一定的参考价值。
生物技术领域存在大量的炒作都集中于革命性药物发现上。毕竟,过去十年是该领域的黄金时代。与之前的十年相比,2012年到2021年这段时间批准的新药增加了73%–比之前的十年增加了25%。这些药物包括治疗癌症的免疫疗法、基因疗法,当然还有科威德疫苗。从这些方面可以看出制药业做得很好。
但其呈现的趋势也越来越令人担忧。药物发现的成本和风险正变得令人望而却步。截至到当前,新药推向市场的平均费用在10亿至30亿美元,平均时间在12至18年。同时,一种新药的平均价格已经从2007年的2千美元飙升到2021年的18万美元。
这就是为什么许多人把希望寄托在人工智能(AI)(如统计机器学习)上,以帮助加速新药的开发,从早期目标识别到试验。虽然已经利用各种机器学习算法确定了一些化合物,但这些化合物仍处于早期发现或临床前的开发阶段。人工智能彻底改变药物发现的承诺仍然是令人兴奋但尚未实现的承诺。
什么是人工智能?
为了实现这一承诺,理解人工智能的真正含义就显得至关重要了。近年来,人工智能这个词已经成为相当热门的词汇,没有多少技术含量。那么,什么才是真正的人工智能?
人工智能,作为一个学术领域,从20世纪50年代起就已经存在了,随着时间的推移,分支成各种类型,代表不同的学习方式。佩德罗-多明戈斯教授在《算法大师》一书中对这些类型进行了描述(他称它们为 “部落”):连接主义者、符号主义者、进化主义者、贝叶斯主义者和模拟主义者。
在过去的十年里,贝叶斯主义者和连接主义者受到了公众的广泛关注,而符号主义者则不同。符号学派在进行逻辑推理的规则集的基础上,创造出真实的世界表征。符号人工智能系统没有其他类型的人工智能所享有的巨大宣传,但它们拥有其他类型所缺乏的独特而重要的能力:自动推理和知识表示。
对生物医学知识的表现
事实上,知识表现的问题正是药物发现中最大的问题之一。现有的数据库软件,如关系数据库或图形数据库,很难准确地表示和理解生物学错综复杂的问题。
药物探索所表述的问题很好地说明了要为不同的生物医学数据源(如Uniprot或Disgenet)建立统一的模型。在数据库层面,这意味着创建数据模型(有些人可能把这些称为本体),描述无数复杂的实体和关系,如蛋白质、基因、药物、疾病、相互作用等之间的关系。
这就是TypeDB,一个开源的数据库软件,旨在实现的目标–使开发者能够创建高度复杂领域的真实表现,计算机可以利用它来获得洞察力。
TypeDB的类型系统是基于实体关系的概念,代表了TypeDB中存储的数据。这使得它足以捕捉复杂的生物医学领域知识(通过类型推理、嵌套关系、超关系、规则推理等),使科学家获得洞察力并加速药物开发时间。
一家大型制药公司的例子说明了这一点,该公司使用语义网标准为一个疾病网络建模奋斗了五年多,但在迁移到TypeDB之后,仅用三周时间就成功实现了这一目标。
例如,一个用TypeQL(TypeDB的查询语言)编写的、描述蛋白质、基因和疾病的生物医学模型看起来如下:
define
protein sub entity,
owns uniprot-id,
plays protein-disease-association:protein,
plays encode:encoded-protein;
gene sub entity,
owns entrez-id,
plays gene-disease-association:gene,
plays encode:encoding-gene;
disease sub entity,
owns disease-name,
plays gene-disease-association:disease,
plays protein-disease-association:disease;
encode sub relation,
relates encoded-protein,
relates encoding-gene;
protein-disease-association sub relation,
relates protein,
relates disease;
gene-disease-association sub relation,
relates gene,
relates disease;
uniprot-id sub attribute, value string;
entrez-id sub attribute, value string;
disease-name sub attribute, value string;
关于一个完整的工作实例,可以在Github上找到一个开源的生物医学知识图。这是从各种著名的生物医学资源加载数据,如Uniprot、Disgenet、Reactome和其他。
有了存储在TypeDB中的数据,你可以运行查询,问一些问题,如:哪些药物会与SARS病毒有关的基因相互作用?
为了回答这个问题,我们可以使用TypeQL中的以下查询。
match
$virus isa virus, has virus-name "SARS";
$gene isa gene;
$drug isa drug;
($virus, $gene) isa gene-virus-association;
($gene, $drug) isa drug-gene-interaction;
运行这个将使TypeDB返回符合查询条件的数据。并可以在TypeDB Studio中可视化,如下所示,这将有助于了解哪些相关药物可能值得进一步调查。
通过自动推理,TypeDB也可以推断出数据库中不存在的知识。这是通过编写规则来完成的,这些规则构成了TypeDB中模式的一部分。例如,一个规则可以推断出一个基因和一种疾病之间的关联,如果该基因编码的蛋白质与该疾病有关。这样的规则将被写成:
rule inference-example:
when
(encoding-gene: $gene, encoded-protein: $protein) isa encode;
(protein: $protein, disease: $disease) isa protein-disease-association;
then
(gene: $gene, disease: $disease) isa gene-disease-association;
;
然后,如果我们要插入以下数据:
TypeDB将能够推断出基因和疾病之间的联系,即使没有插入到数据库中。在这种情况下,以下关系基因-疾病-关联将被推断出来。
match
$gene isa gene, has gene-id "2";
$disease isa disease, has disease-name $dn; ;
(gene: $gene, disease: $disease) isa gene-disease-assocation;
通过机器学习加速目标探索
有了TypeDB对生物医学数据(符号)进行表示,再加上机器学习的上下文知识就可以让整个系统变得更加强大,从而增强洞察力。例如,可以通过药物探索管道发现有希望的目标。
寻找有希望的目标的方法是使用链接预测算法。TypeDB的规则引擎允许这样的ML模型执行,该模型通过推理推断对事实进行学习。这意味着从对平面的、无背景的数据学习转向对推理的、有背景的知识学习。其中一个好处是,根据领域的逻辑规则,预测可以被概括到训练数据的范围之外,并减少所需的训练数据量。
这样一个药物发现的工作流程如下
1. 查询TypeDB,创建上下文知识的子图,利用TypeDB的全部表达能力。
2. 将子图转化为嵌入(embedding),并将这些嵌入到图学习算法中。
3. 预测结果(例如,作为基因-疾病关联之间的概率分数)可以被插入TypeDB,并用于验证/优先考虑某些目标。
有了数据库中的这些预测,我们可以提出更高层次的问题,利用这些预测与数据库中更广泛的背景知识。比如说:什么是最有可能成为黑色素瘤的基因目标,这些基因编码的蛋白质在黑色素细胞中如何表达?
用TypeQL写,这个问题看起来如下:
match
$gene isa gene, has gene-id $gene-id;
$protein isa protein;
$cell isa cell, has cell-type "melanocytes";
$disease isa disease, has disease-name "melanoma";
($gene, $protein) isa encode;
($protein, $cell) isa expression;
($gene, $disease) isa gene-disease-association, has prob $p;
get $gene-id; sort desc $p;
在TypeDB Studio中可视化的结果,可以显示这个基因编码的蛋白质在结肠、心脏和肝脏中的表达:
结论
世界迫切需要创造治疗破坏性疾病的解决方案,希望通过人工智能的创新建立一个更健康的世界,在这个世界中每种疾病都可以被治疗。人工智能作用于药物探索仍处于起步阶段,但是如果一旦实现将会让生物学释放出新的创新浪潮,并使21世纪真正成为属于它的纪元。
在这篇文章中,我们看了TypeDB是如何实现生物医学知识的符号化表示,以及如何改善ML来为药物探索做出贡献的。在药物探索中应用人工智能的科学家们使用TypeDB来分析疾病网络,更好地理解生物医学研究的复杂性,并发现新的和突破性的治疗方式。
人工智能在医疗行业中的应用
如火如荼的人工智能行业正在世界范围内蓬勃发展,特别是谷歌公司的Alpha Go程序战胜了围棋界的顶尖高手,令世人看到了计算机在人类擅长的领域也有一定的思维演绎能力。伴随计算机运算能力的飞速提升和人工智能领域的算法的不断改进,之前处在实验室阶段的Demo,正逐步变得实用,有些工作岗位甚至被淘汰,但同时也衍生出了人工智能在各行业交叉学科的工作岗位。本文从几个方面浅谈人工智能在医疗行业的应用。
- 人工智能在医疗电子病历系统中的应用
对于国内的医疗机构来说,医生在患者就诊过程中必须填写检查诊断信息,这对接诊量大的医生来说是一个非常繁重的劳动,以至于有的医生很反感写病历,天书病历也由此诞生。随着电子病历的推广,使得医生在规范化方面更进一步,但是这要求医生熟练使用相应的电子病历软件,对于年轻的医生来说不算太重的负担,这些医生都是伴随中国互联网发展成长起来的新一代,但是对于老一辈的医生,对电子病历系统很生疏,经常是医院的制度要求迫使老医生花费大量时间耗费在电子病历的输入上。有些年轻的医生为了应付差事,将其他患者的病历拷贝过来,稍作修改为下一个患者的病历诊断信息,这表面上提高了工作效率,但是也存在着极大的隐患,有的医生在对拷贝的信息进行修改了,往往遗漏了很多关键信息,甚至患者的姓名和性别都忘记修改。为了进一步减轻医生在电子病历上耗费的时间,电子病历厂商研发出了各种科室的输入模板,并且禁止两个患者之间的病历信息拷贝,从源头上堵住了医生随意复制粘贴电子病历的可能。从原理来说,电子病历厂商的目的是解决了医生的病历填写规范性的问题,但是医生从手写大量的文字转移到了选择大量结构化的菜单,有的病历模板选择项目非常多,医生的劳动强度并没有因此减轻。
传统的软件厂商往往为了解决医生的一个问题,引入了另外的一个问题,整个软件系统臃肿不堪,叠床架屋式的解决方案只能使得问题复杂化。病历数据必须准确、清晰和完整,但同时医生填写病历的劳动强度必须减轻,所以语音录入系统由此诞生了。语音录入系统仅仅需要医生口述患者病情,即可将语音转换成文字填写到病历系统中。语音输入的速度比打字的速度快很多,平均每分钟可以录入200以上的汉字。语音录入系统也面临着两个问题:首先,使用者的口音问题和环境噪声对语音识别的准确率有非常大的影响,如果先用语音录入填写完成一份病历,然后再用键盘方式进行修订,总共所花费的时间比只用键盘方式录入花费的时间还长;另外一个问题是医疗术语的复杂性,有的医疗术语没有统一的发音,尤其是遇到中英文混排时,情况变得异常复杂。好在现在的深度学习和自然语言处理混合处理技术能够比较好地解决上述两个问题。在北京协和医院,北京云知声地语音录入系统已经在全院推广,在某些科室反馈还不错。
2. 人工智能在医疗图像识别中的应用
现代医疗科技的一个显著特点就是引入了其它领域的技术作为辅助的诊疗手段,例如:X光,超声检查、核磁共振检查等等,这些检查手段有一个共同特点,都需要医生根据仪器采集到的图像数据判断患者的病兆情况。国内的三甲医院面对众多的患者,需要医生在段时间内对每一个患者的影像数据作出快速、准确的判断,这不仅考验医生的眼力,对快速诊疗技术的要求也越来越高。目前在医疗行业的图像识别主要集中在静态图片的判断推理上,这需要大量的医疗图片和医疗标准,前期的准备工作量非常大,国内目前还处于起步阶段,离实用化还有一段距离。另外,最关键的动图识别,人工智能在这方面也处于积累数据阶段。
3. 人工智能在医疗信息系统自动化中的应用
医院是一个相对封闭的系统,所有的医疗数据都是内部孤岛共享,亟待人工智能技术进行发掘,医院内部采用的各种信息系统由多家厂商开发完成,很难进行集成。语音识别技术让医生可以通过语音命令调用信息系统中的菜单,进行各种输入和操作,这特别适用于医院需要多人协助的操作,比如超声科、外科手术等操作环境,尤其是超声科。通常在超声科室,主治医生在操作设备时,一边查看实时的图像信息,一边播报看到的图像信息,由另外一名助手完成关键信息的录入。如果通过全语音操控,则可以节省人力成本,提高处理效率。
以上几点就是人工智能技术在医疗行业遇到的常见解决方案,后续还会再补充。
以上是关于人工智能在医药行业的应用的主要内容,如果未能解决你的问题,请参考以下文章