森亿创始人张少典:我们把自然语言处理技术用在医学领域,教会机器阅读病例论文文献等医学数据(附:采访视频)

Posted 长城国际健康论坛

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了森亿创始人张少典:我们把自然语言处理技术用在医学领域,教会机器阅读病例论文文献等医学数据(附:采访视频)相关的知识,希望对你有一定的参考价值。

导语


让机器读懂临床病历最大的挑战在于医学术语的专业性;对于普通人而言,阅读一篇人民日报上的文章没有任何难度,但当阅读一篇医学影像报告时就显得不着边际。举个简单的例子,真实病历中的一行描述“无腹壁静脉曲张,腹部柔软,无压痛反跳痛”,对于机器而言,要准确的解析这句话里到底有哪些症状而没有哪些症状,必须要有非常精准的判断力。另外,不同医生在书写病历时,描述同一种情况可能会采用多种不同的语法,机器要完全读懂病历需要进行同义词的理解。上述这些都是医学自然语言处理技术的难点。 在2017第八届长城国际健康论坛上,森亿创始人张少典介绍了他的创新创业项目,即如何让机器读懂病例和医学文献。以下根据现场演讲速记整理,已经本人审阅。


森亿创始人张少典:我们把自然语言处理技术用在医学领域,教会机器阅读病例、论文、文献等医学数据(附:采访视频)



主持人:今天我们有幸请到请森亿智能创始人张少典,来和我们分享“让机器读懂临床病历”。

     

张少典:大家好,我是森亿智能创始人兼CEO张少典,今天和大家分享的主题是“让机器读懂病历”。首先,容我简单介绍一下我的个人背景,我是技术背景出身,一开始在上海交通大学ACM班研究人工智能领域,后来在哥伦比亚大学攻读博士期间踏入医学领域研究医学信息,专攻自然语言处理、机器学习人工智能在医疗领域的应用。其次,容我对公司的情况简单介绍一下,我们的投资方包括红杉资本及中电健康基金,中电健康基金是由中电数据服务有限公司为培育健康医疗大数据产业生态体系而发起设立的,我们现在是健康医疗大数据产业发展国家队核心数据治理和人工智能的供应商之一。

    

回到今天和大家分享的主题“让机器读懂病历”,这个题目看上去可能有些难以想象,但其实就是医学自然语言处理技术。其实自然语言处理技术在我们日常生活中处处可见,譬如大家常用的搜索引擎、百度翻译,或者是苹果上的Siri,背后都是依靠自然语言处理技术实现的。医学中大量的数据都以文本的形式存在,把自然语言处理技术用在医学领域,能够教会机器阅读病例、论文、文献等医学数据。

 

森亿创始人张少典:我们把自然语言处理技术用在医学领域,教会机器阅读病例、论文、文献等医学数据(附:采访视频)

  

让机器读懂临床病历最大的挑战在于医学术语的专业性;对于普通人而言,阅读一篇人民日报上的文章没有任何难度,但当阅读一篇医学影像报告时就显得不着边际。举个简单的例子,真实病历中的一行描述“无腹壁静脉曲张,腹部柔软,无压痛反跳痛”,对于机器而言,要准确的解析这句话里到底有哪些症状而没有哪些症状,必须要有非常精准的判断力。另外,不同医生在书写病历时,描述同一种情况可能会采用多种不同的语法,机器要完全读懂病历需要进行同义词的理解。上述这些都是医学自然语言处理技术的难点。

    

医学自然语言处理技术的应用领域很广泛,例如自动化的患者问答、数据结构化、知识挖掘、决策支持,或是临床科研等都需要依靠医学自然语言处理技术做为支撑。应用医学自然语言处理技术最著名的例子就是IBM沃森。它能够解析患者病历并依据匹配程度,结合大量Pubmed上与疾病相关的医学文献,做出适合该患者的诊疗意见。但IBM沃森是以英文为载体,基于英文病历、文献上运行,引进国内在本土化的过程中势必面临挑战。

    

首先会遭遇的问题就是数据质量。假如医生在书写病历的时候描述不准确,解析出来的信息也同样不准确;另外由于中文的语言学特征,中文语言整体的精炼性和信息压缩程度比英文要高得多,这些都是我们之前完成医学自然语言处理本土化过程中遇到的挑战。

    

医学自然语言处理的步骤像是一条流水线包含了很多的工作,首先就是分词:英文词和词之间是有空格的但中文没有,所以要先进行分词。在分词完成了命名实体识别后,下一步就是进行语义关联的识别。总体而言整个流程就是把信息进行提炼,抓取信息之间的关联,并且对其进行标准化、规范化的处理。举例来说,经过处理后,无论诊断名称写的是心梗、心肌梗塞、心肌梗死或是MI,机器都能知道是同一种的疾病,这是非常重要而且非常考验技术的一个步骤。

    

在大数据概念盛行的当下,其实医院里积压的大量文本数据在未完成后结构化前都无法真正的投入应用。后结构化以往都是依靠医生人力进行,过程相当枯燥也非常耗时费力;而应用医学自然语言处理技术去完成这些繁琐的工作,在准确度与医生不相上下的前提下效率提高了非常多,关于这点我们已有许多的案例可以佐证。

    

另外病历里提取出信息以后,对于书写相对不规范的信息,我们希望机器能自动进行标准化。应用得最成熟的是ICD诊断编码自动纠正,对于医生所录入的非标准诊断名称,我们已经实现能让机器自动转换为标准的诊断名称并且给予正确的ICD编码,这项技术不管对于病案室或是医院管理都非常有帮助。这项技术的背后,其实就是运用自然语言处理技术解析医生书写诊断背后医学上的逻辑来完成。

 

  

最后一个应用案例就是自动化的患者问答,我们已经为上海一妇婴在内的多个客户完成了这个应用的上线,背后的原理也是应用自然语言处理技术解析患者问题后自动回复标准化的答案,这也是“让机器读懂医学文本”应用的一个场景。

   

 谢谢大家!


(本文为长城国际健康论坛原创,转载请注明来源。)


森亿创始人张少典采访视频:



论坛相关信息视频:




以上是关于森亿创始人张少典:我们把自然语言处理技术用在医学领域,教会机器阅读病例论文文献等医学数据(附:采访视频)的主要内容,如果未能解决你的问题,请参考以下文章

一文详解常见医学自然语言理解任务和算法

自然语言处理在医学领域的应用

自然语言处理与医学从语言中提取精神特质来防治心理疾病

历史上的今天8 月 28 日:微软联合创始人控诉苹果谷歌等众企业侵权;人工智能医学领域先驱出生

饶军:Apache Kafka的过去,现在,和未来

医学图像处理