独家张少典：从医学自然语言处理切入医疗信息化

Posted 2021-04-12 HIT专家网news

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了独家张少典：从医学自然语言处理切入医疗信息化相关的知识，希望对你有一定的参考价值。

导读

张少典在美国做了5年的自然语言处理，而国内医学自然语言处理的基础却十分薄弱，于是这就成为森亿智能最初的切入点。

【独家】张少典：从医学自然语言处理切入医疗信息化

人工智能热潮来了，资本热浪紧随其后。一批怀揣梦想的年轻创业者和他们的公司，应运而生。张少典和他创建的森亿智能，就是其中的一份子。

初见张少典，如果没有人介绍他已经是一家估值数亿元的医学人工智能创业企业的创始人，你还以为他只是一位普通的邻家大男孩；而当你已经知道他的创业身份时，又会顿感他是如此的年轻，年轻得让人有点惊讶——毕竟这是在“经验就是资历甚至资本”的医疗行业。这位1988年出生的青年专家，是美国哥伦比亚大学医学信息学博士，曾入选福布斯亚洲30位30岁以下杰出青年。

2015年，张少典带着引进自美国最前沿的医学AI产品回国，创立上海森亿医疗科技有限公司（以下简称：森亿智能），迄今不足两年。张少典的理想是，专注使用人工智能技术，帮助中国研究型医院的医生处理大量积压的数据。

医学自然语言处理的产业化机会

“我以前是搞技术的，主要做AI、机器学习，后来阴差阳错地去美国哥伦比亚大学读了医学信息学博士。”一路从学霸走来的张少典，十分低调地讲述他与医疗信息化的结缘。

在就读哥伦比亚大学时，张少典有机会尝试着把技术用到医疗。博士毕业前，他就想把所学技术用到医院，因为美国的医院信息基础设施比较好，也做了大量的数据二次利用工作，让数据辅助临床。2015年，他回国重点看了北京、上海的一些医院，“第一次看到了中国医院的HIS大概是什么样子”。

很多朋友觉得张少典的专业背景比较独特，应该回国做点事。在美国，医学界自然语言处理的学者，大都出自哥伦比亚大学医学信息学系。正是因为做过通用自然语言处理技术，同时又做过医学自然语言处理，张少典深知其中的鸿沟。“最主要的区别，就是医学领域的知识，和通用自然语言处理的内容和关联，完全不一样。”

实际上，医学自然语言处理也是这两年才开始受到关注。在美国，研究医学自然语言处理的学者，基本都是医学信息学背景，纯计算机科学背景的很难介入。张少典说，自己开始学习医学信息学的时候就感觉很煎熬。而国内目前还基本不构成医学信息学专业，面向图书情报专业居多，不是做数据挖掘处理方向。如果尝试从产业角度做些事，张少典感觉这是自己的机会。于是，就在学校组建团队，并归国创业。2016年4月，森亿智能正式成立。4个联合创始人有师弟，也有朋友。

张少典意识到，自己在美国做了5年的自然语言处理，而国内医学自然语言处理的基础却十分薄弱，于是这就成为森亿智能最初的切入点。2016年10月，第一个能够解析中文医学自然语言的模型开发完成，就遇到了预算的问题，幸运的是很快被天使投资人徐小平看中。半年多以后，森亿智能渐渐有了一些产品，比如开发健康科普知识的自动问答机器人，做了超声、MRI、CT等检查报告的阳性率判别。同时还开发了一些小模块提供给客户使用，另一方面也为包括电子病历系统公司在内的中间商提供智能化插件。2017年4月，红杉资本接触到森亿智能，立刻投了A轮。

虽然森亿智能在资本、产品方面也都有了一些积累，但是张少典始终在思考一个问题：如果只是给企业、医院提供一些小技术模块，公司核心能力变现的前景有限。显然，客户其实更愿意为完整的解决方案买单。作为年轻的海归团队，无论在产品化、还是在医院的具体应用落地方面远远不足，应该如何把产品的外延做得更好？

为了补齐团队短板，张少典适时引入更多接地气的骨干人才。他已经记不清何时认识的薛颜波——这位来自传统HIS软件企业、外表沉静的技术专家，对于落地、产品、方案化、实施都很熟悉。2017年夏，两人初步聊过后，彼此觉得互补，薛颜波正式加入森亿智能高管团队。

引入数据通用模型（CDM），从数据治理入手

面对国内医院积累下来的大量的“低价值”数据，张少典的选择是，从数据治理开始。

张少典观察到，国内产业界的信息化厂商，2015年时还停留在业务系统建设阶段，很少有人关注数据的实际应用方法。“我们就卡位，既和人工智能、医学自然语言处理学术界有联系，又和传统信息化厂商不太一样。公司的定位就在这里。”张少典说，“森亿智能既不是一个典型的人工智能公司，也不是一个典型的医疗信息化公司。”

于是围绕医学自然语言处理做一些外延，开始临床科研一体化应用的开发，其实质是一个“数据治理+应用”的平台。，这个方案首次在公开亮相。

数据治理，需要一套CDM（通用数据模型）来支撑。在张少典看来，“CDM没有什么玄妙。”即无论何种来源的数据，必须归纳在一套数据标准之下。CDM确立了一套标准表结构，将数据区分成了很多个字段，每个字段填写什么内容，都提前约定好。CDM本身没什么技术含量，真正有技术含量是形成CDM的过程必须和具体业务关联匹配。CDM本身没有一定的形态，而是不断迭代成熟的。

森亿智能为什么着重提CDM这个概念？张少典介绍，在美国CDM也是最近两三年特别火。OHDSI 是由哥伦比亚大学牵头成立的，成立的初衷在于有效应用大量临床数据支撑科研，于是它构建了一套美国当地可用的CDM。

张少典也谈到了森亿智能的产品和临床数据中心（CDR）的关系。“CDR的标准化、结构化程度不够，只是把数据‘搬’到一起，还没有真正意义上的数据治理。我们和CDR是上下游关系。有一些医院做了CDR，我们可以帮助进一步结构化、标准化，有一些医院还没有CDR，我们则直接拿EMR数据进行处理。”

中文NLP的技术壁垒和应用场景

张少典坦言，医学自然语言处理很复杂，包含一连串技术。比如一篇中文文章要实现计算机理解语义需要很多步骤。第一步是分词，然后是确定词性、句法——这就涉及到临床了，即哪些词代表药品、疾病。然后就是语义关联，判断谁修饰了谁。比如，咳嗽三日，三日就是修饰咳嗽。不仅要能识别两个词，而且必须读出二者关系。另外，由于医生对于同一个疾病有不同的说法，因此还有一个语义归一化的过程。如此多的步骤，每个步骤都是一套系统。

森亿智能从零开始，一点一点搭建这些系统。很多人问张少典，你们做机器学习，是否有一个词典？对此，张少典认为，实际上，再大的词典也难以穷尽医学术语。但是，人类往往能够在表达不规范、甚至有错别字情况下，仍然能理解语义的表达。因此，森亿智能从来不借助词典来做判断，而是通过机器学习，结合上下文来做识别和判断，实际上是模拟人脑对于语句的理解。森亿智能目前的产品，大概只有两三个模块借助了词典，其他模块都是通过机器学习来支撑，具备了模糊识别的能力。

对于同一个疾病、不同的表达，机器都能读懂，这就是归一。比如，ICD编码，医生不会按照ICD编码来写，机器能够帮助自动映射到标准ICD编码，并且能够做到90%以上的准确度，其余不到10%人工进行匹配即可。如果单独去销售这些技术，用户很难理解，必须形成解决方案。因此，森亿首先开发了科研平台方案，并且可能在以下甚至更多科研流程中一显身手：

第一个场景就是病历的检索，一般的检索是用关键字匹配。森亿智能的搜索能通过模糊识别，把所有相关的结果都检索出来。比如糖尿病病历资料，不管病历写的是“II型糖尿病病”、还是“先天性糖尿病”，甚至是“T2DM”，各种相关病历都能解析出来。

第二个场景是信息导出。原来靠医生读病历再填入表格，现在机器读完病历后，就能自动导入研究资料中，大幅度提高临床科研数据的筛选效率。

第三个场景是患者关于疾病健康常见问题的自动问答。通过机器读懂患者问题自动进行回答，大幅减少患者服务所需的人力。

第四个场景，也是目前能够实现的最复杂的工作，临床自动评分。通过抽取症状描述，根据标准化评分体系进行评分，将患者的病情量化、可视化，使医疗资源的分配更高效。

总的来说，借助医学自然语言自然处理技术，有望节省60%-80%的精力。

薛颜波还向HIT专家网演示了一个他们正在为上海某三甲医院研发的专病库，涉及到临床数据、生物样本数据、基因检测数据等。这是一个临床干预性研究系统。当在病史中发现有存在专病的特征或者出现异常时，系统会做出一些提醒，经过临床验证，就进入到临床审核决策。森亿智能数据科研平台会自动把病人的各种数据关联起来，然后进入到科研系统，进行信息自动导出，方便医生做观察、出结论。这将克服现阶段业界大部分关于数据利用的工作还是停留在“展现”、缺少“发现”的弊端。

HIT专家网∣最新鲜的医疗信息化资讯，不一样的专家视角

微信：HIT180com

投稿： public@hit180.com

商务合作：(010)82373062

以上是关于独家张少典：从医学自然语言处理切入医疗信息化的主要内容，如果未能解决你的问题，请参考以下文章

史上最全医疗自然语言理解任务基线发布！

中文医疗领域自然语言处理相关数据集经典论文资源蒸馏分享

百度全资收购医学文本挖掘公司「康夫子」 | 医疗健康周报

自然语言处理在医学领域的应用

医疗大数据分析在临床教育中的应用概况

百度ERNIE新突破登顶中文医疗信息处理权威榜单CBLUE冠军