专访香侬科技:致力于让世界听到中文NLP的声音
Posted 阿里云云栖号
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了专访香侬科技:致力于让世界听到中文NLP的声音相关的知识,希望对你有一定的参考价值。
像所有的创业者一样,香侬科技的初创团队胸怀梦想,期待有一天当人们提起香侬的时候,除了“信息论之父”,还能想起来有一家用技术在链接大千世界的科技公司——香侬科技。
新生的香侬科技选择“长在云上”
香侬科技的CTO王思宽说起企业上云的历程,“在2018年的时候,我们是一家初创公司,自己运营机房的成本太高了,我们决定要选一家云厂商,现在看来,阿里云是一个最简单也最正确的选择。”
从简单的云服务器弹性使用,到数据库服务,后面香侬又在ECS上面自己搭了 K8s。随着业务进一步发展,阿里云的架构师提出了进一步降低IT运维成本的方案,香侬也直接采用了阿里云的AKS。
王思宽说,“从我角度上来看的话,阿里云的优势还在于服务——响应非常及时,技术交流也比较完善,阿里云对于我们的需求能很快给出答案;其次是云功能的学习支持很省心,随着云服务的不断升级完善,功能越来越强大,对于企业方来说存在学习用云的时间成本,阿里云丰富的学习资源给了我们很大的支持。”
启航于情怀,坚定于信仰
初次见到李纪为,是在人工智能小镇,香侬科技位于杭州的新办公区。说起他的标签,很多人可能会知道 “斯坦福计算机用时最短毕业博士”、“《麻省理工科技评论》35岁以下科技创新35人”、“《福布斯》30位30岁以下精英”等等。但是,相比起炫酷的title,他个人显得低调得多,比起一家企业的CEO,更像是一个研究型学者。这位年轻的创业者,是克劳德·香侬的直系弟子。2012年李纪为从北京大学毕业,赴美学习生物工程,后来转向学习人工智能,并入学斯坦福大学,师从Dan Jurafsky(斯坦福大学计算机系教授、语言系主任),而Dan正是香侬的学生。
潜心前沿AI技术,创造文字社会价值
2017年底,李纪为回国,拉上了自己曾经的同窗,成立香侬科技,开始了NLP(自然语言分析)领域的创业。
关于公司名字的由来,李纪为说,这来源于对信息论和其创始人香侬的信仰。读博期间,他曾仔细拜读过香侬划时代的研究论文「Prediction and entropy of printed English」,这是现代NLP很多理论的来源和基础。出于对这位NLP先导的崇拜,公司便由此命名了。
2018年,香侬科技在阿里云实现上云第一站,用数字科技陪伴企业成长。
在整个人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。就计算机应用而言,85%左右都是用于语言文字的信息处理。自然语言处理,就是用计算机对自然语言的形、音、义等信息进行处理,对字、词、句、篇章进行输入、输出、识别、分析、理解、生成等的操作和加工。
自然语言处理在我们生活中是怎么应用的呢?
其实,NLP已经在我们的日常生活和工作中随处可见并发挥着重要的作用。小到我们常用的翻译软件、搜索引擎、聊天机器人,都是通过NLP技术让机器去了解我们的诉求,再通过运算处理,反馈给我们想要的答案;大到在金融、司法、政务、工业、传媒等行业领域,也在使用这项技术去处理纷繁复杂的文档文件,从海量文字中更便捷、快速地获得精准信息。
那么,NLP技术是怎样实现这些应用的呢?香侬科技创始人李纪为举了一个形象的比喻:就像是一位小学生通过学习基础知识和训练学习方法,达到了大学生的水平,掌握了这些理论与操作技能后,投身到各行各业去工作。通过一定时间的工作实践与加强学习,他成长为某一垂直领域的“小专家”,过硬的技术加之行业经验的积累,便使他在所属行业中游刃有余。用技术的思维来简单概括,就是用算法搭建起一个“大学生”模型,通过垂直领域小样本数据的不断训练,便掌握相关的知识和能力,成为高效、优质的生产工具。
李纪为用香侬旗下的智能写作产品——火龙果写作做了示范:一名网络小说作者完成基本的框架与前期内容铺垫后,系统可以根据当前写作内容去理解和分析文章类型和主旨,自动推荐相关写作素材;小说完成后,还可以帮助作者进行语法纠错、事实性核查、上下文一致性核查、标点格式检查等一百多种类型纠错核查,不放过任何差错;当创作陷入瓶颈时,能够根据当前内容,自动生成原创情节进行续写。除了文学创作以外,该产品也可以根据关键信息描述,辅助创作不同风格的文体,例如学术风格、公文风格、社交媒体风格等,俨然是一位文字写作的多面手。
据悉,火龙果写作已成为众多学生党、文字工作者的首选“智能助理”,仅用一年时间,注册用户实现了1500%的高速增长。
近些年,自然语言处理发展迅速。2017年,谷歌提出了全新的自然语言处理模型架构——Transformer;2019年至2020年,大规模预训练模型BERT与GPT相继被提出,大规模预训练模型构建于Transformer模型架构之上,能够利用海量的无标注语料完成预训练,从语料中建立对文本的感知并实现知识提取,在几乎所有自然语言处理下游任务中取得显著的效果提升。大规模预训练成为深度学习模型提升效果的必要模块,也是当前AI领域最为火热的研究对象。,但针对中文的自然语言处理研究依然薄弱。
“相比于英文,中文语言的理解要复杂得多。同样的一个字、一个词、一句话,表达的语境不同,表达的方式不同,都可能存在各种不同的含义,曾经人工智能的自然语言处理算法都是利用西方的技术为模板,基于罗马字符的语言,而中文是象形文字,经过漫长的历史发展,它每个字符的造型、读音、含义都可能蕴含着深刻的意思”。“我们之所以开始做这个事情,也是想既然在中国做这个事情,就要把中文领域的研究发扬光大!中文作为世界使用语言第二大的语种资源,它的前景肯定是更广阔的。”李纪为认为,NLP是一个广阔的市场和空间,需要更多的发展和合作,才能把生态做起来,谈及未来计划,李纪为说,未来希望能进一步推动“更懂中文”的新一代自然语言处理基础研究,打破理论和实践之间的壁垒,继续在更多原创性、创新性、实用性问题中深耕、研究,加强人才培育与产学研生态建设,对提升中文自然语言处理研究在国际话语体系中地位多做一些工作。
2018年,新生的香侬科技选择了“长在云上”。
香侬科技,提供以语言理解核心的产业AI技术
香侬科技正在做的事情——提供以语言理解核心的产业AI技术。见微数据、舆情监控系统、智能文档处理平台、智能问答引擎、智能化数据治理平台在金融、司法、政务、新闻出版、教育各个行业遍地开花,面向企业、金融机构、政府等行业提供一站式舆情数据知识加工服务。
持续且大量的人工神经网络计算的深度学习场景,香侬使用了阿里云推荐的GPU实例及AMD实例。搭配对象存储OSS,在数据层面互相打通,海量训练数据的低成本存储和访问要求得到了满足;通过EMR服务进行数据的预处理,分析效率得到了提升;通过云监控服务进行GPU资源的监控与告警,整个过程更加安全稳定;通过ECS、负载均衡、弹性伸缩、资源编排资源的支持,香侬科技快速在云端搭建了完整AI深度学习业务系统。
从2018年到现在,香侬发布了50多篇顶会论文、70多项核心专利;建模中文的独有特征,融入中文字形与拼音信息;提出基于机器阅读理解的实体关系联合抽取方法,取得世界最优结果;基于机器阅读理解的命名实体识别方法,大幅超越之前世界最优结果;基于大规模图神经网络的语义理解模型,结合图结构与预训练,大幅提升模型语义理解能力。在自然语言处理、深度学习、知识图谱等领域……香侬依托多个自主知识产权领先技术,打造了以自然语言处理为核心的全流程智能计算平台。
2021年7月,香侬科技为杭州市余杭区人大办开发了“余杭区人大建议智能分发平台”,仅0.35秒就可以完成原本人工3分钟的信息处理工作,总用时从原本人工处理的8小时工作时间缩短到5分钟,准确率达到了90%以上,极大提高了余杭区人大的议案处理效率和服务能力。
2022年1月,香侬科技拿到了北京市专精特新资质。
香侬科技的未来之路
关于“下一代人工智能”
2018年以来,随着深度学习的大范围应用,关于“下一代人工智能”即将到来的讨论一直没有停止过。但在李纪为看来,这个讨论似乎为时过早。“下一代是怎么定义的呢?”他提出了这样一个问题。
在他看来,目前我们还是处在技术的“窄域时代”,人工智能在我们规定的内容里面,进行舒展、布局、与润色。但是未来的某一天,我们终将会突破窄域,进入“宽域时代”,是一个非常值得期待的景象。
创新上云,助力中文NLP更强
从创业到今天,距离香侬科技成立已经四年整了,从三个人到几百人,李纪为坦言,最难的不是开始,而是现在和未来。从“一人吃饱,全家不饿”到仍在壮大的团队和客户数量,每一步走小了都是不进则退,走大了都是对未来和趋势的预判,风险与机遇并存,肩扛所有员工和客户的信任,责任重大。
这个“难”,是每一个创业者共同的心路历程。无论是“元宇宙”还是“下一代人工智能”,他们没有想那么多,选择一个赛道既是兴趣所在,也是看到它其中的商业能力。香侬更加在意的在自己的行业领域里专门研究一些最顶尖科技,靠团队的力量去研究一代技术或者去推广一代技术,把最新研究的成果找到一个场景实现突破,真正地造福社会。
谈起最初的创业选择,用李纪为自己的话来说就是:自己的代码变成实际应用是每一个技术人的理想。“把研究模型变成现实工具,科学不是陈在纸上的,要有实际的过程应用。”
阿里云与香侬:数字科技陪伴企业成长
数字科技陪伴企业成长,从2018到2022,阿里云底层技术与产品与香侬一路前行,现在,这条路还会继续走下去。
本文为阿里云原创内容,未经允许不得转载。
以上是关于专访香侬科技:致力于让世界听到中文NLP的声音的主要内容,如果未能解决你的问题,请参考以下文章
香侬科技独家对话斯坦福大学计算机学院教授麦克阿瑟天才奖得主Dan Jurafsky...