科技访谈|蔡毅:人工智能自然语言处理和文本挖掘
Posted 华南理工大学工研院
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了科技访谈|蔡毅:人工智能自然语言处理和文本挖掘相关的知识,希望对你有一定的参考价值。
本期科技访谈邀请到了华南理工大学软件学院的博士生导师蔡毅教授。蔡毅教授在人工智能、自然语言处理和文本挖掘等方面积累了丰富的经验,承担了多项国家级、省部级科技项目。
中共十九大报告高度肯定了我国互联网经济发展的成就。并确定在未来发展方向上,推动互联网、大数据、人工智能和实体经济深度融合。也就是说,在未来,互联网等相关技术将通过向各个产业的渗透,推进实体经济持续转型升级,为经济的持续增长打下良好的基础。可以预见,人工智能、自然语言处理和文本挖掘在未来的经济发展中,将扛起支撑的大旗。那么,这些关键技术的发展现状如何?国内市场规模如何?应用前景怎样?如何进行产学研合作?本期科技访谈对话,华南理工大学科技园公司董事、力华投资总经理陈粤与蔡毅老师,给您解析人工智能、自然语言处理和文本挖掘的科技进展与发展前景。
嘉宾简介
访谈嘉宾:蔡毅教授
蔡毅,教授,博士生导师,毕业于香港中文大学(CUHK)。现任华南理工大学软件学院软件技术系主任,教育部大数据与机器人智能粤港澳联合实验室主任。曾在香港城市大学从事博士后研究工作,在伦敦帝国理工学院、香港城市大学、新加坡南洋理工大学做访问学者。广东省特支计划科技创新青年拔尖人才、广东省高等学校优秀青年教师、广东省“千百十工程”培养对象、广东省优秀青年创新人才人选。
社会职务:
中国计算机学会数据库专委会委员、中文信息技术专委会委员、大数据专委会委员,中国中文信息学会社会媒体处理专委会委员;广东省计算机学会数据库专委会理事。
学术兼职:
担任多个SCI国际知名学术期刊和学术会议的评审;担任多个国际学术会议如EIDWT 2013 Social Networking and Mining Track、DaSeM 2013、2014和 SeCop 2013、2015,已经APWEB-WAIM 2018程序委员会主席。
学术成就:
申请国家发明专利8个,其中授权2个,登记软件著作权 28项。
在国际学术期刊和会议上发表三大检索收录论文80 多篇,包括国际顶级学术会议如 TKDE、Neural Network、 Decision Support Systems、Knowledge-based Systems、AAMAS、CIKM、COLING等。
获得2010年国家科学技术学术著作出版基金资助出版学术专著,由高等教育出版社和Springer出版社出版全英文学术专著2本。
主持多个国家级、省部级项目;“广东省IT服务外包人才标准”、“2012广州软件和信息服务产业地图”、“2013广州市物联网技术应用与产业发展报告”的主要制定人。
获得包括2015年第三届中国好创意大数据创新大赛冠军、2017CCF大数据与计算智能大赛一等奖、2017教育部高校大数据挑战赛亚军在内的等多个奖项。
访谈正文
陈粤:蔡老师,请您简单描述一下您所研究的方向和所从事的产业化、技术开发的方向。
蔡毅:我跟企业合作的主要研究方向是人工智能、自然语言处理和文本挖掘。详细的说,就是文本挖掘、自然语言处理、知识库构建和推荐系统这一领域的内容。
跟企业的合作主要是用文本挖掘、自然语言处理的技术,帮助企业来提高在生产经营、业务推广过程当中的效率。主要合作企业有华为、金山、深圳的任子行、DX.COM,这些都是上市企业。另外,我们跟广州汪汪信息技术有限公司合作,从事互联网金融建模、信用建模、信用评估的工作。
陈粤:那目前的相关的技术,和企业展开产学研合作及技术产业化的情况如何呢?
蔡毅:首先说文本挖掘技术。企业在经营的过程中,会产生很多人写的文本,形成很多文字资料。我们的研究就是从海量的文本数据当中抽取有用的信息,来辅助他们更快的获得知识或者经验。
自然语言处理,主要是涉及互联网用户产生的文本,比如是电商商品的评论、微博的信息评论。由于网络上人与人的交流很多时候是包含文本的。所以在自然语言处理领域,学术界有人把它称为是“人工智能皇冠上面的一颗最大的明珠”。我们做过一些网站的监控,就是根据需要监控分类的域名,通过这个技术能够动态的、实时的、自动的判断一个网站属于什么类别。
(图片来自网络) 人工智能
互联网推广,就是根据互联网上一个特定的目标,比如,微博论坛,通过自动挖掘用户画像技术,来确定跟其销售目标、企业推广目标相关的用户,从而进行精准推送。另外,包括宽范围的数据挖掘和人工智能相关的应用,比如,图片处理、文本分类、聚类、聊天、问答等,我们都跟企业有一定的合作研究。
用户画像、信用评估这个领域,目前在国内拥有比较不错的规模。我们对用户、商户的画像都做过比较大规模且深入的研究。信用评估方面,我们现在的模型都是基于海量文本,研究开发多模型融合的新技术。
(图片来自网络) 语言处理
陈粤:相关的技术,比如文本挖掘,在国际、国内的技术前沿,发展趋势,产业化方向的综合情况是怎样的?有哪些公司在做这个事情,做的程度如何?请您为我们做一下介绍。
蔡毅:总的来说,这个领域是越来越受业界重视的。在国家最新发布的这个人工智能的国家战略里面。自然语言处理被当成重点提出。在国内做得比较好的机构,有科大讯飞,他们主要是做语音处理,就是把人说的话转变成文字。但是,语音处理只是自然语言处理的一步。其实自然语言处理的难点是如何让机器能够自动地理解,并且能够处理人说的、写的文本。也就是说,在具体的应用环境当中,机器能够理解人所表达的意思,这是当今的一个难点。并且,目前没有比较成熟的产品能解决这个难点。那么,我们核心的技术,就是通过对一段文字的分析挖掘,找出这段文字当中的核心词语。比如,北京到广州的物流公司,我们能够通过关键词抽取,知道核心词语是“物流”这个词。所以,这是我们团队在自然语言处理方面的一个亮点与优势。
(图片来自于网络) 关键信息提取
另外一个难点的话呢,就是怎么样进行精准的用户画像。然后基于这个用户画像,去做信用评估,这个是我们在做的研究。目前国内国外都有人利用微博的、电商的数据去做信用评估。但是大家都觉得效果不是那么理想。所以,这一点可能是我们可以突破的空间。国内很多互联网企业,都有自己的风控模型,有自己的风控系统。但是,企业自己的模型系统的效果优劣,跟他们的数据分析能力、自然语言处理的能力、信息融合等技术都是息息相关的。
另外,互联网金融的企业也会有一些模型,大家用的数据源都是电商的、数字化平台的,外加移动运营商的数据,构成了数据的基本信息。而我们跟企业合作的时候,会采用商家的一些特定的场景信息、产品数据,这个数据是特有的,也是这个模型里面的亮点之一。
陈粤:目前国内市场当中,哪些行业拥有这些技术,取得了什么样的效果,以及有哪些公司在用同样的技术做相应的行业应用。这个也请您简单做一个综述。
蔡毅:国际、国内的大公司其实都投入了很大的资源做文本挖掘和自然语言处理的研发,比如,微软、谷歌、百度、搜狗、腾讯、华为等。这些企业都是主攻自然语言处理的技术。但是,这个领域的研究难度大、涉及的难点多、应用范围比较广、工作量大。因此,即便很多企业都在做这项研究,但是,中文的自然语言处理依然是公认的国际难题。
因此,每家机构都有各自的侧重点。比如,搜狗是跟清华大学进行产学研合作,侧重点是跟搜索相关的数据,根据用户的搜索历史来做信息检索。微软,主要是做“必应”这个搜索引擎。谷歌、百度也是做搜索引擎。国内众多研发这项技术的大公司,主要集中在搜索引擎方面,研究怎么样利用自然语言处理技术优化搜索引擎,怎么样把搜索结果做的更加精准。这些大企业的主行业是搜索引擎,因此,他们在其他非互联网行业的应用力度,并没有那么大。也就是说,自然语言处理在各个行业的应用,还有很广阔的空间,但是在搜索领域的竞争是比较激烈的。
(图片来自网络) 百度的自然语言处理
文本挖掘和自然语言处理在电商的用户画像方面应用,起步得比较晚。研究界开始研究得比较早,但是企业应用得比较晚。所以,学术界有很多的新成果,走在产业界的前面,是可以做些成果转化的。
我自己研究用户画像、企业画像、企业和个人的信用评估、基于某一个领域的知识库构建(如手机领域的、汽车领域的知识库构建)、情感分析等。我认为,在这些领域有很大的空间和高校学术界的人做产学研合作。
现在的企业逐步意识到,过去自己的研究主要是集中在跟自己业务相关的部分,没有把足够的精力放在前沿性科技的研发上。当遇到人工智能这个战略要落地的时候,很多企业就会发现自己存在短板和技术上的不足。这种情况也给我们高校的老师一个机会,将自己的前沿性成果跟企业的发展进行结合,实现成果转化。
目前来说,我自己团队跟企业的合作,大多是企业主动找上门的。他们存在实际的技术需求,需要投入人力去研究,代价是比较大的。代价主要有两方面,一方面是时间成本太高,另一方面是人工成本比较高。相比较而言,时间是更大的成本。因此,如何跟高校的成果进行有效结合,也是企业意识到的一个捷径。
高校的科研一直走在产业界的前面。高校的科研人员一般是根据自己的研究兴趣,或者是看到的学术问题,或者是可能存在的产业问题去选择研究方向。产学研结合最大的好处,就是科研选题的方向跟产业的需求能够很好的结合,促进产研双方的共同发展。
(力华投资、华工工研院)
记:《华园科技访谈》系列专访,是华南理工大学工业技术研究总院与力华投资共同举办专项访谈栏目。本栏目的内容,主要是访问华南理工大学的优秀科研人员、团队,了解他们的科研情况及成果的转化情况。一方面,公开普及相关的技术在国内外的发展情况,在行业的应用情况。另一方面,为学校的科技成果转化提供一个展示的平台。
科技成果转化 - 项目申报 - 双创服务 - 科技金融服务
10年来,为广东省各地企事业单位提供了科技服务
以上是关于科技访谈|蔡毅:人工智能自然语言处理和文本挖掘的主要内容,如果未能解决你的问题,请参考以下文章
自然语言处理 | 通过影片查看示例简单了解NLP中的文本分类