专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四中国科讯

Posted 中国科讯

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四中国科讯相关的知识,希望对你有一定的参考价值。



自2016年英国人工智能公司DeepMind研发的AlphaGo击败人类职业围棋选手以来,全球对于人工智能的关注不断升温,相关技术研发不断突破,技术应用愈发广泛,世界经济社会的发展进程受到深刻影响。就像人工智能科学家吴恩达说的那样:“人工智能就是新电力。很难想象有哪个行业不会被人工智能所改变”。在此背景下,客观揭示人工智能领域典型技术的发展态势和创新格局、呈现人工智能技术的应用现状、对比全球各国围绕人工智能技术的技术布局差异,对于开展人工智能技术研发、指引宏观决策具有现实意义。


专利文献是技术创新成果的重要载体,能够有效反映技术研发的进展和趋势。因此,本系列报告从专利分析的角度出发,针对人工智能领域的五项典型技术和应用——机器学习、自然语言处理、计算机视觉、语音处理、AI芯片——分别开展分析,以期为我国人工智能技术研发和决策提供支撑和启发。




本文是系列报告的第四篇,针对自然语言处理进行专利分析,揭示全球自然语言处理相关专利的布局态势和竞争格局。


本文所采用的专利数据来自INCOPAT专利数据库,数据范围为全球范围内优先权年在2000年及其之后布局的发明专利和实用新型专利,检索日期为2020年6月4日,最终通过简单同族合并后共获得专利80,647项并开展分析。


1.技术概要及分解


自然语言处理是人工智能的一个重要应用领域,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。它的主要目的是克服人机对话中的各种限制,使用户能用自己的语言与计算机对话。自然语言处理的发展大致可以分为三个阶段,如图 1所示。

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

▲图1 自然语言处理方法和技术发展历程[1]


第一阶段:20世纪50年代到70年代。一般认为1950年图灵提出的“图灵测试”是自然语言处理思想的开端。这个阶段自然语言处理主要采用基于规则的方法,即研究人员认为然语言处理的过程和人类学习认知一门语言的过程是类似的,人类可以通过整理语言规则教会机器理解自然语言。但是,这种方法的缺点在于,首先人类不可能穷举所有语言规则,另外基于规则的方法要求开发者对于语言学具有一定的知识储备。因此这个阶段虽然能解决一些简单问题,但是无法从根本上将自然语言理解实用化。


第二阶段:20世纪70年代至2008年。随着互联网的迅猛发展,语料库不断丰富完善,基于统计的方法替代基于规则的方法成为了自然语言处理方法的主流。在这个阶段,基于数学模型和统计方法的自然语言处理取得了实质性突破,开始逐步走向应用。


第三阶段:2008年至今。由于深度学习技术在图像识别和语音处理上不断取得更优效果,研究人员开始考虑将深度学习技术应用到自然语言处理中。2008年美国NEC研究院采用将词汇映射到一维矢量空间方法和多层一维卷积结构去解决词性标注、分词、命名实体识别和语义角色标注四个典型的自然语言处理问题并取得了更优效果。2012年Google公司提出Word2vec词向量模型,更为有力的推进了深度学习与自然语言处理的结合。随后,机器翻译、信息抽取、人机对话、阅读理解等一系列自然语言处理任务均在深度学习技术引入后取得了更为准确的效果。当前,深度学习技术已经成为了自然语言处理最为常用的方法。


自然语言处理的目标是教会计算机理解自然语言。一般认为,自然语言理解有5个层次,分别是:语音分析、词法分析、句法分析、语义分析和语用分析。由于语音处理目前已经发展成为比较独立的研究体系,因此本系列报告会对语音处理进行单独分析,本部分的自然语言处理不包括语音处理的相关专利,仅包括词法、句法、语义和语用的相关专利。同时,为了更细致地揭示技术发展情况,本文参考世界知识产权组织发布的自然语言处理技术分解体系[2]对于自然语言处理进行了技术分解,技术分解表如表 1所示。


表 1 自然语言处理技术分解表

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】


以下从自然语言处理技术及其典型分支技术两个层面分别开展分析,力求较为全面地展示自然语言处理技术目前的专利布局态势和创新格局。


2.自然语言处理技术整体专利分析


(1) 专利布局整体态势


图 2展示了自然语言处理技术的专利布局年度趋势、技术布局优势国家和技术布局优势机构。


可以发现,自2000年以来,全球自然语言处理技术的专利布局呈现先平稳增长后爆发式增长的趋势。2012年之前年度专利布局数量在2000项左右,2012年之后,增长幅度显著提升,年度增长量在1,000项左右,在2018年年度专利布局数量达到最大,数量为8,986项。由于专利从申请到公开有一定时滞,2019年的数据可能略小于实际数据,但是也能反映出自然语言处理技术专利布局的活跃程度。


从布局国家层面看,全球自然语言处理专利的主要布局国家是中国、美国、日本和韩国。中国在自然语言处理方面的专利布局数量居全球首位,与排名第2的美国的专利数量均在2万项以上。美国位列第二,布局67,763项,日本和韩国分别排在第三和第四位,布局数量分别为9,300项和5,180项。其它国家的专利布局数量均在1,000项以下。



专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

▲ 图2 自然语言处理专利布局整体态势


(2) 技术优势国家专利申请趋势分析

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

▲ 图3 全球专利布局TOP 10国家专利布局年度分布


图 3展示了全球TOP10专利布局国的专利布局年度分布。可以发现,TOP10国家围绕自然语言处理技术的专利布局均整体呈现持续布局和增长态势。中国的增长幅度最为显著,且保持持续增长态势,2018年布局专利数量达到5,623项。排名第二的美国同样呈现增长态势,但其增长幅度较中国略慢,在2017年的专利布局数量最高,为2,197项。日本的自然语言处理专利布局较为持续稳定,年度专利申请量一直保持在500项左右。韩国在2010年之前也建立了一定技术专利储备,之后呈现小幅度增长趋势。其它国家的专利年度布局数量相对较少,但是也呈现一定的增长趋势。各个国家在2019年的专利数据均较低,这可能是由于专利申请到公开的时滞造成的。


(3)全球优势机构专利申请趋势分析

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

▲图4 全球专利布局TOP 10机构专利布局年度分布


图 4展示了全球TOP10专利布局机构的专利布局年度分布。可以发现国外机构的专利布局起步较早,在2010年之前就已经形成了一定的专利储备,且持续保持较为稳定的专利布局,而我国机构的专利布局基本是在2010年之后才开始的,但是专利布局增长速度极快,尤其是中国平安公司特征最为明显,在2018年布局了303项自然语言处理类专利,较之上一年度增长了4.7倍,这在一定程度上证明了我国企业对于专利布局重视程度的提升。


(4)有效专利分析


专利具有法律属性,有效专利持有情况能够更有效地反映目标对象当前的技术实力。表 2展示了自然语言处理技术TOP 10技术布局国家的有效专利占比全球排名情况。可以发现,专利数量排名和有效专利数量存在差异。专利布局量排名第2的美国有效专利占比排名全球第一,专利布局量排名第4的韩国有效专利占比排到第2,而专利布局量排名第1的中国有效专利占比排名全球第14,这种现象可能是由于我国近三年申请的大量自然语言处理专利仍旧处于审查阶段所导致。


表2 TOP 10技术布局国的有效专利占比排名

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】


进一步对TOP10技术布局机构的有效专利占比全球排名情况进行分析,如表 3所示。可以发现TOP10技术布局机构的有效专利占比排名并不靠前,表现最好的是谷歌公司,排在全球第6位。中国的三家公司(百度、腾讯和中国平安)的有效专利占比排名相对靠后,均在第15位之后。


表3 TOP 10技术优势机构的有效专利占比排名

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】


为了更好地揭示有效专利占比较高地技术布局机构,进一步对有效专利占比TOP 10机构进行分析,如表 4所示。可以发现美国的公司占据绝对优势,排名前9位的公司均是美国公司,包括亚马逊、脸谱公司、纽昂斯通讯公司、雅虎、甲骨文、谷歌、苹果公司、IBM、微软公司。日本的NTT公司排名第10位。我国没有公司进入有效专利占比TOP 10机构清单。


表4 有效专利占比TOP 10机构清单

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】


(5)近三年专利[3]分析


专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

▲ 图5 近三年专利申请优势国家和机构


(6)四方专利[4]分析

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

▲ 图6 四方专利申请优势国家和机构


一般从专利权人对技术重视程度的视角考虑,认为“四方专利”更具重要性。图 6展示了自然语言处理技术四方专利申请的优势国家和机构。可以发现,专利布局总量排名前3位的中国、美国和日本仍旧占据四方专利申请国家的前3位,但是次序有所调整,中国从第1位下滑到第3位,四方专利申请量仅为排名第2的日本的41%。这表明我国围绕自然语言处理技术的国际专利布局力度有待加强。


从机构角度来看,四方专利优势机构仍旧以美国机构表现更为突出,排在第1和第2位的分别是微软和谷歌。日本进入TOP20机构名单的公司数量最多,共有9家公司,分别是索尼、松下、日本电气株式会社、富士通、东芝、丰田、佳能、日立、NTT。我国仅两家公司进入TOP20机构名单,分别是阿里巴巴公司和百度公司,排在第5和第6位。此外,还有韩国三星、荷兰飞利浦、法国ALCATEL(阿尔卡特公司)和汤姆逊许可公司。



3. 自然语言处理典型分支技术专利分析


(1) 技术构成分析


图 7展示了自然语言处理各分支技术的专利布局情况。可以看到通用自然语言处理技术的专利数量最多,为41,494项。其次是机器翻译和语义学,专利布局数量分别为16,958项和10,823项,其余技术分支的专利数量均在10,000项以下。由此可知,机器翻译和语义学是自然语言处理专利布局的主要技术方向。此外,情感分析、形态学、自然语言生成技术的专利布局数量在1,000项左右,专利布局相对较弱。因此,以下选择机器翻译和语义学作为典型子技术开展进一步的分析。

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

▲ 图7 自然语言处理各技术分支专利布局数量


(2)典型技术分支各国专利布局及有效专利占比分析


针对机器翻译和语义学的专利布局国家和有效专利持有情况进行分析,如表 5和表 6所示。从数量上看,机器翻译技术方面美国布局专利及持有有效专利均最多,分别为5,913项和3,096项,较排名第二的中国有明显优势;语义学方法中国布局专利及持有有效专利均最多,分别为6,341项和1,246项,但是排名第二的美国有效专利达到1,226项,因此中国有效专利持有情况优势并不显著。在有效专利占比方面,机器翻译美国占比52.36%,较中国的24.12%具有显著优势;语义学方面美国有效专利占比同样优势明显,占比达到43.4%,而中国仅为19.65%。


表 5 机器翻译专利布局优势国家及有效专利占比

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】


表 6 语义学专利布局优势国家及有效专利占比

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】


(3)典型技术分支优势机构专利及有效专利分析


进一步对机器翻译和语义学的专利布局优势机构和有效专利持有机构进行分析,如图 8和图 9所示。IBM和微软在这两项技术的专利布局数量和有效专利持有数量均排在全球机构的前两位,具有明显技术优势。我国机构表现方面,机器翻译技术我国机构表现并不突出,TOP20机构中仅百度和腾讯公司排在第13和18位;语义学方面,我国机构初步建立一定的技术优势,专利布局量TOP20机构中国机构有13个,有效专利持有数量TOP20机构中中国机构有9个,比较有代表性的是百度公司在两个指标上均排在全球第三位,中国科学院分别排在第6和第4位。

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

▲图8 机器翻译和语义学专利布局量TOP20机构


专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

▲图9 机器翻译和语义学有效专利持有量TOP20机构


(4)典型技术分支近三年专利分析


图 10和图 11展示了机器翻译和语义学近三年专利申请的国别和机构分布情况。与自然语言处理技术整体情况保持一致的是,中国在这两项技术的近三年专利申请量均居全球首位,且较第二名的美国具有较大优势。与有效专利布局情况不同的是,我国机构在机器翻译技术方面的专利布局近三年有显著提升,百度和腾讯分别进入TOP20机构名单的第2和第3位,科大讯飞、北京搜狗科技发展有限公司、语联网(武汉)信息技术有限公司、深圳市沃特沃德股份有限公司、北京分音塔科技有限公司、湖南本来文化发展有限公司、昆明理工大学、中译语通科技股份有限公司、传神语联网网络科技股份有限公司9家公司也进入TOP20榜单中;同样在语义学方面的专利布局也有所提升,中国平安和百度分别进入TOP20机构名单的第2和第3位,此外还有腾讯、中国科学院、阿里巴巴、科大讯飞、浙江大学、中山大学、广东小天才科技有限公司、国家电网公司、京东、清华大学、南京邮电大学、北京神州泰岳软件股份有限公司、北京奇艺世纪科技有限公司、北京航空航天大学、华南理工大学15家机构也进入TOP20榜单中。但是美国的IBM公司在这两项技术上仍旧具有显著优势,均排在全球首位。

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

▲图10 机器翻译近三年专利申请情况分析


专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

▲图11 语义学近三年专利申请情况分析


(5)典型技术分支四方专利分析


进一步对机器翻译和语义学的四方专利布局情况进行分析,如图 12和图 13所示。从国家方面看,美国是这两项技术四方专利的主要布局国家,较排名第二的国家具有较大优势,中国的机器翻译四方专利排名全球第4,语义学专利排名全球第2,日本分别排名第2和第3位。从机构角度看,国外机构在两项技术的四方专利布局方面具有较大优势,美国的微软和谷歌公司表现尤其突出,机器翻译方面中国仅百度、华为进入TOP20榜单,语义学方面中国仅百度、小米、阿里巴巴进入TOP20榜单。

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

▲图12 机器翻译四方专利布局情况分析


专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四【中国科讯】

▲图13 语义学四方专利布局情况分析


4. 结论与分析


本报告面向揭示自然语言处理专利布局态势的客观需求,基于全球范围内2000年以来布局的自然语言处理专利数据,从整体技术和典型分支技术两个层面,从全部专利布局情况、有效专利持有情况、近三年专利布局情况以及四方专利布局情况四个角度,对自然语言处理的专利布局情况进行分析,得到如下结论:


(1)自2000年以来,全球自然语言处理技术的专利布局呈现先平稳增长后爆发式增长的趋势,尤其在2012年之后,增长幅度显著提升。


(2)全球自然语言处理专利的主要布局国家是中国、美国、日本和韩国,其中中国的专利申请增长幅度最为显著,且保持持续增长态势,日本的自然语言处理专利布局较为持续稳定。


(3)有效专利方面,美国的自然语言处理有效专利持有量全球最高,中国的有效专利占比相对较低,占比排名全球第14位。


(4)中国在近三年的专利申请占据绝对优势,共申请15,092项,是排名第二的美国的申请量的3.3倍,其中中国平安、百度、腾讯、阿里巴巴、中国科学院等公司表现抢眼。


(5)四方专利方面,美国和日本的机构优势明显,美国的微软和谷歌排在TOP20机构名单的第1和第2位,日本共有9家公司进入TOP20机构名单,我国仅阿里巴巴公司和百度公司进入其中,国际专利布局有待加强。


(6)分支技术方面,除通用技术外,机器翻译和语义学是自然语言处理专利布局的主要技术方向,情感分析、形态学、自然语言生成技术的专利布局数量相对较少。


(7)机器学习技术方面,美国布局专利、持有有效专利以及四方专利申请均占据全球首位,但是中国近三年围绕该方向的专利布局显著提升,具有较大的成长潜力。


(8)语义学方面,我国机构已初步建立一定的技术优势,且近三年的专利布局稳步推进,但是在国际专利布局方面与美国相比仍有较大差距。


中国科学院文献情报中心

吕璐成,张博,王燕鹏,赵亚娟,钱力,厉曈曈

2020年8月5日


[1] 2018自然语言处理研究报告[R].清华大学计算机系-中国工程科技知识中心.2018年。

[2] WIPO技术趋势:人工智能[R].世界知识产权组织.2019.

[3] 本报告的近三年专利是指在2017年、2018年、2019年向专利管理部门提交的专利申请。

[4] 本报告的“四方专利”指同时在中国专利局、欧洲专利局、日本专利局、美国专利与商标局提交专利申请的发明创造。

中国科学院文献情报中心立足中国科学院、面向全国,主要为自然科学、前沿交叉科学和高技术领域的科技自主创新提供文献信息保障、战略情报研究服务、公共信息服务平台支撑和科学交流与传播服务,同时通过国家科技文献平台和开展共建共享为国家创新体系其他领域的科研机构提供信息服务。

长按二维码>自动识别> 添加关注!

转载授权、合作、投稿事宜请在本文留言!

近期文章推荐

↓↓↓点击标题即可查看

中国科讯App

长按下载手机客户端

随时随地查阅文献,体验更多学术功能

以上是关于专利情报 | 自然语言处理-人工智能领域典型技术及应用专利分析之四中国科讯的主要内容,如果未能解决你的问题,请参考以下文章

思齐塾 |考学攻略-日本情报学の自然语言处理 #2

浅谈AI领域涉及神经网络模型的专利权利要求的撰写策略

想了解自然语言处理技术的专利发展情况?看这里

想学习人工智能?先掌握自然语言处理!

强势入局,区块链专利将成为银行下一个战场?

自然语言处理五年技术革新,快速梳理 NLP 发展脉络