专利深一度自然语言处理专利分析

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了专利深一度自然语言处理专利分析相关的知识,希望对你有一定的参考价值。

参考技术A   自然语言处理(NLP),是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等进行操作和加工。实现人机之间的信息交流,是人工智能界、计算机科学和语言学界所共同关注的重要问题。

  最近几年,科技巨头和创业公司相继投入资源和成本进行商业化探索。不过,除了语音和机器翻译领域之外,自然语言处理在很多方面的进展并不大。例如,句子识别主要包括识别一个句子当中的动词、名词、形容词,都是非常简单、非常基础的任务,但从2009年到2017年间,其正确率提高了不到1%,目前的正确率也只有57%。尽管自然语言处理已经成为人工智能的热门细分行业,但技术本身尚有足够的成长空间,当前仍处于早期阶段。

  基于此,国家知识产权局专利分析普及推广项目人工智能关键技术课题组从专用技术和通用技术出发,围绕专利技术发展路线和重要申请人,对自然语言处理产业进行深度剖析,以供行业参考。

深度学习推动自然语言处理专利申请量快速增长

自然语言处理专利申请趋势与技术演化路径

  自然语言处理技术从1970年左右起步,一直到1985年,年最高申请量均不超过30项。

  1985年之后,随着网络技术和计算机技术的发展,丰富的语料库成为现实,同时硬件不断更新完善,自然语言处理思潮由理性主义向经验主义过渡,基于统计的方法逐渐代替了基于规则的方法;申请量开始快速增长,至2000年,年申请量达到780项。贾里尼克和他领导的 IBM 华生实验室是推动这一转变的关键,他们采用基于统计的方法,将当时的语音识别率从70%提升到 90%。在这一阶段,自然语言处理基于数学模型和统计的方法取得了实质性的突破,从实验室走向实际应用。

  从 2008 年到现在,在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究, 由最初的词向量到 2013 年 word2vec, 将深度学习与自然语言处理的结合推向了高潮, 并在机器翻译、问答系统、阅读理解等领域取得了一定成功,年申请量从2008年的1255项增长到2016年的3057项。深度学习是一个多层的神经网络,从输入层开始经过逐层非线性的变化得到输出,从输入到输出做端到端的训练。把输入到输出对的数据准备好,设计并训练一个神经网络,即可执行预想的任务。RNN 已经是自然语言护理最常用的方法之一, GRU、 LSTM 等模型相继引发了一轮又一轮的热潮。基于这种原因,从2009年开始,自然语言处理相关专利申请迎来新一轮的增长。

中美两国是该领域最具竞争力的国家

  从申请来源国来看,中美两国是该领域全球专利产生量最多的国家,为主要的技术储备国和来源国。

来自中美两国的专利申请趋势

  在该领域,从中美两国的申请趋势来看,两国的专利申请量均呈稳步增长态势,说明两国相对重视自然语言处理技术的研发与专利储备。总体而言,虽然早期中国相对于美国存在一定的差距,但经过长期的积累,中国在2012年超越美国成为全球专利申请量最高的国家,达到526项/年;随后差距进一步拉大,中国在2016年的时候达到1668项,为美国856项的2倍。中国已经超越美国,成为全球年申请量最高的国家,并极有可能在未来几年成为全球专利储备量最多的国家。

百度进入全球前十

中国创新主体专利储备有待加强

全球主要申请人专利申请量排名

  在全球主要申请人排名中,IBM在申请量方面优势较大,属于第一阵营;微软公司申请量与IBM的申请量相比少400余件,为IBM公司的4/5,属于第二阵营;排名第三的NTT通信与第十的富士康相差不到300件,属于第三阵营。中国方面,百度为第八名,申请量为457件;中国台湾的富士康也进入了全球前十。中国创新主体专利储备有待加强。

技术迭代加速,推动自然语言处理技术快速发展

(1)深度学习助推词性标注技术快速发展

词性标注,是给自然语言中每一个词都赋予其词性标记。正确的词性标注是自然语言处理的一个基本步骤,错误的词性判断可能会导致整个句子的理解错误。

词性标注技术发展路线

  从技术发展路线来看,在1980年前鲜有关于词性标注的专利申请,在1980年至1990年间,出现了基于规则的词性标注方法,这是人们提出较早的一种词性标注方法。基于规则的基本思想是建立标注规则集,并尽可能的使该标注规则集精确,而后使用该标注规则集对待标注语料进行标注,从而得到正确的标注结果。基于规则的词性标注的缺点是针对性太强,很难进一步升级,也很难根据实际数据进行调整,在实际的使用场合表现不够好。

  1990年后,基于统计的词性标注技术得到发展,隐马尔科夫、条件随机场等模型应用到了词性标注中,全部知识是通过语料库的参数训练自动得到,可以获得很好的一致性和很高的覆盖率,基于统计的词性标注方法因此被广泛应用。但基于统计的方法也同样存在缺点和局限性,例如在建立模型参数时,需要大量训练语料,而训练语料的选择会影响到精度。

  由于基于规则和基于统计的方法在处理某些问题时都不能做到尽如人意,于是有人提出了基于规则和统计结合的词性标注方法,主要是将词典与统计模型结合,这样相结合的词性标注方法在很大程度上弥补了单一方法对标注结果的影响,最大程度发挥了基于规则的方法和基于统计的方法的优点,实际上两种方法相结合就是理性主义方法和经验主义方法相结合。

  近年来,基于人工智能的方法也应用在词性标注中。相对于前面三种方法,该方法具有适应性强、精度高的优点,来自中国的申请人在这方面的研究较多,技术爆发力较强,取得了一系列研究成果。

(2)无监督学习是词语级语义的主要发展方向,创新主体加速进入,布局各有侧重

  语义分析的目标是通过建立有效的模型和系统,实现在各个语言单位(包括词汇、句子和篇章等)的自动语义分析,从而实现理解整个文本表达的真实语义。词汇级语义分析关注的是如何获取或区别词语的语义。

词语级语义分析专利技术发展路线

  词语级语义分析有多种方式,从发展路线来看,基于词典的语义分析中,词典语义、语法结构、双语词典和Yarowsky算法已经不再产生新的重要相关专利申请。基于实例和统计模型鲜有重要专利申请;由于关键词提取技术的发展,基于义词词典的相关技术在2017年仍有相关的重点专利产生,是将来的发展重点之一。与此同时,基于无监督学习,由于不需要专门的语料库,且具有较强的可扩展性,在大数据、算法和芯片技术的推动下,将成为未来的主要发展方向。

在华词语级语义重要申请人分析

  截至2018年8月,在华申请人当中,专利申请量超过三件的申请人共有6位,排名第一位的是齐鲁工业大学,后面依次为昆明理工大学、百度、腾讯、富士通和IBM。国外来华申请人方面,IBM在1999年开始提交了基于双词典的消歧专利申请,随后分别于2011年、2014产生基于上下文首字母缩略词以及基于词袋的专利申请;富士通于2012年提交首件基于双语言的消歧技术的专利申请,随后分别于2012年、2016年提交基于组合概率和针对缩减词的专利申请。昆明理工大学在2008年提交一件基于信息改进的贝叶斯方法的消歧技术的专利申请;腾讯的相关专利申请侧重于利用词语的热度、基于文本的内容,以及基于基本词词典和短语词典领域,同时提交一件与词典构建方面有关的专利申请;百度在2012年提交第一件相关专利申请,研究方向包括多粒度词典的构建、利用用户的选择、基于歧义词消解的搜索,并在2018年提交了一件基于无监督神经网络的词语级语义分析专利申请。

  早期,清华大学、北京大学、中国科学院声学所、哈尔滨工业大学、日电(中国)、谷歌等科研院所和企业均在国内进行相关专利申请。随着技术的发展以及创新主体的重视,南京邮电大学、华东师范大学、富士康、上海交通大学也进行相关领域研究。2014年以后,苏州大学、南京大学、中山大学等高校也加入到词语级的消歧研发之中。

  值得注意的是,虽然中国申请人在各个时期均有参与词语级的消歧研究之中,但除昆明理工大学外,大部分早期实力较强的中国申请人并没有持续地提交相关专利申请。在引领词语级消歧技术发展的无监督消歧中,仅有百度提交了一件相关专利申请。

(3)基于神经网络是机器翻译发展重点,IBM积累深厚,百度加速赶超

  在20世纪40年代至50年代,机器翻译相关技术处于理论研究阶段,计算机的发明和信息论的研究为机器翻译奠定了理论基础,这段时期并没有相关专利申请提出。

机器翻译系统产业及技术发展脉络

  20世纪60年代开始,进入基于规则的机器翻译系统时代。相关专利开始零星地出现,其中IBM作为计算机领域开拓者在这一时期扮演了非常重要的角色,并积累了大量规则机器翻译系统方面的基础专利。除此之外,大学、政府研究机构是这一时期的重要组成,类似Systran系统的机器翻译产品诞生于大学实验室,并通过政府项目合作而存活并发展。

  上世纪80年至90年,是机器翻译系统逐渐成熟并走向市场的阶段,这一时期专利申请量开始爆发,并主要来自于企业。而21世纪以来则显现出互联网企业在这一领域的优势,庞大的互联网语料库及算法积累,使得谷歌、微软、百度等互联网公司超越了IBM、东芝等老牌企业,尤其是近些年来深度学习带来的技术革命,数据资源的重要性开始大大降低,具有革命性的技术近年来都来自于对系统算法框架的创新。

展望未来

  虽然美国和日本在自然语言处理领域早期积累深厚,但近年来中国加速赶超,中国已成为全球年专利申请量最高的国家,专利储备量跃居全球第二,未来的竞争主要在中美两国展开。同时,人工神经网络与自然语言处理结合,推动了词法分析、句法分析、语义分析、语言模型和知识图谱技术等通用技术的快速发展,并加速机器翻译、自动文摘,自动问答、情感分析等专用技术的落地。加大基于神经网络的自然语言处理技术的研发,有助于中国和国内创新主体实现弯道超车,抢占人工智能高地。

殷其亮 叶盛 罗强|国家知识产权局专利分析普及推广项目人工智能关键技术课题组

IPwe区块链智能池利用AI来处理专利分析


发表时间:2022年3月17日
信息来源:coingeek.com


IPwe正在使用区块链和人工智能(AI)来改进专利行业。通过使用人工智能处理专利分析,IPwe找到了一种降低成本、提高专利获取效率的方法。通过将专利转变为NFT,并允许NFT专利在基于区块链的市场上进行交易,IPwe正在为专利行业交易量的增长和透明度的提升铺平道路。

IPwe的全球商务拓展主管Lavinia Meliti表示:“我们意识到,像人工智能和区块链这样的技术可以为系统带来更优质的信息和更强的透明度。这提升了专利领域的生产力、投资和交易量。”

“IPwe已经积累了大约4000万美元的分析、投资和数据,因此我们的智能池可以提供先进的分析和数据导向的判断,帮助企业进行专利的识别、研究、评估和交易。有了我们平台上的这些人工智能工具,企业可以很容易地了解他们的专利在哪里得到了最好的利用,并收集到提升生产力所需的各种信息。”她随后补充道。

除了为区块链智能池的会员提供改善其商业创新所需的工具和资源外,IPwe区块链智能池的会员还可以免费使用区块链图书馆和区块链防御基金,后者是一个由其创始人、会员和IPwe共同管理的基金,用以阻止滥用专利的行为,并能够在世界最具创新性的区块链专利基础上进行构建,这其中包括了nChain专利组合中的1250多项专利。

“智能池以非常简单的条款向市场上大部分人群提供了知识产权。这个专利池可以让企业和个人进行创新,可以免费或以难以置信的低价获得大量的专利和专利应用。”nChain首席法务官Will Chelton介绍说。

与企业和开发者的传统技术构建过程相比,区块链智能池使得专利的寻找和获取流程成本更低、更便捷。有了IPwe,你无需去筹集资金或寻找拥有你所需技术的专利所有人,无需去支付搜寻和收购费用,也无需去协商专利费用,你只需要加入智能池,IPwe就会为你处理授权流程。

对于年收入低于100万美元的中小企业,IPwe免收会员费用;对于年收入低于1000万美元的中小企业,会员费用为每年500美元;对于收入超过100亿美元的公司,会员费用为每年22.5万美元。

IPwe与其它专利池的区别

现在世面上的专利池越来越多,这迫使企业和个人要决定哪个专利池对他们的业务最有利。IPwe让自己脱颖而出的方式是给予其创始人和会员更多的自由以及创造收入的机会。区块链智能池不要求中小企业放弃自己的创新来成为自己的会员。如果创始会员决定离开区块链智能池,他可以带走自己专利,而且与其它专利池不同的是,区块链智能池的专利会在网站上进行公开,供公众查询。

“在未来的日子里,在nChain带来的1280项专利之上,我们将再新增数千项专利,这些公司均是公认的区块链技术领导者,真正希望推动区块链应用落地并改善区块链的生态系统。”Meliti说道。

“如果有公司愿意加入区块链智能池,并将他们的专利免费提供给我们的会员,我们将十分欢迎,并非常乐意将你的知识产权添加至我们的公开列表中,以便每个人都能清楚地了解自己的承诺。”Meliti又补充道。

我为什么要为创新申请专利?

尽管开源软件非常适合独立开发者社区的成员,但它并没有提供一个清晰的商业化或创收途径。没有收入以及可以坚持到未来的计划,就很难去维持一项业务。

“如果没有投资,你就无法真正进行深度的技术创新。”Chelton说道,“你不能要求人们在没有看到某种回报的情况下去进行技术投资。区块链智能池为创始人提供了这种平衡。它可供所有人使用,但它也为那些早期进入的人带来了回报,坦白说,他们的投资很大。开源对于社区来说裨益无穷,但对于真正的深度技术创新来说,投资是必需的,投资回报率也是必需的。”

当创新被授予专利时,它就能让一个实体进行专利授权,并从自己的创造之中获得收入。

开放访问以激发落地应用

让世界接触到一些基于区块链的突破性创新,便可以在全球范围内推动区块链的落地应用。区块链智能池不会让企业和开发者负担与研发相关的法律和机会成本,而是代替创始人和会员去处理这些繁重的工作,这样他们就可以将所有的资源都投入到构建可能改变世界的平台和服务之中。

“今时今日,创新复杂又昂贵,还缺乏透明度,这在很大程度上只对世界上最富有的公司有利。IPwe正试图通过利用人工智能和区块链技术来改变这一境况,让创新变得更容易、更透明、更易获取且成本更低。”Meliti解释说。

她还指出:“知识产权的本质正在发生变化,它不再是一个你只能偶尔用作防御或进攻的武器了。知识产权现在正被用来鼓励应用落地和拓展商业机会。”


目前,全球已有超过400个项目构建于BSV区块链之上。凭借坚如磐石的协议及超高的网络性能,BSV生态系统迅猛发展,我们期待未来出现更多前所未有的商业应用。

  • 对BSV区块链开发感兴趣的朋友,可以前往我们的中文开发者专区:BSV区块链

以上是关于专利深一度自然语言处理专利分析的主要内容,如果未能解决你的问题,请参考以下文章

想了解自然语言处理技术的专利发展情况?看这里

IPwe区块链智能池利用AI来处理专利分析

中文分词及词云在专利分析中的应用

Codecs系列HEVC-SCC:IBC优化相关专利分析

人工智能之自然语言处理技术总结与展望

一、python开发的服务程序,调用钉钉接口向钉钉群推送信息的软件能申请专利吗?