百度AI利用NLP自然语言处理技术发力智能写作/贪心学院

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了百度AI利用NLP自然语言处理技术发力智能写作/贪心学院相关的知识,希望对你有一定的参考价值。

参考技术A 百度上线的智能写作平台集合了百度领先的自然语言处理技术(NLP)和知识图谱技术(KG),内置百度丰富的数据和素材,给您提供自动写作和辅助写作的能力,帮您全面提升内容创作效率,旨在成为最懂你的智能写作助手。

<wbr>

自动写作技术能够让机器自主的完成文章写作。当前计算机已经能够自动的撰写新闻快讯、热点组稿、春联等类型的文章。

百度自动写作的财经新闻,这类自动写作通常以结构化数据为输入,智能写作算法按照人类习惯的方式描述数据中蕴含的主要信息,非常擅长完成时效性新闻的报道任务。这种自动写作的典型例子包括地震快讯、财经快讯、体育战报等。

热点组稿写作,这类自动写作通常以海量素材为基础,按照应用需求线索筛选合适的内容,并基于对内容的分析抽取关注的信息,最后按照写作逻辑组织为篇章结果,非常擅长挖掘大数据中蕴含的分布、关联等信息。这种自动写作的典型例子包括热点组稿、事件脉络、排行盘点等。

百度 NLP 的智能春联,在这类自动写作任务中,机器基于充分的训练数据、训练模型并得到创作能力,可以根据人类的指令,产出符合特定格式要求的创作结果。这种自动写作的典型例子包括智能写诗、智能对联等。

提供领域热点事件发现、热点事件脉络、文本纠错和自动摘要能力,从素材收集、文章撰写、文章检查三个角度辅助您的创作,提升写作效率。

辅助写作的目标是为人类的写作过程提供辅助,按照人的写作步骤,辅助写作主要从四个角度提供帮助:写什么、如何写、如何写好、如何更好地分发。

<wbr>

写作之前,算法可以通过分析当前热点事件和话题,推荐适合创作的热门话题;写作过程中,算法可以提供写作素材、写作风格、写作内容建议等多角度的辅助;写作完成后,算法可以从纠错、配图、排版等多个角度提供改进建议,帮助人类作者完善写作结果。

<wbr>

1.经典自然语言生成算法

从篇章规划(写什么)—到微观规划(如何写)—再到表层实现(转换为自然语言)来逐步按照“流水线”进行生成算法。

<wbr>

2.神经网络序列生成算法

深度神经网络技术为人工智能带来的技术变革,在智能写作技术中的集中体现是神经网络序列生成算法。这种算法能够有效利用语料中包含的统计规律,按特定要求产出符合人类语言特性的文本结果。智能写诗是机器创作的常用例子,也是序列生成算法的一个典型例子。

<wbr>

在生成每一句诗歌时,关键词和上一句的信息会经过循环神经网络结构计算,作为生成诗歌中每一个字的依据。模型在学习过大量诗歌语料之后,能够具备概率统计意义上输出“像诗歌的字序列”的能力,这种能力即对应机器创作型智能写作,能够根据需求生成诗歌。

虽然机器的创作“思路”和人类有本质的不同,但是机器生成的诗歌与人写的诗歌效果相当,因此能够帮助人类分担相应的工作量。

<wbr>

标题生成是在辅助写作中有广泛的应用:完成写作之后,如果能够快速确定一个优质的标题,不仅节省作者的人力投入,也有利于写作结果的分发,让写作结果更好地触及相对应需求和兴趣的读者。

<wbr>

3. 文本分析技术

文本分析技术主要是关注作为智能写作素材的“输入”。对于各类素材,需要利用文本分析技术抽取关键词、标签、情感倾向、摘要等用于智能写作的特征。

<wbr>

文章来至:百度AI

NLP(自然语言处理)领域的现状与展望|中美AI大师巅峰对话

NLP(Natural Language Processing,自然语言处理)是人工智能的一个子领域,指机器理解并解释人类写作与说话方式的能力。


微软创始人比尔·盖茨曾经表示,“语言理解是人工智能领域皇冠上的明珠”。微软全球执行副总裁沈向洋也在2017年底的公开演讲时说:“懂语言者得天下……下一个十年,人工智能的突破在自然语言的理解……人工智能对人类影响最为深刻的就是自然语言方面”。自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。


我们究竟何时才能摘下这个“人工智能领域皇冠上的明珠”?围绕这个问题,两位自然语言处理领域的领军人物:宾夕法尼亚大学教授Dan Roth和微软亚洲研究院副院长周明给出了他们的洞察与见解。



 NLP领域发展现状如何?


早期的语言处理系统如20世纪70年代的SHRDLU,处于一个有限的“积木世界”,运用有限的词汇表会话可以较好地工作,但是当把这个系统拓展到充满模糊与不确定性的现实环境中时,则显得举步维艰。


近年来,随着自然语言处理技术的发展,出现了一批基于该技术的应用系统,例如IBM的Watson在电视问答节目中战胜人类冠军;苹果公司的Siri个人助理被大众广为测试;谷歌、微软、百度等公司纷纷发布个人智能助理;科大讯飞牵头研发高考机器人……但相比于性能趋于饱和的计算机视觉和语音识别技术,正如周明所说:自然语言处理因技术难度太大、应用场景太复杂,研究成果还未达到足够的高度。


周明认为,目前自然语言处理依然存在的主要难点有:


1、词语实体边界界定


自然语言是多轮的,一个句子不能孤立的地看,要么有上下文,要么有前后轮对话,而正确划分、界定不同词语实体是正确理解语言的基础。


目前的深度学习技术,在建模多轮和上下文的时候,难度远远超过了如语音识别、图像识别的一输入一输出的问题。所以语音识别或图像识别做的好的企业,不一定能做好自然语言处理。


2、词义消歧


词义消歧包括多义词消歧和指代消歧。多义词是自然语言中非常普遍的现象;指代消歧是指正确理解代词所代表的⼈或事物。例如,在复杂交谈环境中,“他”、“it”到底指代谁。词义消歧还需要对文本上下文、交谈环境和背景信息等有正确的理解,目前还无法对此进行清晰的建模。


3、个性化识别


自然语言处理要面对个性化问题,自然语言常常会出现模凌两可的句子,而且同样一句话,不同的人使用时可能会有不同的说法和不同的表达。这种个性化、多样化的问题非常难以解决。


Dan Roth表示:在各种专业应用中,必须要选择正确的自然语言模型,没有任何单一模型可以解决自然语言领域中所遇到的所有问题,自然语言处理没有一个可以解决所有问题的魔术盒子存在,你必须要把所有相关的知识库放进盒子里,选择对的算法,并且针对性的处理特定问题,那么这个盒子最后才有作用。这种现状加大了技术落地的难度。


2018年,我们可以期待NLP取得哪些进展?


对于自然语言处理能否在2018年涌现新进展,Dan Roth和周明也都表示出充分的信心。


Dan Roth说:“利用知识库,未来自然语言处理应用会协助企业把专业知识转成特定的自然语言处理模型。利用这些模型,自然语言处理技术就能成为很好的工具,影响更深层次的人类生活。”


周明表示:垂直领域有一定的保护门槛(比如有一些不公开的数据),在这样的领域可以做一些知识图谱的探索,还可以针对本领域特点,做一些特殊的优化和有的放矢的研究,而不是使用通用的自然语言技术。这样就可能会产生一个专业的知识图谱,以及基于专用图谱之上的自然语言理解的技术,最后提升整个领域的生产力。


此外,神经网络机器翻译、阅读理解、聊天对话、机器客服和创作辅助这些应用在今年和明年就会有很多地方普及,相关的应用场景包括搜索引擎、个人助手、语音助手、机器翻译,还有个人制作音乐,个人制作新闻、撰写网络小说、问答系统等等。


对于如何解决自然语言处理的主要问题,周明表示有三个值得尝试的方向:


第一,上下文的建模需要建立大规模的数据集。比如多轮对话和上下文理解;数据标注的时候要注意前后文。没有这样的数据,很难取得突破。


第二,强化学习很重要。我们需要根据用户的反馈倒推模型并做参数修正,使模型更加优化。现在强化学习刚刚开始用在自然语言领域,性能并不稳定,但在未来很有机会。


第三,要引入常识和专业知识,并把这些知识构建好,这样就能更加精准地回答问题。没有人能证明现在常识知识用在语言问答和搜索中的作用有多大,所以,我们需要一个测试集来检验结果。这个测试集要专门测上下文和常识,可以让我们要不停用新模型(比如强化学习或者知识图谱)去试错,来看系统性能能不能提升。


 ■ ■ 

从符号主义和连接主义的对立走向合作,从静态分析走向交互,从语法和浅层语义走向深层语义,从功能主义走向认知和情感体验……自然语言处理技术的科研创新一直精进不休,我们相信在不久的将来,机器将更加善解人意。


-End-


部分内容摘自 DeepTech深科技:中美两位 AI 大师的“巅峰对话”:为何 NLP 领域难以出现“独角兽”?

 

---------------------------------------

人工智能、大数据的前沿资讯

深度的商业内容解析

更 多 精 彩

请 先 关 注

以上是关于百度AI利用NLP自然语言处理技术发力智能写作/贪心学院的主要内容,如果未能解决你的问题,请参考以下文章

干货 | 最全面的百度NLP自然语言处理技术解析

国内知名的自然语言处理(NLP)团队

深度学习在口语评测与语法改错中如何应用?先声智能NLP技术专家徐书尧明晚直播讲解

NLP技术的进展

自然语言处理 - 思维导图

永久免费!这一次是百度自然语言处理技术