实话实说：中文自然语言处理的N个真实情况

Posted 2021-04-12 自然语言处理房室瓣

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了实话实说：中文自然语言处理的N个真实情况相关的知识，希望对你有一定的参考价值。

按语

中文自然语言处理，目前在AI泡沫之下，真假难辨，实战技术与PPT技术往往存在着很大的差异。目前关于AI或者自然语言处理，做的人与讲的人往往是两回事。

作者简介

Liu Huanyong，就职于中国科学院软件研究所，专注金融、情报两大领域，从事事件抽取、事件演化、情感分析、事理（知识）图谱、常识推理、语言资源构建与应用等研发工作。目前主持研发自然语言处理技术开放平台数地工场、大规模实时事理知识学习系统学迹、全行业因果链查询与溯源项目寻链系统，并在智能金融、智能情报落地中负责实施了多个项目。

一些实话

深度学习在自然语言处理当中，除了在分类问题上能够取得较好效果外（如单选问题：情感分类、文本分类、正确答案分类问题等），在信息抽取上，尤其是在元组抽取上基本上是一塌糊涂，在工业场景下很难达到实用水准。
目前各种评测集大多是人为标注的，人为标注的大多为干净环境下的较为规范的文本，而且省略了真实生产环节中的多个环节。在评测环节中达到的诸多state-of-art方法，在真实应用场景下泛化能力很差，大多仅仅是为了刷榜而刷榜。
目前关于知识图谱的构建环节中，数据大多数都还是来自于结构化数据，半结构化信息抽取次之，非结构化数据抽取最少。半结构化信息抽取，即表格信息抽取最为危险，一个单元格错误很有可能导致所有数据都出现错误。非结构化抽取中，实体识别和实体关系识别难度相当大。
工业场景下命名实体识别，标配的BILSTM+CRF实际上只是辅助手段，工业界还是以领域实体字典匹配为主，大厂中往往在后者有很大的用户日志，这种日志包括大量的实体信息。因此，生产环节中的实体识别工作中，基础性词性的构建和扩展工作显得尤为重要。
目前关于知识图谱推理问题，严格意义上不属于推理的范畴，最多只能相当于是知识补全问题，如评测中的知识推理任务，是三元组补全问题。
目前舆情分析还是处于初级阶段。目前舆情分析还停留在以表层计量为主，配以浅层句子级情感分析和主题挖掘技术的分析。对于深层次事件演化以及对象级情感分析依旧还处于初级阶段。
Bert本质上仅仅是个编码器，是word2vec的升级版而已，不是无所不能，仅仅是编码能力强，向量表示上语义更为丰富，然而大多人都装糊涂。
学界和业界最大的区别在于，学界以探索前沿为目的，提新概念，然后搭个草图就结束，目光并不长远，打完这一战就不知道下一战打什么，下一战该去哪里打，什么时候打，或者打一枪换个阵地再打。而业界，往往面临着生存问题，需要考虑实际问题，还是以解决实际问题为主，因此没必要把学界的那一套理念融入到生产环节中，要根据实际情况制定自己的方法。
利用结构化数据，尤其是百科类infobox数据，采集下来，存入到Neo4j图数据库中，就称自己建立了知识图谱的做法是伪知识图谱做法。基于这类知识图谱，再搞个简单的问答系统，就标榜自己是基于知识图谱的智能问答，实际上很肤浅。
知识图谱不是结构化知识的可视化（不是两个点几条边）那么简单，那叫知识的可视化，不是知识图谱。知识图谱的核心在于知识的图谱化，特点在于知识的表示方法和图谱存储结构，前者决定了知识的抽象表示维度，后者决定了知识运行的可行性，图算法(图遍历、联通图、最短路径)。基于图谱存储结构，进行知识的游走，进行知识表征和未知知识的预测。
物以稀为贵，大家都能获取到的知识，往往价值都很低。知识图谱也是这样，只有做专门性的具有数据壁垒的知识图谱，才能带来商业价值。
目前智能问答，大多都是人工智障，通用型的闲聊型问答大多是个智障，多轮对话缺失，答非所问等问题层出不穷。垂直性的问答才是出路，但真正用心做的太少，大多都是处于demo级别。
大多数微信自然语言处理软文实际上都不可不看，纯属浪费时间。尤其是在对内容的分析上，大多是抓语料，调包统计词频，提取关键词，调包情感分析，做柱状图，做折线图，做主题词云，分析方法上千篇一律。应该从根本上去做方法上的创新，这样才能有营养，从根本上来说才能有营养可言。文本分析应该从浅层分析走向深层分析，更好地挖掘文本的语义信息。
目前百科类知识图谱的构建工作有很多，重复性的工作不少。基于开放类百科知识图谱的数据获取接口有复旦等开放出来，可以应用到基本的概念下实体查询，实体属性查询等，但目前仅仅只能做到一度。
基于知识图谱的问答目前的难点在于两个方面，1）多度也称为多跳问题，如姚明的老婆是谁，可以走14条回答，但姚明的老婆的女儿是谁则回答不出来，这种本质上是实体与属性以及实体与实体关系的分类问题。2）多轮问答问题。多轮分成两种，一种是指代补全问答，如前一句问北京的天气，后者省略“的天气”这一词，而只说“北京”，这个需要进行意图判定并准确加载相应的问答槽。另一种是追问式多轮问答，典型的在天气查询或者酒店预订等垂直性问答任务上。大家要抓住这两个方面去做。
关系挖掘是信息抽取的重要里程碑，理解了实体与实体、实体与属性、属性与属性、实体与事件、事件与事件的关系是解决真正语义理解的基础，但目前，这方面，在工业界实际运用中，特定领域中模板的性能要比深度学习多得多，学界大多采用端到端模型进行实验，在这方面还难以超越模版性能。

以上是关于实话实说：中文自然语言处理的N个真实情况的主要内容，如果未能解决你的问题，请参考以下文章

R语言：朴素贝叶斯算法实现对中文垃圾邮件的分类

自然语言处理——词向量词嵌入

记录真实想法，在路上不断前行——关于工作，学习，职场

森亿创始人张少典:我们把自然语言处理技术用在医学领域，教会机器阅读病例论文文献等医学数据(附:采访视频)

c语言中值滤波问题？

通俗理解n-gram语言模型