NLP(自然语言处理)公司的坠落与重生

Posted 祥晖资本

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP(自然语言处理)公司的坠落与重生相关的知识,希望对你有一定的参考价值。

近日一篇“拯救AI独角兽:人工智能产业集体进了ICU”引发热议,文章作者从几家AI独角兽折戟IPO之路的新闻出发,认为AI企业即将迎来“全线崩溃”,把一些表面现象无限放大,刺激了行业内的焦虑情绪。现实中的AI公司真的不值一提吗?行业中目前面对着怎样的问题?问题的本质是什么?本文尝试给出一个角度的解答。


01


当下NLP类AI公司的普遍问题

NLP与CV在商业落地层面的显著区别

与CV方向的AI公司早早挖掘了自动驾驶、医疗影像、安防监控等应用领域中的富矿所不同的是,NLP方向的AI公司选择了一条最艰难的登山之路,云知声、思必驰、优必选等典型的NLP公司一早就确定了语音识别与交互、语义理解等核心技术作为其商业化的起点,期待能够像隔壁的CV类AI公司一样,建立好原始的算法模式,引入大量的数据跑起来,并不断迭代升级算法的准确性,但CV技术本身立足于端到端的卷积算法,与自然界的图形天生存在着内部结构上的一致性,海量数据的导入自然能够大幅度提高算法在描述上的精确度。另一方面,从CV领域在应用层面的要求来看,算法对图形的判断不必达到可理解性的高标准,只要在统计学上达到一定水平就可过关。
反观NLP,首先开发一款能够在各种场景下适应各类方言的语音识别产品就足够申请成千上万个专利了,市面上仅针对这一应用就囊括了几乎全部的互联网巨头、独角兽企业参与,研发周期长、研发投入大。而到了下一层的语义理解,随着Bert、Transformer、GPT-3的成熟,工业界逐渐注重预训练模式的参数规模及其训练质量,同时对训练数据的多样性、算力成本控制也有极高的要求,但是在新的算法支持下,也已经有SOTA表现的产品逐渐落地——到了这一步,NLP公司显然已经实现了“自然语言理解”的应有之义,但作为需求侧的要求而言,实现具备可理解性的通用人工智能才是对NLP公司的发展期待,但困难的是,从DNN到GPT-3,深度学习的预训练模型仍然是黑箱式的,并没有在与可理解性对应的认知能力天梯上晋级,遑论在多模态、多轮对话的应用场景下实现超越语境的逻辑抽象、演绎能力,而这一般是考察通用人工智能之图灵测试的主要内容。  
场景&流量&内容
回归到应用层面,当下NLP公司的基本发展模式,仍紧紧围绕数据、算法、算力三个支柱展开,在三大支柱的支撑下,向下游客户交付定制化的AI解决方案。目前竞争激烈的下游场景包含电商语音客服、车厢内的语音交互、金融保险风控AI、法律审判与咨询AI、游戏AI等等。为了商业利益计,在现有端到端的技术框架下,三根支柱中数据的价值被无限抬高——因为主流算法都是来自于DeepMind、OpenAI等欧美商业研究机构,算力来自于英伟达的V100\T4等AI芯片,于是数据成为唯一影响商业资源分配的生产要素。
而当下的数据获取是要很高成本的,线上的数据来源被牢牢地绑定在各类互联网平台上,主要是腾讯、阿里、字节、京东等社交、游戏、电商、互金、短视频、物流等高度流量化的场景。大量初创的NLP公司需要俯下身去钻到这些大B客户支离破碎的场景中铺设离散的AI解决方案,如此贴地飞行才能有订单,而2B的市场环境就决定了NLP公司的毛利率并不容易做高,持续的研发投入又不能停,亏损逐年放大一时间成为NLP公司的标签。另一方面,单纯做技术输出容易被下游大B颠覆,掌握流量的巨头哪个没有自己的AI研发团队?更何况高度依赖数据的深度学习算法决定了在产业链分工中数据地位高于算法,长久的给流量巨头打工迟早要为他人做嫁衣。
意识到这些问题的NLP公司开始尝试自己做线上线下的场景、做软硬件产品、内容以实现数据流量控制,但这是开山辟路的工作,其难度无异于重建一套可触达每个用户的信息化基础设施。成本畸高不说,塑造新的产品这件事本身对于崇尚纯技术研发的AI公司而言是不能承受之重,他们从一开始就大大低估了产品、市场、内容、消费者需求等生产要素的难度。但现实是:如果想发展他们的AI应用,这些被他们认为是传统互联网企业、硬件企业的生产要素却无法绕过——这就像若要为火箭增加1公斤的载荷则需要多投入1吨的燃料,而燃料质量的增加需要更多的燃料……显然,AI公司们并不愿意陷入这样的无限悖论中去。
AI算法的场景依赖症与其说是逐渐在实践中发现的,不如说这是一种无法治愈的先天“病根”。场景、流量和内容是构筑当下人类精神生活和信息沟通的主要载体、形式,最终AI算法为用户呈现的所有观点、知识、信息都是转述人类专家的话,甚至用户必须找到AI背后的人类专家观点的原文才会对AI输出的结果产生信任,这种对机器天然的不信任感致使NLP公司从出生的那一刻起,额头上就被贴上了“乙方”的标签——要一直依赖背后人类的内容支持才能在与客户的合作中发挥不可替代的价值,这就导致低水平的AI(指不具备判断、决策能力的AI)永远无法成为权威的内容生产者、创造者,而仅仅被局限在信息交互、初步分析、横向比较等初级认知能力上,对用户提高生产效率的帮助就没有期待中的那么多了。
NLP(自然语言处理)公司的坠落与重生

02


问题的本质

我们暂且不去讨论构建强人工智能的问题,先回到NLP的本质。在自然语言理解层面,我们能期待什么?我们又应该做什么?

前文的分析中已经模糊的找到了解决问题的方向——构建可信任、可理解的NLP算法——这样一个任重道远的任务需要我们放弃眼下已在复杂系统场景下实现赫赫“战功”(包括但不限于围棋、蛋白质折叠、量子化学、第一性原理精度分子动力学模拟等)的深度学习路线,实践已经证明这一技术路线在NLP领域的商业实践中并没有解决广大用户的核心诉求,商业推广上的失败之本质原因是技术能力的不足。基于路径依赖在深度学习的方向上继续投入海量研究资源也很难产出令人满意的学术、商业成果。而构建可信任、可理解的AI又有哪些具体的要求?
可信任性——普遍必然性的知识结构
其实人类对任意一种观点、知识、内容的信任标准非常之高,这些知识需在反复的证伪实验中顽强的存活下来,方有可能写进教科书里成为人人信任的“真理”。这样的证伪实验也要满足两个最基本的逻辑要求:普遍性和必然性,于是科学家们在经典物理学范畴下想要证明的理论、观点都要通过随机双盲实验,在控制外部变量的条件下,经随机选择,确定究竟是哪个内部变量影响了实验的最终结果,以此来确定因与果之间的强逻辑关系,构建在满足限定条件下的任何重复实验中(普遍性)都能得到准确验证(必然性)的理论。这种完美的逻辑链条正是人们对满足随机双盲实验的科研理论的信任源泉。
以这种标准来反思当下主流的AI算法,其理论之源是机器学习中经典的反向传播算法,这种算法可以看做是数理统计的一个应用,在数理统计中一个常见的任务就是拟合,也就是给定一些样本点,用合适的曲线揭示这些样本点随着自变量的变化趋势,但每一次完成这种强相关性的曲线拟合都没有增长任何满足普遍必然性的新知识,反而因为追求曲线拟合容易造成过拟合、欠拟合的问题。现实中最真实的案例是没有因果推断能力的自动驾驶算法无法得到车规级安全标准的官方认可,致使相关交通法律的制定存在着权责认定的困难。  
可理解性——人类思维的形式结构
当下主流的AI从业者都是基于统计学的相关性特征构建了一系列端到端的黑箱算法,这类算法输出的结果无法阐明任何人类可以理解的知识,毫无因果、找不到任何逻辑推演的过程,也谈不上决策、判断、乃至创造的类人智能水平,而创造一个不类人的智能帮我们认识世界行不行?可以,AlphaGo就已经发现了数不清的围棋新定式(与人类千年以来的积累迥然不同,但因缺乏可理解性,人类棋手仍然无法参悟这些定式的用法和目的),但是希望不类人的AI所输出的结果能为人类所用、为人类所信任,仍然需要输出由自然语言编码的因果性命题,才能实现AI和人类的自然交互,否则再复杂庞大的相关性算法系统也没有意义,因为人类的认识行为的本质,就是以因果关系的命题为载体的。
可是今天我们看到NLP领域的那些所需算力夸张到离谱的预训练模型——如Bert,无法输出一个因果性的结果,这种状态持续下去,很快就会让整个行业碰到天花板,因为其提供的产品始终像傻瓜一样无法跳脱碎片化的语言内容、更无法插上逻辑的翅膀,始终被人类调侃为人工智障。而有了因果推理能力,才能有效的完成判断、决策、建议、创造等真正有商业意义的功能,这些才是终端用户真正的刚需。
 

03


因果推断AI的进展

因果推断AI的目的是从被观察数据中发现不同变量之间的因果关系。核心问题是因果关系方向的推断、高维数据上的误发现率控制和不完全观察数据上的隐变量检测。并形成了约束方法、因果函数模型方法、混合型方法等多个流派。这些研究的发展十分迅猛,有希望很快在NLP领域形成成熟的方法论,颠覆相关性深度学习一统天下的局面。

我们相信,届时在工业应用层面,将形成以规则为中心的因果性AI的工作环境,将广泛应用于社会治理的方方面面,人类的工作将主要集中在规则的制定上,而因果性AI将有效结合规则与条件做出可理解、可信任的判断。

以上是关于NLP(自然语言处理)公司的坠落与重生的主要内容,如果未能解决你的问题,请参考以下文章

知名人工智能公司高薪寻访:自然语言处理(NLP)

顶级攻略!自然语言处理的学习之道

年薪50-100万一线互联网公司急寻自然语言处理资深专家-nlp

资料自然语言处理与安全和防御有关的经验教训

NLP技术高质量文章伪原创工具

制药业中的自然语言处理(NLP)