深度学习核心技术精讲100篇(四十九)-半监督学习在金融文本分类上的探索和实践

Posted 文宇肃然

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深度学习核心技术精讲100篇(四十九)-半监督学习在金融文本分类上的探索和实践相关的知识,希望对你有一定的参考价值。

前言

垂直领域内的自然语言处理任务往往面临着标注数据缺乏的问题,而近年来快速发展的半监督学习技术为此类问题提供了有希望的解决方案。文本以 Google 在 2019 年提出的 UDA 框架为研究主体,详细探索该技术在熵简科技真实业务场景中的实践效果。

本文主要有三方面的贡献:

  • 以金融文本分类为案例,探索了 UDA 在真实场景中的效果和不足;

  • 探索了 UDA 在轻量级模型上的效果;

  • 增加了原始 UDA 论文中未披露或未完成的研究,如领域外数据的影响,错误标记数据的影响。

01背景

当前的半监督技术似乎已经具备了与监督学习相比拟的优势。那么在真实场景中,半监督技术是否依然可以如实验室中的表现,可以在真实问题上发挥出独特的优势,降低我们对于标签数据的需求。

本文基于熵简NLP团队在真实业务场景上的实践经验,从垂直领域对于半监督技术的需求出发,详细介绍半监督学习中最新的代表技术之一UDA 算法的特性,以及在金融文本分类任务上的落地实践。

 

02金融领域的问题为什么需要半监督技术

金融领域内的自然语言处理问题属于典型的垂直领域问题,在面对特定任务场景时,常常面临的一个重要挑战就是少样本。这主要体现在两个方面:

  • 可收集到数据总量少,数据收集的时间成本很高,尤其在从0到1的立项初期。曾经在某个项目上,我们用了三周时间才搜集到1000多条有效样本。

  • 数据的人工标注成本很高。由于自然语言处理任务大部分属于认知层面的任务,因而数据标注的难度和不确定性显著高于感知层面

以上是关于深度学习核心技术精讲100篇(四十九)-半监督学习在金融文本分类上的探索和实践的主要内容,如果未能解决你的问题,请参考以下文章

深度学习核心技术精讲100篇(四十四)-深度召回在招聘推荐中的挑战和实践

深度学习核心技术精讲100篇(四十一)-阿里飞猪个性化推荐:召回篇

深度学习核心技术精讲100篇(五十九)-多业务融合推荐策略实战应用

深度学习核心技术精讲100篇(七十九)-深度学习应用实战案例:携程金融自动化迭代反欺诈模型体系

深度学习核心技术精讲100篇(七十九)-深度学习应用实战案例:携程金融自动化迭代反欺诈模型体系

深度学习核心技术精讲100篇(四十二)-阿里妈妈深度树匹配技术演进:TDM->JTM->BSAT