深度学习核心技术精讲100篇(八十)-脏数据如何处理?置信学习解决方案

Posted 文宇肃然

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深度学习核心技术精讲100篇(八十)-脏数据如何处理?置信学习解决方案相关的知识,希望对你有一定的参考价值。

前言

 

在实际工作中,你是否遇到过这样一个问题或痛点:无论是通过哪种方式获取的标注数据,数据标注质量可能不过关,存在一些错误?亦或者是数据标注的标准不统一、存在一些歧义?特别是badcase反馈回来,发现训练集标注的居然和badcase一样?如下图所示,QuickDraw、MNIST和Amazon Reviews数据集中就存在错误标注。

为了快速迭代,大家是不是常常直接人工去清洗这些“脏数据”?但数据规模上来了咋整?有没有一种方法能够自动找出哪些错误标注的样本呢?基于此,本文尝试提供一种可能的解决方案——置信学习

本文的组织架构是:

以上是关于深度学习核心技术精讲100篇(八十)-脏数据如何处理?置信学习解决方案的主要内容,如果未能解决你的问题,请参考以下文章

数学建模深度学习核心技术精讲100篇(八十三)-时间序列分解和预测

深度学习核心技术精讲100篇(八十五)-Dask 分布高性能计算深入讲解

深度学习核心技术精讲100篇(八十二)-Statsmodels线性回归看特征间关系

深度学习核心技术精讲100篇(八十一)-NLP预训练模型ERNIE实战应用案例

深度学习核心技术精讲100篇(八十一)-NLP预训练模型ERNIE实战应用案例

深度学习核心技术精讲100篇(三十二)-网易实时数仓实战应用