飞桨——数据集的获取途径和数据处理技巧

Posted XXX_UUU_XXX

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了飞桨——数据集的获取途径和数据处理技巧相关的知识,希望对你有一定的参考价值。

数据集获取平台

Kaggle天池DataFountain百度AI StudioGIthubGitee

 图像处理完整流程

  • 1.图片数据获取
  • 2.图片数据清洗

        ----初步了解数据,筛选掉不合适的图片

  • 3.图片数据标注
  • 4.图片数据预处理data preprocessing。

  ----标准化 standardlization

    一 中心化 = 去均值 mean normallization

      一 将各个维度中心化到0

      一 目的是加快收敛速度,在某些激活函数上表现更好

     一 归一化 = 除以标准差

      一 将各个维度的方差标准化处于[-1,1]之间

      一 目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度的值域

  • 5.图片数据准备data preparation(训练+测试阶段)

  ----划分训练集,验证集,以及测试集

  • 6.图片数据增强data augjmentation(训练阶段 )

  ----CV常见的数据增强

       · 随机旋转

       · 随机水平或者重直翻转

       · 缩放

       · 剪裁

       · 平移

       · 调整亮度、对比度、饱和度、色差等等

       · 注入噪声

       · 基于生成对抗网络GAN做数搪增强AutoAugment等

纯数据处理完整流程

  • 数据预处理与特征工程

  • 1.感知数据

  ----初步了解数据

  ----记录和特征的数量特征的名称

  ----抽样了解记录中的数值特点描述性统计结果

  ----特征类型

  ----与相关知识领域数据结合,特征融合

  • 2.数据清理

  ----转换数据类型

  ----处理缺失数据

  ----处理离群数据

  • 3.特征变换

  ----特征数值化

  ----特征二值化

  ----OneHot编码

  ----特征离散化特征

  ----规范化

    区间变换

    标准化

    归一化

  • 4.特征选择

  ----封装器法

    循序特征选择

    穷举特征选择

    递归特征选择

  ----过滤器法

  ----嵌入法

  • 5.特征抽取

  ----无监督特征抽取

    主成分分析

    因子分析

  ----有监督特征抽取

数据处理

COCO

COCO格式,文件夹路径样式:

VOC

VOC格式,文件夹路径样式:

常见标注工具

  对于图像分类任务,我们只要将对应的图片是哪个类别划分好即可。对于检测任务和分割任务,目前比较流行的数据标注工具是labelimg、labelme,分别用于检测任务与分割任务的标注。

标注工具Github地址:

labelimg

labelme

PPOCRLabel

以上是关于飞桨——数据集的获取途径和数据处理技巧的主要内容,如果未能解决你的问题,请参考以下文章

使用 Visual Studio 类型数据集的技巧?

Python机器学习——机器学习概述,数据集的基本使用

高校企业双向赋能,首届飞桨启航菁英计划圆满结束

高校企业双向赋能,首届飞桨启航菁英计划圆满结束

详解SQL盲注测试高级技巧

分析广点通广告平台的投放技巧