数据集的获取

Posted 被褐怀玉888988

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据集的获取相关的知识,希望对你有一定的参考价值。

一、数据集的获取

1.Kaggle:https://www.kaggle.com
2.天池:https://tianchi.aliyun.com/dataset
3.DataFountain:https://www.datafountain.cn/datasets

二、完整流程概述

1、图像处理完整流程

  1. 图片数据获取
  2. 图片数据清洗
      ----初步了解数据,筛选掉不合适的图片
  3. 图片数据标注
  4. 图片数据预处理data preprocessing
      ----标准化 standardlization
        一 中心化 = 去均值 mean normallization
          一 将各个维度中心化到0
          一 目的是加快收敛速度,在某些激活函数上表现更好
         一 归一化 = 除以标准差
          一 将各个维度的方差标准化处于[-1,1]之间
          一 目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度的值域
  5. 图片数据准备data preparation(训练+测试阶段)
      ----划分训练集,验证集,以及测试集
  6. 图片数据增强data augjmentation(训练阶段 )
      ----CV常见的数据增强
           · 随机旋转
           · 随机水平或者重直翻转
           · 缩放
           · 剪裁
           · 平移
           · 调整亮度、对比度、饱和度、色差等等
           · 注入噪声
           · 基于生成对抗网络GAN做数搪增强AutoAugment等

2、纯数据处理完整流程

1.感知数据
  ----初步了解数据
  ----记录和特征的数量特征的名称
  ----抽样了解记录中的数值特点描述性统计结果
  ----特征类型
  ----与相关知识领域数据结合,特征融合
2.数据清理
  ----转换数据类型
  ----处理缺失数据
  ----处理离群数据
3.特征变换
  ----特征数值化
  ----特征二值化
  ----OneHot编码
  ----特征离散化特征
  ----规范化
    区间变换
    标准化
    归一化
4.特征选择
  ----封装器法
    循序特征选择
    穷举特征选择
    递归特征选择
  ----过滤器法
  ----嵌入法
5.特征抽取
  ----无监督特征抽取
    主成分分析
    因子分析
  ----有监督特征抽取

三、数据处理的方法

1、数据增强

为什么要做这些数据增强?
是因为很多深度学习的模型复杂度太高了,且在数据量少的情况下,比较容易造成过拟合(通俗来说就是训练的这个模型它太沉浸在这个训练样本当中的一些特质上面了),表现为的这个模型呢受到了很多无关因素的影响。
所得出的结果就是在没有看到过的样本上对它做出预测呢就表现的不太好。

四、图像分类

1、位图

特点
 由像素点定义一放大会糊
 文件体积较大
 色彩表现丰富逼真

2、矢量图

特点
 超矢量定义
 放太不模糊
 文件体积较小
 表现力差

以上是关于数据集的获取的主要内容,如果未能解决你的问题,请参考以下文章

获取 pytorch 数据集的子集

飞桨——数据集的获取途径和数据处理技巧

获取 HDF5 数据集的维度

如何获取有关 BigQuery 中正在使用/查询的视图和数据集的使用数据?

在 TensorFlow 中获取数据集的长度

Tkinter:获取数据集的单选按钮和查找数据集之间匹配和不匹配的函数