数据分析走进数据分析 4 读取数据

Posted 我是小白呀

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析走进数据分析 4 读取数据相关的知识,希望对你有一定的参考价值。

【数据分析】⚠️走进数据分析 4⚠️ 读取数据

概述

数据分析 (Data Analyze) 可以在工作中的各个方面帮助我们. 本专栏为量化交易专栏下的子专栏, 主要讲解一些数据分析的基础知识.

2021 年战绩

  • CCF NLP 领域, 世界冠军
  • CCF CV 领域, 世界冠军
  • CCF 算法 领域, 世界冠军
  • CCF REC 领域, 世界冠军
  • CCF Machie Translate 领域, 世界亚军
  • 天池 Malware 领域, 第四
  • CTF 全国领先
  • 强化学习论文一作

数据准备

数据准备 (Data Preparation) 在我们日常编程中具有非常重要的地位. 能否在海量的数据中提取重要的信息, 一大半的决定了我们的任务是否能够达成目标. 在我看来, 数据分析比后续的模型建立训练更重要.

读取数据

今天我们就从最简单的部分开始讲解, 及如何读取数据.

读取 csv, txt 数据

通过 pandas 的read_csv方法, 可以帮助我们轻松读取数据.

格式:

pd.read_csv(
    filepath_or_buffer,
    sep,
    header,
    names
)

参数:

  • filepath_or_buffer: 文件路径
  • sep: 分隔符, 默认为 “,” 分割, 常用的有 “\\t”, “|” 等
  • header: 指定行数用来做列名, 默认为第 0 行, 常用的有 “None”, 及无列名
  • names: 用于指定列名, 例如 names=[“index”, “value1”, “value2”]

例子:

def read_data_regular():
    """
    读取数据, 适用于csv, txt文件
    :return: 返回读取的数据
    """

    # 读取txt文件
    data1 = pd.read_csv("../data/data1.txt")
    print("从 txt 读取数据: \\n", data1.head(), "\\n")

    # 读取csv文件
    data2 = pd.read_csv("../data/data2.csv")
    print("从 csv 读取数据: \\n", data2.head(), "\\n")

    return data1, data2

if __name__ == '__main__':
    read_data_regular()

输出结果:

从 txt 读取数据: 
    index  value
0      0   zero
1      1    one
2      2    two
3      3  three 

从 csv 读取数据: 
    index  value
0      0   zero
1      1    one
2      2    two
3      3  three 

读取 Excel 数据

通过 pandas 的read_excel方法, 可以帮助我们轻松读取 Excel 中的数据.

格式:

pd.read_excel(
	io,
    header=0,
    names=None,
    index_col=None,
)

参数:

  • io: 文件路径
  • header: 指定行数用来做列名, 默认为第 0 行, 常用的有 “None”, 及无列名
  • names: 用于指定列名, 例如 names=[“index”, “value1”, “value2”]
  • index_col: 索引列, 默认为 None

例子:

def read_data_excel():
    """
    读取Excel数据
    :return: 返回读取的数据
    """

    # 读取Excel文件
    data3 = pd.read_excel("../data/data3.xlsx")
    print("从 excel 读取数据: \\n", data3.head(), "\\n")

    return data3

if __name__ == '__main__':
    read_data_excel()

输出结果:

从 excel 读取数据: 
    index  value
0      0   zero
1      1    one
2      2    two
3      3  three 

读取图片

通过 cv2 的read_excel方法, 可以帮助我们轻松读取 Excel 中的数据.

cv2 安装:

pip install opencv-python

格式:

cv2.imread(filename, flags=None)

参数:

  • filename: 文件路径

例子:

def read_image():
    """
    读取图片数据
    :return: 返回读取的数据
    """

    # 读取图片
    image = cv2.imread("../data/image.jpg")
    
    # 获取图片长宽
    h, w, _= image.shape
    
    # 调试输出
    print("图片宽度:", w, "图片高度:", h)
    print(image)

    return image

if __name__ == '__main__':
    read_image()

输出结果:

图片宽度: 900 图片高度: 383
[[[222 214 207]
  [222 214 207]
  [221 213 206]
  ...
  [231 225 218]
  [229 223 216]
  [229 221 214]]

 [[222 214 207]
  [222 214 207]
  [221 213 206]
  ...
  [225 218 209]
  [224 215 206]
  [221 212 203]]

 [[222 214 207]
  [222 214 207]
  [222 214 207]
  ...
  [212 203 190]
  [209 200 187]
  [206 197 184]]

 ...

 [[229 221 214]
  [229 221 214]
  [230 222 215]
  ...
  [209 197 187]
  [210 198 188]
  [211 199 189]]

 [[230 223 214]
  [230 222 215]
  [230 222 215]
  ...
  [210 198 188]
  [210 198 188]
  [211 199 189]]

 [[230 223 214]
  [230 222 215]
  [231 223 216]
  ...
  [210 198 188]
  [211 199 189]
  [211 199 189]]]

以上是关于数据分析走进数据分析 4 读取数据的主要内容,如果未能解决你的问题,请参考以下文章

数据分析走进数据分析 4 正则表达式

从0基础文科生到全国亚军,我的人工智能学习路径

走进缓存的世界 - Memcache

战绩 | 京东 (CN) 数据挖掘工程师全职Offer到手!

赛事解析|乒乓球时序动作定位大赛亚军方案分享

赛事解析|乒乓球时序动作定位大赛亚军方案分享