数据分析走进数据分析 4 读取数据
Posted 我是小白呀
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析走进数据分析 4 读取数据相关的知识,希望对你有一定的参考价值。
【数据分析】⚠️走进数据分析 4⚠️ 读取数据
概述
数据分析 (Data Analyze) 可以在工作中的各个方面帮助我们. 本专栏为量化交易专栏下的子专栏, 主要讲解一些数据分析的基础知识.
2021 年战绩
- CCF NLP 领域, 世界冠军
- CCF CV 领域, 世界冠军
- CCF 算法 领域, 世界冠军
- CCF REC 领域, 世界冠军
- CCF Machie Translate 领域, 世界亚军
- 天池 Malware 领域, 第四
- CTF 全国领先
- 强化学习论文一作
数据准备
数据准备 (Data Preparation) 在我们日常编程中具有非常重要的地位. 能否在海量的数据中提取重要的信息, 一大半的决定了我们的任务是否能够达成目标. 在我看来, 数据分析比后续的模型建立训练更重要.
读取数据
今天我们就从最简单的部分开始讲解, 及如何读取数据.
读取 csv, txt 数据
通过 pandas 的read_csv
方法, 可以帮助我们轻松读取数据.
格式:
pd.read_csv(
filepath_or_buffer,
sep,
header,
names
)
参数:
- filepath_or_buffer: 文件路径
- sep: 分隔符, 默认为 “,” 分割, 常用的有 “\\t”, “|” 等
- header: 指定行数用来做列名, 默认为第 0 行, 常用的有 “None”, 及无列名
- names: 用于指定列名, 例如 names=[“index”, “value1”, “value2”]
例子:
def read_data_regular():
"""
读取数据, 适用于csv, txt文件
:return: 返回读取的数据
"""
# 读取txt文件
data1 = pd.read_csv("../data/data1.txt")
print("从 txt 读取数据: \\n", data1.head(), "\\n")
# 读取csv文件
data2 = pd.read_csv("../data/data2.csv")
print("从 csv 读取数据: \\n", data2.head(), "\\n")
return data1, data2
if __name__ == '__main__':
read_data_regular()
输出结果:
从 txt 读取数据:
index value
0 0 zero
1 1 one
2 2 two
3 3 three
从 csv 读取数据:
index value
0 0 zero
1 1 one
2 2 two
3 3 three
读取 Excel 数据
通过 pandas 的read_excel
方法, 可以帮助我们轻松读取 Excel 中的数据.
格式:
pd.read_excel(
io,
header=0,
names=None,
index_col=None,
)
参数:
- io: 文件路径
- header: 指定行数用来做列名, 默认为第 0 行, 常用的有 “None”, 及无列名
- names: 用于指定列名, 例如 names=[“index”, “value1”, “value2”]
- index_col: 索引列, 默认为 None
例子:
def read_data_excel():
"""
读取Excel数据
:return: 返回读取的数据
"""
# 读取Excel文件
data3 = pd.read_excel("../data/data3.xlsx")
print("从 excel 读取数据: \\n", data3.head(), "\\n")
return data3
if __name__ == '__main__':
read_data_excel()
输出结果:
从 excel 读取数据:
index value
0 0 zero
1 1 one
2 2 two
3 3 three
读取图片
通过 cv2 的read_excel
方法, 可以帮助我们轻松读取 Excel 中的数据.
cv2 安装:
pip install opencv-python
格式:
cv2.imread(filename, flags=None)
参数:
- filename: 文件路径
例子:
def read_image():
"""
读取图片数据
:return: 返回读取的数据
"""
# 读取图片
image = cv2.imread("../data/image.jpg")
# 获取图片长宽
h, w, _= image.shape
# 调试输出
print("图片宽度:", w, "图片高度:", h)
print(image)
return image
if __name__ == '__main__':
read_image()
输出结果:
图片宽度: 900 图片高度: 383
[[[222 214 207]
[222 214 207]
[221 213 206]
...
[231 225 218]
[229 223 216]
[229 221 214]]
[[222 214 207]
[222 214 207]
[221 213 206]
...
[225 218 209]
[224 215 206]
[221 212 203]]
[[222 214 207]
[222 214 207]
[222 214 207]
...
[212 203 190]
[209 200 187]
[206 197 184]]
...
[[229 221 214]
[229 221 214]
[230 222 215]
...
[209 197 187]
[210 198 188]
[211 199 189]]
[[230 223 214]
[230 222 215]
[230 222 215]
...
[210 198 188]
[210 198 188]
[211 199 189]]
[[230 223 214]
[230 222 215]
[231 223 216]
...
[210 198 188]
[211 199 189]
[211 199 189]]]
以上是关于数据分析走进数据分析 4 读取数据的主要内容,如果未能解决你的问题,请参考以下文章