数据分析 Pandas数据读取

Posted wisefaith

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析 Pandas数据读取相关的知识,希望对你有一定的参考价值。

  通过Pandas提供的read_xxx相关的函数可以读取文件中的数据,并形成DataFrame常用的数据读取方法为:read_csv( )read_excel( ),主要可以读取文本类型的数据

1 读取格式

  pd.read_csv ( filepath, encoding, sep, header, names, usecols, index_col, skiprows, nrows……)

(1)filepath:文件存储路径,可以用r‘ ‘进行非转义限定,路径最好是纯英文(文件名也是),不然会经常碰到编码不对问题,最方便是直接将文件存储在Pandas默认的路径下,则直接输入文件名即可

  (2)encodingpandas默认编码是utf-8,如果同样读取默认uft-8txt或者json格式,则可以忽略这个参数,如果是CSV,且数据中有中文时,则要指定encoding=‘gbk‘

  (3)sep:指定分割符形式,CSV默认逗号分割,可以忽略这个参数,如果是其它分割方式,则要填写。默认为单字符,若为双字符分割,需要增加参数engine=‘python‘

import pandas as pd
df1 = pd.read_csv(test1.txt)
df2 = pd.read_csv(test2.txt, sep=;)
df3 = pd.read_csv(test3.txt, sep=::, engine=python)
print(===== 逗号分割 =====
, df1)
print(===== 分号分割 =====
, df2)
print(===== 双冒号分割 =====
, df3)
# ===== 逗号分割 ===== # name age scores # 0 gerry 18 98.5 # 1 tom 21 78.2 # 2 lili 24 98.5 # 3 john 20 89.2 # ===== 分号分割 ===== # name age scores # 0 gerry 18 98.5 # 1 tom 21 78.2 # 2 lili 24 98.5 # 3 john 20 89.2 # ===== 双冒号分割 ===== # name age scores # 0 gerry 18 98.5 # 1 tom 21 78.2 # 2 lili 24 98.5 # 3 john 20 89.2

  (4)header指定第一行是否是列名,通常有三种用法:忽略或header=0(表示数据第一行为列名)header=None(表明数据没有列名),常与names搭配使用

  (5)names:指定列名,通常用一个字符串列表表示,当header=0时,用names可以替换掉数据中的第一行作为列名,如果header=None,用names可以增加一行作为列名,如果没有header参数时,用names会增加一行作为列名,原数据的第一行仍然保留

df4 = pd.read_csv(test2.txt, sep=;, header=None)
df5 = pd.read_csv(test2.txt, sep=;, header=None, names=[A, B, C])
print(===== 默认列名保留第一行 =====
, df4)
print(===== 指定列名保留第一行 =====
, df5)
# ===== 默认列名保留第一行 ===== # 0 1 2 # 0 name age scores # 1 gerry 18 98.5 # 2 tom 21 78.2 # 3 lili 24 98.5 # 4 john 20 89.2 # ===== 指定列名保留第一行 ===== # A B C # 0 name age scores # 1 gerry 18 98.5 # 2 tom 21 78.2 # 3 lili 24 98.5 # 4 john 20 89.2

  (6)usecols:一个字符串列表,可以指定读取的列名

  (7)index_col:一个字符串列表,指定哪几列作为索引

  (8)skiprows:跳过多少行再读取数据,通常是数据不太干净,需要去除掉表头才会用到

  (9)nrows:仅读取多少行,后面的处理也都仅限于读取的这些行

2 写入格式

  DataFrame.to_csv(‘filename‘)

 

【其他数据格式持续补充......】

 

 

以上是关于数据分析 Pandas数据读取的主要内容,如果未能解决你的问题,请参考以下文章

pandas GroupBy上的方法apply:一般性的“拆分-应用-合并”

text [检查特定的数据片段]取自论文但有意思应用。 #python #pandas

官方推荐:6种Pandas读取Excel的方法,正确答案都写在源代码里了~太方便了

请问在Pandas用read_excel函数读取数据

使用Pandas数据读取器进行Python回归建模

如何通过 Python pandas 读取 json 数组数据