pandas read_csv 列 dtype 设置为十进制但转换为字符串
Posted
技术标签:
【中文标题】pandas read_csv 列 dtype 设置为十进制但转换为字符串【英文标题】:pandas read_csv column dtype is set to decimal but converts to string 【发布时间】:2016-11-02 01:12:23 【问题描述】:我正在使用 pandas (v0.18.1) 从名为“test.csv”的文件中导入以下数据:
a,b,c,d
1,1,1,1.0
我已将列 'c' 和 'd' 的 dtype 设置为 'decimal.Decimal' 但它们返回为类型 'str'。
import pandas as pd
import decimal as D
df = pd.read_csv('test.csv', dtype='a': int, 'b': float, 'c': D.Decimal, 'd': D.Decimal)
for i, v in df.iterrows():
print(type(v.a), type(v.b), type(v.c), type(v.d))
结果:
`<class 'int'> <class 'float'> <class 'str'> <class 'str'>`
我还尝试在导入后显式转换为十进制,但没有成功(转换为浮点数有效,但不是十进制)。
df.c = df.c.astype(float)
df.d = df.d.astype(D.Decimal)
for i, v in df.iterrows():
print(type(v.a), type(v.b), type(v.c), type(v.d))
结果:
`<class 'int'> <class 'float'> <class 'float'> <class 'str'>`
以下代码将“str”转换为“decimal.Decimal”,所以我不明白为什么 pandas 的行为方式不同。
x = D.Decimal('1.0')
print(type(x))
结果:
`<class 'decimal.Decimal'>`
【问题讨论】:
【参考方案1】:我认为你需要转换器:
import pandas as pd
import io
import decimal as D
temp = u"""a,b,c,d
1,1,1,1.0"""
# after testing replace io.StringIO(temp) to filename
df = pd.read_csv(io.StringIO(temp),
dtype='a': int, 'b': float,
converters='c': D.Decimal, 'd': D.Decimal)
print (df)
a b c d
0 1 1.0 1 1.0
for i, v in df.iterrows():
print(type(v.a), type(v.b), type(v.c), type(v.d))
<class 'int'> <class 'float'> <class 'decimal.Decimal'> <class 'decimal.Decimal'>
【讨论】:
Thepandas
documentation is hilariously unspecific about what a dtype
is,但由于我假设pandas
中的实现基于numpy
,we luckily have numpy
docs。请记住,与使用基本的int
和float
相比,使用通用对象在性能和内存方面的效率可能更低。以上是关于pandas read_csv 列 dtype 设置为十进制但转换为字符串的主要内容,如果未能解决你的问题,请参考以下文章
pandas read_csv 列 dtype 设置为十进制但转换为字符串
当我通过 skip_footer arg 时,Pandas read_csv 忽略列 dtypes
是否可以使用 pandas 的 read_csv 读取分类列?