在读取SAS文件时,Pandas以正确的数据类型失败
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了在读取SAS文件时,Pandas以正确的数据类型失败相关的知识,希望对你有一定的参考价值。
我有一个SAS dataset,当我运行它时,我在SAS上得到以下输出:
我还有以下Python代码获取.sas7bdat文件并显示输出,即这里是前五个观察结果。
import pandas as pd
file_name = "cars.sas7bdat"
my_df = pd.read_sas(file_name)
my_df = my_df.head()
print(my_df)
如您所见,当涉及整数数据类型时,它无法正常工作。 CYL和WGT变量是整数但如果我使用pandas的read_sas function则无法正确显示。
知道到底发生了什么事吗?
答案
SAS将所有数字表示为64位(8字节)浮点数。但是你可以通过告诉它存储少于8个字节来节省磁盘空间。您发布的数据集为CYL和WGT执行了此操作。
当SAS从磁盘读取数据集以使用它时,将缺少的最低有效字节设置为二进制零。显然read_sas
不理解这一点,而不是将丢失的字节设置为二进制零,它做了别的事情。因此看似随机的数据。
CYL的第一个值是8
,它在IEEE浮点数中是十六进制码
40 20 00 00 00 00 00 00
您显示的8.00046
的值将是此值。
40 20 00 06 07 80 FD C1
另一答案
终于解决了这个问题。嗯,这似乎绝对是熊猫的错误。我通过输入(安装)直接使用.sas7bdat库:
pip install sas7bdat
然后我运行以下代码:
import sas7bdat
from sas7bdat import *
file_name = file_path + "cars.sas7bdat"
foo = SAS7BDAT(file_name)
my_df = foo.to_data_frame()
my_df = my_df.head()
print(my_df)
运行上面的代码后,我在Python中得到以下输出:
因此,我得到了显示正确数据类型的输出。
希望熊猫开发人员找到上述bug的解决方案。
以上是关于在读取SAS文件时,Pandas以正确的数据类型失败的主要内容,如果未能解决你的问题,请参考以下文章
pandas使用read_csv函数读取文件时指定数据列的数据类型pandas使用read_csv函数读取文件时通过keep_default_na参数设置缺失值替换为空字符串