如何将 pandas 数据框的数据类型更改为具有定义格式的字符串?

Posted

技术标签:

【中文标题】如何将 pandas 数据框的数据类型更改为具有定义格式的字符串?【英文标题】:How do I change data-type of pandas data frame to string with a defined format? 【发布时间】:2014-04-12 03:49:33 【问题描述】:

我开始为此扯头发 - 所以我希望有人能提供帮助。我有一个使用 openpyxl 从 Excel 电子表格创建的 pandas DataFrame。生成的 DataFrame 如下所示:

print image_name_data
     id           image_name
0  1001  1001_mar2014_report
1  1002  1002_mar2014_report
2  1003  1003_mar2014_report

[3 rows x 2 columns]

…具有以下数据类型:

print image_name_data.dtypes
id            float64
image_name     object
dtype: object

问题在于 id 列中的数字实际上是标识号,我需要将它们视为字符串。我尝试使用以下方法将 id 列转换为字符串:

image_name_data['id'] = image_name_data['id'].astype('str')

这看起来有点难看,但它确实产生了一个类型为“object”而不是“float64”的变量:

print image_name_data.dyptes
id            object
image_name    object
dtype: object

但是,创建的字符串有一个小数点,如图:

print image_name_data
       id           image_name
0  1001.0  1001_mar2014_report
1  1002.0  1002_mar2014_report
2  1003.0  1003_mar2014_report

[3 rows x 2 columns]

如何将 pandas DataFrame 中的 float64 列转换为具有给定格式的字符串(在本例中,例如 '%10.0f')?

【问题讨论】:

【参考方案1】:

我无法重现您的问题,但您是否尝试过先将其转换为整数?

image_name_data['id'] = image_name_data['id'].astype(int).astype('str')

然后,关于您更一般的问题,您可以使用map (as in this answer)。在你的情况下:

image_name_data['id'] = image_name_data['id'].map(':.0f'.format)

【讨论】:

达达!这两个建议似乎都很有效。非常感谢!恐怕我没有足够高的声誉来评价这个答案 - 但如果可以的话。 @user1718097 很高兴听到这个消息。我也是 SO 新手,但我认为您可以将其标记为“最佳答案”或其他内容。 如果有任何 NaN/null 值,则首先转换为 int 会失败(错误消息是“*** ValueError:无法将 NA 转换为整数”)。我的数据要么是 int 要么是缺失的,但是 astype('str') 很乐意为每个数字添加 '.0'...不知道如何防止这种情况。【参考方案2】:

如果您可以重新加载它,您也许可以使用 dtypes 参数。

pd.read_csv(..., dtype='COL_NAME':'str')

【讨论】:

【参考方案3】:

我将其放入新答案中,因为 cmets 中没有换行符/代码块。 我假设您希望那些 nans 变成一个空白字符串?我找不到一个很好的方法来做到这一点,只做丑陋的方法:

s = pd.Series([1001.,1002.,None])
a = s.loc[s.isnull()].fillna('')
b = s.loc[s.notnull()].astype(int).astype(str)
result = pd.concat([a,b])

【讨论】:

以上是关于如何将 pandas 数据框的数据类型更改为具有定义格式的字符串?的主要内容,如果未能解决你的问题,请参考以下文章

熊猫:将系列的数据类型更改为字符串

如何在 Python 中创建具有两列作为元组或 Pandas 数据框的单个变量?

如何自动命名 Pandas 数据框列?

如果数据类型错误,如何跳过加载到 Pandas 数据框的 excel 文件的行(检查类型)

在具有不同列名的pandas中连接2个数据帧[重复]

如何将2147483647更改为原始手机号码[关闭]