在熊猫中用 NaN 替换空白值(空格)

Posted

技术标签:

【中文标题】在熊猫中用 NaN 替换空白值(空格)【英文标题】:Replacing blank values (white space) with NaN in pandas 【发布时间】:2012-11-06 20:52:17 【问题描述】:

我想在 Pandas 数据框中查找包含空格(任意数量)的所有值,并将这些值替换为 NaN。

有什么想法可以改进吗?

基本上我想转这个:

                   A    B    C
2000-01-01 -0.532681  foo    0
2000-01-02  1.490752  bar    1
2000-01-03 -1.387326  foo    2
2000-01-04  0.814772  baz     
2000-01-05 -0.222552         4
2000-01-06 -1.176781  qux     

进入这个:

                   A     B     C
2000-01-01 -0.532681   foo     0
2000-01-02  1.490752   bar     1
2000-01-03 -1.387326   foo     2
2000-01-04  0.814772   baz   NaN
2000-01-05 -0.222552   NaN     4
2000-01-06 -1.176781   qux   NaN

我已经设法用下面的代码做到了,但是这很难看。它不是 Pythonic,我敢肯定它也不是对 pandas 的最有效使用。我遍历每一列,并对通过应用一个函数生成的列掩码进行布尔替换,该函数对每个值进行正则表达式搜索,匹配空白。

for i in df.columns:
    df[i][df[i].apply(lambda i: True if re.search('^\s*$', str(i)) else False)]=None

可以通过只遍历可能包含空字符串的字段来稍微优化一下:

if df[i].dtype == np.dtype('object')

但这并没有太大的改进

最后,这段代码将目标字符串设置为 None,这适用于 Pandas 的函数,如 fillna(),但如果我可以直接插入 NaN 而不是 None,那么完整性会很好。

【问题讨论】:

您真正想要的是能够将replace 与正则表达式一起使用...(也许这应该作为一项功能提出要求)。 我为这个特性做了一个github问题:github.com/pydata/pandas/issues/2285。将不胜感激PR! :) 对于那些想要将单个空白字符完全丢失的人,请参阅this simple solution below 【参考方案1】:

我认为df.replace() 可以胜任,因为pandas 0.13:

df = pd.DataFrame([
    [-0.532681, 'foo', 0],
    [1.490752, 'bar', 1],
    [-1.387326, 'foo', 2],
    [0.814772, 'baz', ' '],     
    [-0.222552, '   ', 4],
    [-1.176781,  'qux', '  '],         
], columns='A B C'.split(), index=pd.date_range('2000-01-01','2000-01-06'))

# replace field that's entirely space (or empty) with NaN
print(df.replace(r'^\s*$', np.nan, regex=True))

生产:

                   A    B   C
2000-01-01 -0.532681  foo   0
2000-01-02  1.490752  bar   1
2000-01-03 -1.387326  foo   2
2000-01-04  0.814772  baz NaN
2000-01-05 -0.222552  NaN   4
2000-01-06 -1.176781  qux NaN

正如Temak 指出的那样,如果您的有效数据包含空格,请使用df.replace(r'^\s+$', np.nan, regex=True)

【讨论】:

正则表达式是一个布尔标志。也许你的意思是pd.Series(["1", "#", "9", " .", None]).replace(r"( +\.)|#", "X", regex=True).values,它给出了['1', 'X', '9', 'X', None] 2 年过去了,我已经改变了接受的答案,现在 pandas 支持它。谢谢! 注意:如果您不希望将中间包含空格的元素替换为 NaN,请使用 df.replace(r'^\s+$', np.nan, regex=True) 我尝试使用它,但发现 r'^\s*$' 应该是要使用的表达式。没有 ^ 和 $ 它将匹配任何带有两个连续空格的字符串。还将 + 更改为 * 以在要转换为 NaN 的内容列表中包含空字符串“” 我正在我的代码中尝试您的解决方案,但它没有效果。我正在尝试“能量 [“能源供应”].replace(to_replace = "...", value = np.NaN)"。想要将字符串“...”更改为 NaN 值,但它什么也不做并返回相同的数据帧。【参考方案2】:

如果你想替换一个空字符串和只有空格的记录,正确答案是!:

df = df.replace(r'^\s*$', np.nan, regex=True)

接受的答案

df.replace(r'\s+', np.nan, regex=True)

不替换空字符串!,您可以尝试使用稍微更新的给定示例:

df = pd.DataFrame([
    [-0.532681, 'foo', 0],
    [1.490752, 'bar', 1],
    [-1.387326, 'fo o', 2],
    [0.814772, 'baz', ' '],     
    [-0.222552, '   ', 4],
    [-1.176781,  'qux', ''],         
], columns='A B C'.split(), index=pd.date_range('2000-01-01','2000-01-06'))

请注意,'fo o' 也不会被 Nan 替换,尽管它包含一个空格。 进一步注意,一个简单的:

df.replace(r'', np.NaN)

也不行 - 试试看。

【讨论】:

【参考方案3】:

怎么样:

d = d.applymap(lambda x: np.nan if isinstance(x, basestring) and x.isspace() else x)

applymap 函数将函数应用于数据帧的每个单元格。

【讨论】:

多么好的改进!回想起来,我应该想到这一点,但由于某种原因,我一直在做布尔替换。一个问题 - 进行基本字符串检查与仅 str(x).isspace() 相比是否有优势? @ChrisClark:任何一个都可以,虽然我猜isinstance 会快一点。 上述代码中对“basestring”的引用在 Python 3 中不起作用……在这种情况下,请尝试使用“str”。 请注意,此解决方案不会替换空字符串 ''。要考虑空字符串,请使用:d = d.applymap(lambda x: np.nan if isinstance(x, basestring) and (not x or x.isspace()) else x) 在 Python 3.x 中,isinstance(x, basestring) 的正确等价物是 isinstance(x, str)【参考方案4】:

我这样做了:

df = df.apply(lambda x: x.str.strip()).replace('', np.nan)

df = df.apply(lambda x: x.str.strip() if isinstance(x, str) else x).replace('', np.nan)

您可以删除所有 str,然后将空 str 替换为 np.nan

【讨论】:

lambda x: x.str.strip() 应该是 lambda x: x.strip()?次要建议:在前面添加 .astype(str),这为我解决了其他数据问题。这对我有用: df=df.apply['column'].astype(str).apply(lambda x: x.strip()).replace('', np.nan) 第二行代码同时处理 int/float 和 string 类型的列。好的。谢了!【参考方案5】:

如果您要从 CSV 文件中导出数据,可以这么简单:

df = pd.read_csv(file_csv, na_values=' ')

这将创建数据框并将空白值替换为 Na

【讨论】:

另一个选项..使用skipinitialspace=True 还会删除分隔符后的任何空格,这将导致任何长度的空格,空字符串被读取为nan。但是,如果您出于某种原因想要保留初始空格,那么此选项不是一个好的选择。【参考方案6】:

最简单的解决方案:

df = df.replace(r'^\s+$', np.nan, regex=True)

【讨论】:

【参考方案7】:

对于检查单个值是否相等的非常快速且简单的解决方案,您可以使用mask 方法。

df.mask(df == ' ')

【讨论】:

【参考方案8】:

这些都接近正确答案,但我不会说任何解决问题的方法,同时保持对阅读您代码的其他人的可读性。我想说这个答案是BrenBarn's Answer 和 tuomastik 在answer 下面的评论的组合。 BrenBarn 的答案使用了 isspace 内置函数,但不支持按照 OP 的要求删除空字符串,我倾向于将其归因于用 null 替换字符串的标准用例。

我用.apply 重写了它,所以你可以用pd.Seriespd.DataFrame 调用它。


Python 3:

要替换空字符串或完全由空格组成的字符串:

df = df.apply(lambda x: np.nan if isinstance(x, str) and (x.isspace() or not x) else x)

替换全部为空格的字符串:

df = df.apply(lambda x: np.nan if isinstance(x, str) and x.isspace() else x)

要在 Python 2 中使用它,您需要将 str 替换为 basestring

Python 2:

要替换空字符串或完全由空格组成的字符串:

df = df.apply(lambda x: np.nan if isinstance(x, basestring) and (x.isspace() or not x) else x)

替换全部为空格的字符串:

df = df.apply(lambda x: np.nan if isinstance(x, basestring) and x.isspace() else x)

【讨论】:

【参考方案9】:

这对我有用。 当我导入我的 csv 文件时,我添加了 na_values = ' '。默认 NaN 值中不包含空格。

df= pd.read_csv(filepath,na_values = ' ')

【讨论】:

【参考方案10】:
print(df.isnull().sum()) # check numbers of null value in each column

modifiedDf=df.fillna("NaN") # Replace empty/null values with "NaN"

# modifiedDf = fd.dropna() # Remove rows with empty values

print(modifiedDf.isnull().sum()) # check numbers of null value in each column

【讨论】:

【参考方案11】:

这不是一个优雅的解决方案,但似乎可行的方法是保存到 XLSX,然后将其导入回来。此页面上的其他解决方案对我不起作用,不知道为什么。

data.to_excel(filepath, index=False)
data = pd.read_excel(filepath)

【讨论】:

【参考方案12】:

这应该可以工作

df.loc[df.Variable == '', 'Variable'] = 'Value'

df.loc[df.Variable1 == '', 'Variable2'] = 'Value'

【讨论】:

变量是列名吗?以及当引用为字符串时?这看起来很简洁,但这个例子太简洁了。【参考方案13】:

你也可以使用过滤器来做到这一点。

df = PD.DataFrame([
    [-0.532681, 'foo', 0],
    [1.490752, 'bar', 1],
    [-1.387326, 'foo', 2],
    [0.814772, 'baz', ' '],     
    [-0.222552, '   ', 4],
    [-1.176781,  'qux', '  '])
    df[df=='']='nan'
    df=df.astype(float)

【讨论】:

这段代码的每一行(不包括数据)都是错误的。

以上是关于在熊猫中用 NaN 替换空白值(空格)的主要内容,如果未能解决你的问题,请参考以下文章

在熊猫数据框中用 NaN 替换 None

如何用熊猫(python)中的其他值替换NAN [重复]

如何在熊猫中使用 python 循环替换缺失值? [关闭]

熊猫如何使用 groupby 将 NaN 值替换为平均值 [重复]

如果其他矩阵值等于熊猫中的某个值,则用 NaN 替换值

在Java中用0替换Nan值[重复]