将nan值转换为零
Posted
技术标签:
【中文标题】将nan值转换为零【英文标题】:convert nan value to zero 【发布时间】:2011-07-04 16:58:45 【问题描述】:我有一个 2D numpy 数组。这个数组中的一些值是NaN
。我想使用这个数组执行某些操作。例如考虑数组:
[[ 0. 43. 67. 0. 38.]
[ 100. 86. 96. 100. 94.]
[ 76. 79. 83. 89. 56.]
[ 88. NaN 67. 89. 81.]
[ 94. 79. 67. 89. 69.]
[ 88. 79. 58. 72. 63.]
[ 76. 79. 71. 67. 56.]
[ 71. 71. NaN 56. 100.]]
我正在尝试一次取每一行,以相反的顺序对其进行排序,以从该行中获取最多 3 个值并取它们的平均值。我试过的代码是:
# nparr is a 2D numpy array
for entry in nparr:
sortedentry = sorted(entry, reverse=True)
highest_3_values = sortedentry[:3]
avg_highest_3 = float(sum(highest_3_values)) / 3
这不适用于包含 NaN
的行。我的问题是,有没有一种快速的方法可以将 2D numpy 数组中的所有 NaN
值转换为零,这样我在排序和其他我想做的事情上就没有问题了。
【问题讨论】:
each: map: return isNaN(value) ? 0 : value
@kirilloid:听起来不错,示例用法如何?
【参考方案1】:
A
是您的二维数组:
import numpy as np
A[np.isnan(A)] = 0
函数isnan
生成一个布尔数组,指示NaN
值的位置。布尔数组可用于索引相同形状的数组。把它想象成一个面具。
【讨论】:
【参考方案2】:这应该可行:
from numpy import *
a = array([[1, 2, 3], [0, 3, NaN]])
where_are_NaNs = isnan(a)
a[where_are_NaNs] = 0
在上述情况下 where_are_NaNs 是:
In [12]: where_are_NaNs
Out[12]:
array([[False, False, False],
[False, False, True]], dtype=bool)
【讨论】:
【参考方案3】:nan_to_num()怎么样?
【讨论】:
nan_to_num() 也会改变无穷大——这在某些情况下可能不需要。 它也比其他方法慢 >10 倍。 我不确定 tat ">10x 慢" 声明所以我检查了。确实,它要慢得多。感谢您指出这一点。【参考方案4】:您可以使用np.where
查找您拥有NaN
的位置:
import numpy as np
a = np.array([[ 0, 43, 67, 0, 38],
[ 100, 86, 96, 100, 94],
[ 76, 79, 83, 89, 56],
[ 88, np.nan, 67, 89, 81],
[ 94, 79, 67, 89, 69],
[ 88, 79, 58, 72, 63],
[ 76, 79, 71, 67, 56],
[ 71, 71, np.nan, 56, 100]])
b = np.where(np.isnan(a), 0, a)
In [20]: b
Out[20]:
array([[ 0., 43., 67., 0., 38.],
[ 100., 86., 96., 100., 94.],
[ 76., 79., 83., 89., 56.],
[ 88., 0., 67., 89., 81.],
[ 94., 79., 67., 89., 69.],
[ 88., 79., 58., 72., 63.],
[ 76., 79., 71., 67., 56.],
[ 71., 71., 0., 56., 100.]])
【讨论】:
原样不行,需要把np.where(np.isnan(a), a, 0)
改成np.where(~np.isnan(a), a, 0)
。不过,这可能是使用的版本不同。
@TehTris 你是对的,谢谢。我将其更改为b = np.where(np.isnan(a), 0, a)
,这比我认为的~
更简单。【参考方案5】:
drake's answer 使用 nan_to_num
的代码示例:
>>> import numpy as np
>>> A = np.array([[1, 2, 3], [0, 3, np.NaN]])
>>> A = np.nan_to_num(A)
>>> A
array([[ 1., 2., 3.],
[ 0., 3., 0.]])
【讨论】:
【参考方案6】:你可以使用numpy.nan_to_num:
numpy.nan_to_num(x) : 将 nan 替换为 zero 并将 inf 替换为 finite numbers。 p>
示例(参见文档):
>>> np.set_printoptions(precision=8)
>>> x = np.array([np.inf, -np.inf, np.nan, -128, 128])
>>> np.nan_to_num(x)
array([ 1.79769313e+308, -1.79769313e+308, 0.00000000e+000,
-1.28000000e+002, 1.28000000e+002])
【讨论】:
【参考方案7】:nan 永远不等于 nan
if z!=z:z=0
所以对于二维数组
for entry in nparr:
if entry!=entry:entry=0
【讨论】:
这不起作用:entry
是一维数组,因此测试 entry != entry
没有给出简单的布尔值,而是引发了 ValueError
。【参考方案8】:
您可以使用 lambda 函数,一维数组的示例:
import numpy as np
a = [np.nan, 2, 3]
map(lambda v:0 if np.isnan(v) == True else v, a)
这会给你结果:
[0, 2, 3]
【讨论】:
【参考方案9】:出于您的目的,如果所有项目都存储为 str
并且您只是按您使用的方式使用 sorted 然后检查第一个元素并将其替换为 '0'
>>> l1 = ['88','NaN','67','89','81']
>>> n = sorted(l1,reverse=True)
['NaN', '89', '88', '81', '67']
>>> import math
>>> if math.isnan(float(n[0])):
... n[0] = '0'
...
>>> n
['0', '89', '88', '81', '67']
【讨论】:
你的评论是不是有点刺耳?我知道 numpy 是什么,但确实知道数组不会是数字的字符串表示形式。我特别没有从 numpy 的角度来看待这个问题,而是从 python 的角度来看,如果这有用的话。 对数组重新排序听起来像是一种令人困惑的解决方法。 我需要保留数组的顺序。如果您的数组中有多个“NaN”,它将不起作用。以上是关于将nan值转换为零的主要内容,如果未能解决你的问题,请参考以下文章