动态归一化二维 numpy 数组

Posted

技术标签:

【中文标题】动态归一化二维 numpy 数组【英文标题】:Dynamically normalise 2D numpy array 【发布时间】:2020-10-28 18:15:37 【问题描述】:

我有一个形状为 (100000, 1024) 的 2D numpy 数组“信号”。每行包含信号幅度的轨迹,我想将其归一化为 0-1 范围内。

每个信号都有不同的幅度,所以我不能只除以一个公因数,所以我想知道是否有办法对每个信号进行归一化,使它们中的每个值都在 0-1 之间?

假设信号看起来像 [[0,1,2,3,5,8,2,1],[0,2,5,10,7,4,2,1]] 而我希望他们成为 [[0.125,0.25,0.375,0.625,1,0.25,0.125],[0,0.2,0.5,0.7,0.4,0.2,0.1]]。

有没有办法在不循环所有 100,000 个信号的情况下做到这一点,因为这肯定会很慢?

谢谢!

【问题讨论】:

python scikit learn library 有一个 normalize 函数。你可以试试。 【参考方案1】:

简单的做法是生成一个新的 numpy 数组,该数组按轴具有最大值并除以它:

import numpy as np

a = np.array([[0,1,2,3,5,8,2,1],[0,2,5,10,7,4,2,1]])

b = np.max(a, axis = 1)

print(a / b[:,np.newaxis])

输出:

[[0.    0.125 0.25  0.375 0.625 1.    0.25  0.125]
 [0.    0.2   0.5   1.    0.7   0.4   0.2   0.1  ]]

【讨论】:

这很好——唯一的问题(我之前应该说过!)是一些“信号”中没有信号,因此是 0 的数组。有没有一种巧妙的方法可以避免试图除以 0? 不错的答案。原发帖者也可能在此相关帖子***.com/questions/19602187/… 中找到一些相关信息。最好的问候。 @BethLong 你可以在结果数组上使用 numpy.nan_to_numb() 。这将使您从除以零中获得的 nan 归零。 或者,查看docs.scipy.org/doc/numpy-1.14.0/reference/generated/… 此处的文档,该文档提供了有关如何处理除以零的信息。特别是在链接的最后部分使用 seterr。最好的问候 太棒了,非常感谢你们俩。我将使用 nan_to_numb 选项,因为它很简单,但我也会查看其他链接。非常感谢!【参考方案2】:

添加一个小基准以显示两种解决方案之间的性能差异有多大:

import numpy as np
import timeit

arr = np.arange(1024).reshape(128,8)

def using_list_comp():
    return np.array([s/np.max(s) for s in arr])

def using_vectorized_max_div():
    return arr/arr.max(axis=1)[:, np.newaxis]

result1 = using_list_comp()
result2 = using_vectorized_max_div()

print("Results equal:", (result1==result2).all())

time1 = timeit.timeit('using_list_comp()', globals=globals(), number=1000)
time2 = timeit.timeit('using_vectorized_max_div()', globals=globals(), number=1000)

print(time1)
print(time2)
print(time1/time2)

在我的机器上输出是:

Results equal: True
0.9873569
0.010177099999999939
97.01750989967731

几乎有 100 倍 的差异!

【讨论】:

这正是我所期望的!感谢您的评论!【参考方案3】:

另一种解决方案是使用normalize:

from sklearn.preprocessing import normalize
data = [[0,1,2,3,5,8,2,1],[0,2,5,10,7,4,2,1]]
normalize(data, axis=1, norm='max')

结果:

array([[0.   , 0.125, 0.25 , 0.375, 0.625, 1.   , 0.25 , 0.125],
       [0.   , 0.2  , 0.5  , 1.   , 0.7  , 0.4  , 0.2  , 0.1  ]])

请注意norm='max' 参数。默认值为“l2”。

【讨论】:

这非常有用,但我用上面 Adam.Er8 发布的脚本对其进行了测试,它似乎比矢量分割方法花费了大约 6 倍的时间。不过感谢您的评论! 我已经删除了我之前使用列表理解作为基于循环的解决方案的答案。矢量化方式确实是最快的。

以上是关于动态归一化二维 numpy 数组的主要内容,如果未能解决你的问题,请参考以下文章

水文日常~~将数据归一化映射到任意区间(附二维数组归一化的Python实现)

水文日常~~将数据归一化映射到任意区间(附二维数组归一化的Python实现)

numpy按行归一化,numpy按列归一化

Python遥感图像处理应用篇(十五):GDAL 读取多光谱数据做归一化处理

Python遥感图像处理应用篇(十五):GDAL 读取多光谱数据做归一化处理

NumPy:如何快速归一化许多向量?