当我为给定的 dtype 设置太大的值时会发生啥？

Posted 2023-03-29

技术标签:

【中文标题】当我为给定的 dtype 设置太大的值时会发生啥？【英文标题】：What happens when I set values that are too big for a given dtype?当我为给定的 dtype 设置太大的值时会发生什么？ 【发布时间】：2014-04-27 11:35:05 【问题描述】：

所以我总是这样创建 numpy 数组：

>>> u = np.zeros( 10, int )
>>> v = np.zeros( 10, float )

到目前为止，我一直对最大允许值一无所知。我一直假设它会简单地工作。如果没有，我会得到OverflowError，然后我会找到一些解决方法，比如取对数。

但最近我开始使用其他 dtypes：

>>> v8 = np.zeros( 10, np.uint8 )
>>> v8[0] = 2 ** 8 - 1
>>> v8[1] = 2 ** 8
>>> v8
>>> array([255,   0,   0,   0,   0,   0,   0,   0,   0,   0], dtype=uint8)

好的，所以当我分配一个大于 255 的值时，我不会收到任何警告。这有点吓人。

所以我的问题是：

当我使用int 和float 类型的数组时，是否有可能我在不知情的情况下设置了一个太大的值（导致完全错误的计算）？如果我想使用uint8，是否必须手动检查所有分配的值是否在[ 0, 255 ] 中？

【问题讨论】：

【参考方案1】：

numpy 在机器级别的工作非常深入。测试非常耗时，因此测试留给了开发人员。 Python 更高级，许多测试是自动完成的，或者在整数的情况下，整数可以有任意大的值。在任何地方，您都必须在速度和安全性之间做出选择。 numpy 在速度方面更远。

在需要测试值范围的情况下，您必须自己检查。

剪辑-方法可以帮助你：

>>> u = np.array([124,-130, 213])
>>> u.astype('b')
array([124, 126, -43], dtype=int8)
>>> u.clip(-128,127).astype('b')
array([ 124, -128,  127], dtype=int8)

【讨论】：

【参考方案2】：

正如其他答案中所解释的，太大的值会被“环绕”，因此您需要在转换之前将它们手动剪辑到允许的最小值和最大值。对于整数，可以使用np.iinfo 获得这些限制。您可以编写自己的实用程序函数，以安全的方式为给定的 dtype 执行此转换：

def safe_convert(x, new_dtype):
    info = np.iinfo(new_dtype)
    return x.clip(info.min, info.max).astype(new_dtype)

快速测试：

In [31]: safe_convert(np.array([-1,0,1,254,255,256]), np.uint8)
Out[31]: array([  0,   0,   1, 254, 255, 255], dtype=uint8)

In [32]: safe_convert(np.array([-129,-128,-127,126,127,128]), np.int8)
Out[32]: array([-128, -128, -127,  126,  127,  127], dtype=int8)

【讨论】：

【参考方案3】：

是的，uint8 会屏蔽你的值（取 8 lsb），所以你需要手动检查它：

>>> a = numpy.uint8(256)
>>> a
0

是的，溢出可能会在您没有意识到的情况下发生。它是许多编程语言中常见的错误来源。然而，python 中的长整数以一种不常见的方式表现：它们没有明确定义的限制。

我已经在this answer 中写过它。

【讨论】：

【参考方案4】：

如前所述，numpy 环绕以避免进行检查。

如果剪辑不可接受，则在投射之前，您可以使用numpy.min_scalar_type 来获取能够在不丢失数据的情况下保存数据的最小 dtype。

还要注意，实际上使用uint8 的唯一原因是在非常大的数组中节省内存，因为计算速度通常大致相同（在某些操作中甚至会在内部向上转换）。如果您的数组不是太大以至于内存不是一个大问题，您应该更安全并使用uint16 甚至uint32 进行中间计算。如果内存是你的问题，你应该考虑转移到核心存储之外，比如 PyTables；如果您现在要填满内存，可能使用更大的数据集甚至 uint8 都不够。

【讨论】：

以上是关于当我为给定的 dtype 设置太大的值时会发生啥？的主要内容，如果未能解决你的问题，请参考以下文章