为啥 org.apache.spark.sql.types.DecimalType 在 Spark SQL 中的最大精度值为 38?

Posted

技术标签:

【中文标题】为啥 org.apache.spark.sql.types.DecimalType 在 Spark SQL 中的最大精度值为 38?【英文标题】:why org.apache.spark.sql.types.DecimalType's max precision value is 38 in SparkSQL?为什么 org.apache.spark.sql.types.DecimalType 在 Spark SQL 中的最大精度值为 38? 【发布时间】:2016-11-14 09:22:56 【问题描述】:

我正在使用 Apache Spark 的 SQL 来处理结构化大数据。我遇到了 Spark SQL 的数据类型的使用,特别是 DecimalType,它支持比 sparkSQL 中的任何其他数据类型存储的最大数量,但即使根据文档:http://spark.apache.org/docs/latest/sql-programming-guide.html#data-types,您也可以找到: 和它内部使用Scala 语言的 BigDecimal,允许精度约为。 2^32。为什么会这样? 我需要使用 sparkSQL 实现 scala 的 BigDecimal 提供的相同功能。我可以知道如何解决这个问题或我可以尝试的任何其他方式吗?

【问题讨论】:

是的,为什么 Spark DecimalType 的精度限制为 38?我正在尝试将 mysql 表作为 DataFrame 读入 Spark。 MySQL表中列的精度声明为decimal(64,30),导致Exception。 @rake 你找到解决方案了吗? 不,我真的不会称之为“解决方案”。不记得确切,但不得不求助于一些手动破解,例如将几列作为字符串读取并丢弃足够的数字,以便将其作为十进制加载。我愿意忍受少数不良价值观。 【参考方案1】:

在底层 spark 使用 Java 的 BigDecimal。

https://docs.oracle.com/javase/7/docs/api/java/math/BigDecimal.html

BigDecimal 由 任意精度整数未缩放值和 32 位整数 规模。如果为零或正数,则刻度是数字的位数 小数点右边。如果为负,则未缩放的值 数字乘以十的负数次方。 因此,BigDecimal 表示的数字的值是 (unscaledValue × 10-scale)。

【讨论】:

以上是关于为啥 org.apache.spark.sql.types.DecimalType 在 Spark SQL 中的最大精度值为 38?的主要内容,如果未能解决你的问题,请参考以下文章

为啥 DataGridView 上的 DoubleBuffered 属性默认为 false,为啥它受到保护?

为啥需要softmax函数?为啥不简单归一化?

为啥 g++ 需要 libstdc++.a?为啥不是默认值?

为啥或为啥不在 C++ 中使用 memset? [关闭]

为啥临时变量需要更改数组元素以及为啥需要在最后取消设置?

为啥 CAP 定理中的 RDBMS 分区不能容忍,为啥它可用?