将字符串格式的科学记数法转换为火花数据帧中的数字[重复]

Posted

技术标签:

【中文标题】将字符串格式的科学记数法转换为火花数据帧中的数字[重复]【英文标题】:convert scientific notation in string format to numeric in spark dataframe [duplicate] 【发布时间】:2019-04-30 05:58:13 【问题描述】:
Day_Date,timeofday_desc,Timeofday_hour,Timeofday_minute,Timeofday_second,value
2017-12-18,12:21:02 AM,0,21,2,“1.779209040E+08”
2017-12-19,12:21:02 AM,0,21,2,“1.779209040E+08”
2017-12-20,12:30:52 AM,0,30,52,“1.779209040E+08”
2017-12-21,12:30:52 AM,0,30,52,“1.779209040E+08”
2017-12-22,12:47:10 AM,0,47,10,“1.779209040E+08”
2017-12-23,12:47:10 AM,0,47,10,“1.779209040E+08”
2017-12-24,02:46:59 AM,2,46,59,“1.779209040E+08”
2017-12-25,02:46:59 AM,2,46,59,“1.779209040E+08”
2017-12-26,03:10:27 AM,3,10,27,“1.779209040E+08”
2017-12-27,03:10:27 AM,3,10,27,“1.779209040E+08”
2017-12-28,03:52:08 AM,3,52,8,“1.779209040E+08”

我正在尝试将value 列转换为177920904

val df1 = df.withColumn("s", 'value.cast("Decimal(10,4)")).drop("value").withColumnRenamed("s", "value")

还尝试将值转换为FloatDouble。始终将 null 作为输出

df1.select("value").show()


+-----------+
|   value   |
+-----------+
|       null|
|       null|
|       null|
|       null|
|       null|
|       null|
|       null|
|       null|

df.printSchema

root
 |-- Day_Date: string (nullable = true)
 |-- timeofday_desc: string (nullable = true)
 |-- Timeofday_hour: string (nullable = true)
 |-- Timeofday_minute: string (nullable = true)
 |-- Timeofday_second: string (nullable = true)
 |-- value: string (nullable = true)

【问题讨论】:

【参考方案1】:

只需要将其转换为十进制,并留出足够的空间来容纳数字。

Decimal 是 Decimal(precision, scale),所以 Decimal(10, 4) 表示总共 10 位数字,点左侧 6 位,右侧 4 位,因此该数字不适合您的 Decimal 类型。

来自文档

precision 表示可以计算的总位数 代表

scale 表示小数位数。这个值必须是 小于或等于精度。比例为 0 产生积分 值,没有小数部分

既然你不想要右边的任何数字,你可以试试这个

df.withColumn("s", 'value.cast("Decimal(10,0)"))

如果你想保留4位小数,你可以把它改成

df.withColumn("s", 'value.cast("Decimal(14,4)"))

输入

df.show
+---------------+
|          value|
+---------------+
|1.779209040E+08|
+---------------+

输出

scala> df.withColumn("s", 'value.cast("Decimal(10,0)")).show
+---------------+---------+
|          value|        s|
+---------------+---------+
|1.779209040E+08|177920904|
+---------------+---------+

完整解决方案

不删除也不重命名

val df1 = df.withColumn("value", 'value.cast("Decimal(10,0)"))

修复输入数据

正如我在评论中所说,问题是您的数字周围包含一些奇怪的字符,您应该在投射之前将其删除

原创

scala> df.show
+----------+--------------+--------------+----------------+----------------+-----------------+
|  Day_Date|timeofday_desc|Timeofday_hour|Timeofday_minute|Timeofday_second|            value|
+----------+--------------+--------------+----------------+----------------+-----------------+
|2017-12-18|   12:21:02 AM|             0|              21|               2| ?1.779209040E+08|
|2017-12-19|   12:21:02 AM|             0|              21|               2|?1.779209040E+08?|
|2017-12-20|   12:30:52 AM|             0|              30|              52| ?1.779209040E+08|
|2017-12-21|   12:30:52 AM|             0|              30|              52| ?1.779209040E+08|
|2017-12-22|   12:47:10 AM|             0|              47|              10| ?1.779209040E+08|
|2017-12-23|   12:47:10 AM|             0|              47|              10| ?1.779209040E+08|
|2017-12-24|   02:46:59 AM|             2|              46|              59| ?1.779209040E+08|
|2017-12-25|   02:46:59 AM|             2|              46|              59| ?1.779209040E+08|
|2017-12-26|   03:10:27 AM|             3|              10|              27| ?1.779209040E+08|
|2017-12-27|   03:10:27 AM|             3|              10|              27| ?1.779209040E+08|
|2017-12-28|   03:52:08 AM|             3|              52|               8| ?1.779209040E+08|
+----------+--------------+--------------+----------------+----------------+-----------------+

有很多方法可以删除它们,一种快速的方法是使用 UDF 和正则表达式来删除除数字、字母、点、+ 和 - 之外的所有内容

 def clean(input: String) = input.replaceAll("[^a-zA-Z0-9\\+\\.-]", "")
 val cleanUDF = udf(clean _ )
df.withColumn("value", cleanUDF($"value").cast(DecimalType(10,0))).show
+----------+--------------+--------------+----------------+----------------+---------+
|  Day_Date|timeofday_desc|Timeofday_hour|Timeofday_minute|Timeofday_second|    value|
+----------+--------------+--------------+----------------+----------------+---------+
|2017-12-18|   12:21:02 AM|             0|              21|               2|177920904|
|2017-12-19|   12:21:02 AM|             0|              21|               2|177920904|
|2017-12-20|   12:30:52 AM|             0|              30|              52|177920904|
|2017-12-21|   12:30:52 AM|             0|              30|              52|177920904|
|2017-12-22|   12:47:10 AM|             0|              47|              10|177920904|
|2017-12-23|   12:47:10 AM|             0|              47|              10|177920904|
|2017-12-24|   02:46:59 AM|             2|              46|              59|177920904|
|2017-12-25|   02:46:59 AM|             2|              46|              59|177920904|
|2017-12-26|   03:10:27 AM|             3|              10|              27|177920904|
|2017-12-27|   03:10:27 AM|             3|              10|              27|177920904|
|2017-12-28|   03:52:08 AM|             3|              52|               8|177920904|
+----------+--------------+--------------+----------------+----------------+---------+

【讨论】:

不知道为什么,但我仍然为空 使用我发布的代码?请再次发布它,只是为了检查是否有一些小错误或拼写错误。原始数据框中数字的数据类型是什么?字符串还是什么? 使用了相同的代码df.withColumn("s", 'value.cast("Decimal(10,0)")).show,而我的列 s 仍然没有。你能发表一下你是如何阅读 csv 的吗? 我认为问题可能出在数字周围的那些堰引号 好的,我遇到了问题,这是因为“1.779209040E+08” 双引号,因为excel它得到了不同类型的双引号。使用普通双引号或替换这些双引号,您可以轻松地将其转换为小数。

以上是关于将字符串格式的科学记数法转换为火花数据帧中的数字[重复]的主要内容,如果未能解决你的问题,请参考以下文章

验证输入火花数据帧中的时间戳以生成正确的输出火花数据帧

pandas.read_csv 将字符串转换为科学记数法中的“数字”(我不想要)

Tableau 长数转换为科学

PHP中科学计数法中的数字不正确

如何将字符串输入(带空格的数字)转换为Shiny(R)中的数据帧?

SSIS CSV 导入:字符串转换为科学计数法