从数据集中获取值 到.txt文件(使用Java)[重复]
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从数据集中获取值 到.txt文件(使用Java)[重复]相关的知识,希望对你有一定的参考价值。
这个问题在这里已有答案:
我是新来的,所以我希望能帮助你并在可能的情况下得到帮助。
我在Java中使用Spark SQL和ML Spark创建了一个Apache Spark项目。我已经完成了这个项目,但是输出有些问题。
我有一些Dataset<Row>
决赛(最终是数据集的名称)和一些信息。当我使用show()
和这个数据集(finals.show();
)时,我得到了下一个信息:
[2018026,1,9.93,127.66,5.16,245.8,4.426875,6.91]
[2018026,1,9.97,127.89,5.36,244.8,4.426875,6.91]
[2018026,1,6.76,113.54,6.42,228.8,4.426875,6.91]
[2018026,1,6.92,114.2,6.81,224.0,4.426875,6.91]
[2018026,1,6.86,113.98,6.65,226.0,4.426875,6.91]
[2018026,1,6.81,113.76,6.58,227.4,4.426875,6.91]
[2018026,1,6.97,113.49,6.58,225.8,4.426875,6.91]
[2018026,1,6.97,114.42,6.67,221.6,4.426875,6.91]
(“,”是字段之间的分隔符)。好吧,我试图在文本文件中输出此输出,例如projectSpark.txt,但对我来说是不可能的。如何在文本文件中获取此信息?我应该迭代Dataset<Row>
还是有一些方法来做到这一点?
非常感谢你们。
问候。
答案
在Java中,你可以做类似的事情:
finals.javaRDD().map(x -> x.toString()).saveAsTextFile("your/path");
它会将您的数据集保存在单个文本文件中。
以上是关于从数据集中获取值 到.txt文件(使用Java)[重复]的主要内容,如果未能解决你的问题,请参考以下文章
从在线数据集中将数据加载到 Hive 表后获取 NULL 值
根据标准从大型数据集中读取特定数据,以避免将整个文件读入内存