如何配置 Java Spark sparksession 样本大小
Posted
技术标签:
【中文标题】如何配置 Java Spark sparksession 样本大小【英文标题】:How to config Java Spark sparksession samplesize 【发布时间】:2020-04-03 04:03:43 【问题描述】:我是 Java Spark 的新手。
我目前对配置单元的 Mongodb ETL 有疑问,这可能导致该字段具有不同的数据类型。所以我想增加样本量,但我在使用 Java 时只看到 scala 的示例,有谁知道我是否设置正确增加样本量?
SparkSession spark = SparkSession.builder()
.master("local[2]")
.appName("SparkReadMgToHive")
.config("spark.sql.warehouse.dir", warehouseLocation)
.config("spark.mongodb.input.uri", "mongodb://localhost:27017/test.testcollection")
.config("sampleSize", 50000)
.enableHiveSupport()
.getOrCreate();
非常感谢
【问题讨论】:
【参考方案1】:我是spark.mongodb.input.sampleSize
SparkSession spark = SparkSession.builder()
.master("local[2]")
.appName("SparkReadMgToHive")
.config("spark.sql.warehouse.dir", warehouseLocation)
.config("spark.mongodb.input.uri", "mongodb://localhost:27017/test.testcollection")
.config("spark.mongodb.input.sampleSize", 50000)
.enableHiveSupport()
.getOrCreate();
【讨论】:
谢谢你,我认为它有效,我已经发布了另一个问题,如果你有线索请分享你的想法,我非常感谢。 ***.com/questions/60965429/…以上是关于如何配置 Java Spark sparksession 样本大小的主要内容,如果未能解决你的问题,请参考以下文章