如何配置 Java Spark sparksession 样本大小

Posted

技术标签:

【中文标题】如何配置 Java Spark sparksession 样本大小【英文标题】:How to config Java Spark sparksession samplesize 【发布时间】:2020-04-03 04:03:43 【问题描述】:

我是 Java Spark 的新手。

我目前对配置单元的 Mongodb ETL 有疑问,这可能导致该字段具有不同的数据类型。所以我想增加样本量,但我在使用 Java 时只看到 scala 的示例,有谁知道我是否设置正确增加样本量?

SparkSession spark = SparkSession.builder()
                .master("local[2]")
                .appName("SparkReadMgToHive")
                .config("spark.sql.warehouse.dir", warehouseLocation)
                .config("spark.mongodb.input.uri", "mongodb://localhost:27017/test.testcollection")
                .config("sampleSize", 50000)
                .enableHiveSupport()
                .getOrCreate();

非常感谢

【问题讨论】:

【参考方案1】:

我是spark.mongodb.input.sampleSize

SparkSession spark = SparkSession.builder()
                .master("local[2]")
                .appName("SparkReadMgToHive")
                .config("spark.sql.warehouse.dir", warehouseLocation)
                .config("spark.mongodb.input.uri", "mongodb://localhost:27017/test.testcollection")
                .config("spark.mongodb.input.sampleSize", 50000)
                .enableHiveSupport()
                .getOrCreate();

【讨论】:

谢谢你,我认为它有效,我已经发布了另一个问题,如果你有线索请分享你的想法,我非常感谢。 ***.com/questions/60965429/…

以上是关于如何配置 Java Spark sparksession 样本大小的主要内容,如果未能解决你的问题,请参考以下文章

在 SparkSession.SQL 中执行 Prepared 和 Batch 语句

在 sparkSession 上注册两个同名 udf

Java-spark广播变量序列化问题

Java Spark-如何以多列作为参数调用UDF

Pytest:创建 SparkSession

为啥我的“org.apache.spark.sql”下面没有“SparkSession”[重复]