Spark 2.1.0:读取压缩的 csv 文件
Posted
技术标签:
【中文标题】Spark 2.1.0:读取压缩的 csv 文件【英文标题】:Spark 2.1.0 : Reading compressed csv file 【发布时间】:2017-04-23 00:02:39 【问题描述】:我正在尝试将压缩的 csv 文件 (.bz2) 作为 DataFrame 读取。我的代码如下
// read the data
Dataset<Row> rData = spark.read().option("header", true).csv(input);
当我在 IDE 中尝试时,这有效。我可以读取数据并处理它,但是当我尝试使用 maven 构建它并在命令行上运行它时,我收到以下错误
Exception in thread "main" java.lang.ClassNotFoundException: Failed to find data source: csv. Please find packages at http://spark.apache.org/third-party-projects.html
at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:569)
at org.apache.spark.sql.execution.datasources.DataSource.providingClass$lzycompute(DataSource.scala:86)
at org.apache.spark.sql.execution.datasources.DataSource.providingClass(DataSource.scala:86)
at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:325)
at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:152)
at org.apache.spark.sql.DataFrameReader.csv(DataFrameReader.scala:415)
at org.apache.spark.sql.DataFrameReader.csv(DataFrameReader.scala:352)
at com.cs6240.Driver.main(Driver.java:28)
Caused by: java.lang.ClassNotFoundException: csv.DefaultSource
at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$25$$anonfun$apply$13.apply(DataSource.scala:554)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$25$$anonfun$apply$13.apply(DataSource.scala:554)
at scala.util.Try$.apply(Try.scala:192)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$25.apply(DataSource.scala:554)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$25.apply(DataSource.scala:554)
at scala.util.Try.orElse(Try.scala:84)
at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:554)
... 7 more
我不确定我是否在这里遗漏了什么。读取 csv 文件是否有一些依赖性?根据文档,Spark 2.x.x 内置了对此的支持。
【问题讨论】:
【参考方案1】:我按照这个答案中的步骤解决了这个问题。 https://***.com/a/39465892/2705924
基本上组装插件有一些问题,当我使用阴影插件并使用它时
<transformer implementation="org.apache.maven.plugins.shade.resource.ServicesResourceTransformer"/>
【讨论】:
以上是关于Spark 2.1.0:读取压缩的 csv 文件的主要内容,如果未能解决你的问题,请参考以下文章
在 Spark 2.0 中加载压缩的 gzipped csv 文件