是否可以使用 spark 的 jdbc 驱动程序将 apache spark 与 jasper 集成?
Posted
技术标签:
【中文标题】是否可以使用 spark 的 jdbc 驱动程序将 apache spark 与 jasper 集成?【英文标题】:Is it possible to integrate apache spark with jasper using the spark's jdbc driver? 【发布时间】:2015-02-20 21:01:00 【问题描述】:我们想使用 apache spark 进行实时分析?我们目前使用 hive/MR 进行数据处理,使用 mysqlsql 存储聚合结果,使用 jasper 报告进行分析?由于 mysql 的可伸缩性问题,这种方法远非理想。我们正在探索 apache spark 在 hdfs 或 cassandra 之上运行,唯一的问题是 spark 是否可以与 jasper 服务器集成?如果不是,还有什么其他 UI 选项可以与 spark 一起使用?
【问题讨论】:
【参考方案1】:我找到了答案并想到了分享,如果你使用带 spark 的 hive 元存储,你可以将 RDD 持久化为 hive 表,一旦你这样做了,任何使用 hive:jdbc2 协议的客户端都可以使用 spark 运行 hive 或类似 sql 的查询执行引擎。 这些是步骤 - 1)配置spark使用mysql作为metastore数据库。 2) 将 hive-site.xml 复制到 spark conf 目录中,指向 mysql 数据库。 3) 启动 thrift 服务,您可以使用 $SPARK_HOME/sbin/start-thrift.sh 来执行此操作,如果成功启动它会在端口 10000 上进行侦听。 4) 使用 $SPARK_HOME/bin 目录下的 Beeline 等客户端进行测试。 5) 从直线使用这个 url - !connect hive:jdbc2://localhost 10000 (没有用户名或密码) 6) 运行任何配置单元创建或选择查询。 7)如果它运行,恭喜! ,使用与 jasper 相同的 url (!connect hive:jdbc2://localhost 10000 ,将 localhost 替换为 ip) 使用 hive:jdbc2 。
【讨论】:
以上是关于是否可以使用 spark 的 jdbc 驱动程序将 apache spark 与 jasper 集成?的主要内容,如果未能解决你的问题,请参考以下文章
用于 Cloud Spanner 的 Simba JDBC 驱动程序与 Spark JDBC DataFrame 阅读器一起使用