java oracle sql spark啥关系

Posted 2023-05-07

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了java oracle sql spark啥关系相关的知识，希望对你有一定的参考价值。

java是一种编程语言，用来开发软件程序的。
oracle是一种数据库，用来进行数据的存储和管理的软件；
sql是一种数据库查询语言，用来对数据库中的数据进行各种操作的。
java可以通过sql语句对oracle中存储的数据进行操作。
spark不了解。参考技术A 1 概述
本文主要内容包含Spark SQL读写Oracle表数据的简单案例，并针对案例中比较常见的几个问题给出解决方法。
最后从常见的java.lang.ClassNotFoundException（无法找到驱动类）的异常问题出发，分析相关的几种解决方法，以及各个解决方法之间的异同点。
2 案例中比较常见问题及其解决方法
2.1 启动
首先查看Spark 官网给出的SparkSQL的编程指南部分（http://spark.apache.org/docs/latest/sql-programming-guide.html）的JDBC To Other Databases 内容。参考命令：

SPARK_CLASSPATH=postgresql-9.3-1102-jdbc41.jar bin/spark-shell

对应写出访问 Oracle的命令，如下：

SPARK_CLASSPATH=$SPARK_HOME/ojdbc14.jar bin/spark-shell --master local

其中，CLASSPATH相关内容会在后一章节给出详细分析，在此仅针对其他一些常见问题给出解决方法。
启动过程如下(部分字符串已经被替换，如：$SPARK_HOME)：

Hadoop，Hive，Spark 之间是啥关系

参考技术A Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop也是apache开源大数据的一个生态圈总称,里面包含跟大数据开源框架的一些软件,包含hdfs,hive,zookeeper,hbase等等;Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。
Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。
尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。
hadoop(hive)<-spark(扩展)

以上是关于java oracle sql spark啥关系的主要内容，如果未能解决你的问题，请参考以下文章

oracle数据库11g和18c有啥区别？ oracle sql developer和oracle apex与这些有啥关系？

jdbc是啥，和PL/SQL developer是啥关系？

Hadoop，Hive，Spark 之间是啥关系

PLSQL developer和oracle到底是啥关系啊???

Spark SQL - 从 oracle 导入时将 oracle 日期数据类型错误转换为时间戳（java.sql）

hadoop和hive之间有啥关系？