spark SQL

Posted 我和你并没有不同

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark SQL相关的知识,希望对你有一定的参考价值。

参考文献:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice3/index.html

大数据工程师们开始探索如何使用类 SQL 的方式来操作和分析大数据,通过大量的努力,目前业界已经出现很多 SQL on Hadoop 的方案,如 Hive, Impala 等。Spark SQL 就是其中的一个,实际上 Spark SQL 并不是一开始就存在于 Spark 生态系统里的,它的前身是 Shark

Spark SQL 是 Spark 生态系统里用于处理结构化大数据的模块
Spark DataFrame 以 RDD 为基础,但是带有 Schema 信息,它类似于传统数据库中的二维表格
一旦将 DataFrame 注册成临时表,我们就可以使用类 SQL 的方式操作这些数据
当前支持的数据源有:Json、文本文件、RDD、关系数据库、Hive、Parquet




以上是关于spark SQL的主要内容,如果未能解决你的问题,请参考以下文章

Hive进阶-- Hive SQLSpark SQL和 Hive on Spark SQL

SQL Spark - 组的滞后与第一行

Spark—idea

LazyStruct:在行尾检测到额外字节!忽略类似问题

科普Spark,Spark是什么,如何使用Spark

Spark面试题——Spark资源调优