pyspark基础知识点

Posted 2020-11-24 tianqizhi

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了pyspark基础知识点相关的知识，希望对你有一定的参考价值。

1. 查

1.1 行元素查询操作

像SQL那样打印列表前20元素，show函数内可用int类型指定要打印的行数：

df.show()
df.show(30)

以树的形式打印概要：

df.printSchema()

获取头几行到本地：　

list = df.head(3) # Example: [Row(a=1, b=1), Row(a=2, b=2), ... ...]
list = df.take(5) # Example: [Row(a=1, b=1), Row(a=2, b=2), ... ...]

查询总行数：　　

df.count()

查询某列为null的行：

from pyspark.sql.functions import isnull
df = df.filter(isnull("col_a"))

输出list类型，list中每个元素是Row类：

list = df.collect()#注：此方法将所有数据全部导入到本地，返回一个Array对象

查询概况

df.describe().show()

去重set操作，跟py中的set一样，可以distinct()一下去重，同时也可以.count()计算剩余个数

data.select(‘columns‘).distinct().show()

随机抽样有两种方式，一种是在HIVE里面查数随机；另一种是在pyspark之中

#HIVE里面查数随机
sql = "select * from data order by rand() limit 2000"

#pyspark之中
sample = result.sample(False,0.5,0) # randomly select 50% of lines

1.2 列元素操作

获取Row元素的所有列名：　

r = Row(age=11, name=‘Alice‘)
print(r.columns) # [‘age‘, ‘name‘]

选择一列或多列：select

df["age"]
df.age
df.select(“name”)
df.select(df[‘name’], df[‘age’]+1)
df.select(df.a, df.b, df.c) # 选择a、b、c三列
df.select(df["a"], df["b"], df["c"]) # 选择a、b、c三列

重载的select方法：　

#同时显示id列 、id + 1列
jdbcDF.select(jdbcDF( "id" ), jdbcDF( "id") + 1 ).show( false)

#还可以用where按条件选择
jdbcDF.where("id = 1 or c1 = ‘b‘" ).show()

1.3 排序　　

orderBy和sort：按指定字段排序，默认为升序

train.orderBy(train.Purchase.desc()).show(5)

1.4 抽样

sample是抽样函数

t1 = train.sample(False, 0.2, 42)
t2 = train.sample(False, 0.2, 43)
t1.count(),t2.count()
Output:
(109812, 109745)

　　withReplacement = True or False代表是否有放回。fraction = x, where x = .5，代表抽取百分比

2.增、改

2.1 新建数据

有这么两种常规的新建数据方式：createDataFrame、.toDF()

sqlContext.createDataFrame(pd.dataframe())#是把pandas的dataframe转化为spark.dataframe格式，所以可以作为两者的格式转化


from pyspark import SparkContext, SparkConf
from pyspark.sql import SQLContext
from pyspark import sql

conf = SparkConf().setAppName("myFirstApp").setMaster("local")
sc = SparkContext(conf=conf)
sqlContext = sql.SQLContext(sc)

a = sc.parallelize([[1, "a"], [2, "b"], [3, "c"], [4, "d"], [5, "e"]]).toDF([‘ind‘, "state"])

a.show()

参考：https://blog.csdn.net/sinat_26917383/article/details/80500349　　

以上是关于pyspark基础知识点的主要内容，如果未能解决你的问题，请参考以下文章

PySpark数据分析基础：pyspark.mllib.regression机器学习回归核心类详解+代码详解

android小知识点代码片段

pyspark对应的scala代码PythonRDD对象

Android Fragments 基础知识：为啥？这在概念上是错误的吗？

独家 | PySpark和SparkSQL基础：如何利用Python编程执行Spark（附代码）