python连接spark(pyspark)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python连接spark(pyspark)相关的知识,希望对你有一定的参考价值。

from pyspark import SparkContext

from pyspark import SparkConf

string_test = ‘pyspark_test‘

conf = SparkConf().setAppName(string_test).setMaster(‘yarn‘)

sc = SparkContext(conf=conf)

list_test = [1, 2, 3]

x = sc.parallelize(list_test)

y = x.map(lambda x: (x, x * 2))

print x.collect()

print y.collect()

sc.stop()

 

pyspark api : https://www.iteblog.com/archives/1395.html

以上是关于python连接spark(pyspark)的主要内容,如果未能解决你的问题,请参考以下文章

PyCharm 远程连接linux中Python 运行pyspark

如何在 Spark 中确定 ALS.transImplicit 中的偏好/置信度?

PySpark - 为 SQL Server 使用 Spark 连接器

我可以使用spark 2.3.0和pyspark从Kafka进行流处理吗?

来自 Spark 安装的 Pyspark VS Pyspark python 包

Apache Spark:如何在Python 3中使用pyspark