如何从存储在 pyspark 链接中的数据制作数据框?
Posted
技术标签:
【中文标题】如何从存储在 pyspark 链接中的数据制作数据框?【英文标题】:How to make dataframe from data stored in the link in pyspark? 【发布时间】:2019-02-08 11:56:45 【问题描述】:静态数据存储在提供的链接上: https://assets.datacamp.com/production/course_4452/datasets/airports.csv
我使用 urllib 获取字符串格式的数据,然后将该数据转换为 rdd,我也使用了 toDF() 来制作新的数据框,但我无法从数据中制作正确的数据框。
【问题讨论】:
向我们展示您尝试的代码和您遇到的错误。 【参考方案1】:这对我有用:-
import pandas as pd
airportdata = pd.read_csv("https://assets.datacamp.com/production/course_4452
/datasets/airports.csv")
df = sqlContext.createDataFrame(airportdata)
df.take(5)
【讨论】:
实际上 panadas 数据帧不能存储在多个集群上,所以这样做是错误的.. 您的数据源(csv 文件)本身存储为非分布式 CSV 文件。您可以将文件本身存储为分布式文件(例如在 HDFS、Hive 或 Cassendra 中),或者需要将其作为单个统一数据集读取,然后将其存储在分布式存储系统中。以上是关于如何从存储在 pyspark 链接中的数据制作数据框?的主要内容,如果未能解决你的问题,请参考以下文章
如何将存储在 HDFS 中包含行的文本文件转换为 Pyspark 中的数据框?
如何使用带有 PySpark 的 WHERE 子句在 AWS Glue 中查询 JDBC 数据库?
无法使用 Pyspark 2.4.4 读取 s3 存储桶中的镶木地板文件