如何从存储在 pyspark 链接中的数据制作数据框?

Posted

技术标签:

【中文标题】如何从存储在 pyspark 链接中的数据制作数据框?【英文标题】:How to make dataframe from data stored in the link in pyspark? 【发布时间】:2019-02-08 11:56:45 【问题描述】:

静态数据存储在提供的链接上: https://assets.datacamp.com/production/course_4452/datasets/airports.csv

我使用 urllib 获取字符串格式的数据,然后将该数据转换为 rdd,我也使用了 toDF() 来制作新的数据框,但我无法从数据中制作正确的数据框。

【问题讨论】:

向我们展示您尝试的代码和您遇到的错误。 【参考方案1】:

这对我有用:-

import pandas as pd
airportdata = pd.read_csv("https://assets.datacamp.com/production/course_4452
               /datasets/airports.csv")
df = sqlContext.createDataFrame(airportdata)
df.take(5)

【讨论】:

实际上 panadas 数据帧不能存储在多个集群上,所以这样做是错误的.. 您的数据源(csv 文件)本身存储为非分布式 CSV 文件。您可以将文件本身存储为分布式文件(例如在 HDFS、Hive 或 Cassendra 中),或者需要将其作为单个统一数据集读取,然后将其存储在分布式存储系统中。

以上是关于如何从存储在 pyspark 链接中的数据制作数据框?的主要内容,如果未能解决你的问题,请参考以下文章

如何将存储在 HDFS 中包含行的文本文件转换为 Pyspark 中的数据框?

如何使用带有 PySpark 的 WHERE 子句在 AWS Glue 中查询 JDBC 数据库?

无法使用 Pyspark 2.4.4 读取 s3 存储桶中的镶木地板文件

如何从 PySpark 中的数据框中获取模式定义?

如何从数据帧列中的路径读取 AWS 上 pyspark 中的许多 Json 文件?

如何保存从 PySpark 中的 URL 获取的 JSON 数据?