加载csv文件s3 pyspark的随机样本

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了加载csv文件s3 pyspark的随机样本相关的知识,希望对你有一定的参考价值。

我正在尝试在s3中加载一个总共100万行数据的随机样本。有没有一种简单的方法可以将s3中的随机样本直接加载到pyspark数据帧中?

在熊猫中,这就像这个df = pandas.read_csv(filename, skiprows=skiplines)

我可以使用pyspark中的等价物吗?

答案

我相信火花的DataFrameReader.csv默认是lazy [引证需要]。

所以,你应该能够阅读csv并使用pyspark.sql.DataFrame.sample

frac = 0.01 # get approximately 1%
df = spark.read.csv(filename)
sample = df.sample(withReplacement=False, fraction=frac)

但是,在应用转换之前,实际上并没有执

以上是关于加载csv文件s3 pyspark的随机样本的主要内容,如果未能解决你的问题,请参考以下文章

Pyspark 从 S3 存储桶读取 csv 文件:AnalysisException:路径不存在

将大 csv 文件中的小随机样本加载到 R 数据框中

PYSPARK - 如何读取 S3 中所有子文件夹中的所有 csv 文件?

如何在 Copy commd 中使用反斜杠字符将 s3 csv gz 文件加载到 Redshift

使用 pyspark 从 s3 读取/加载 avro 文件

无法从 S3 读取 csv 到 AWS 上 EC2 实例上的 pyspark 数据帧