加载csv文件s3 pyspark的随机样本
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了加载csv文件s3 pyspark的随机样本相关的知识,希望对你有一定的参考价值。
我正在尝试在s3中加载一个总共100万行数据的随机样本。有没有一种简单的方法可以将s3中的随机样本直接加载到pyspark数据帧中?
在熊猫中,这就像这个df = pandas.read_csv(filename, skiprows=skiplines)
我可以使用pyspark中的等价物吗?
答案
我相信火花的DataFrameReader.csv
默认是lazy [引证需要]。
所以,你应该能够阅读csv并使用pyspark.sql.DataFrame.sample
:
frac = 0.01 # get approximately 1%
df = spark.read.csv(filename)
sample = df.sample(withReplacement=False, fraction=frac)
但是,在应用转换之前,实际上并没有执
以上是关于加载csv文件s3 pyspark的随机样本的主要内容,如果未能解决你的问题,请参考以下文章
Pyspark 从 S3 存储桶读取 csv 文件:AnalysisException:路径不存在
PYSPARK - 如何读取 S3 中所有子文件夹中的所有 csv 文件?