只读取 sqlContext 中的前几行或标题
Posted
技术标签:
【中文标题】只读取 sqlContext 中的前几行或标题【英文标题】:Read only first few rows or header in sqlContext 【发布时间】:2017-03-06 10:03:36 【问题描述】:如https://github.com/databricks/spark-csv 所述, 我也在读csv
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('cars.csv')
是否有任何选项可以仅读取标题或仅读取前几行。 基本上我只想检查数据框中是否存在特定列?
【问题讨论】:
当我们从 csv 加载数据帧时,即步骤: df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema=' true').load('cars.csv') 是否会将整个数据加载到内存中? 【参考方案1】:如果 header 选项设置为 true,那么您可以使用:
df.first()
这样会返回标题行。
【讨论】:
以上是关于只读取 sqlContext 中的前几行或标题的主要内容,如果未能解决你的问题,请参考以下文章
pandas读取csv文件的前几行数据(nrows参数)pandas读取csv文件的中间几行数据(skiprows=range(a,b))