只读取 sqlContext 中的前几行或标题

Posted 2023-04-15

技术标签:

【中文标题】只读取 sqlContext 中的前几行或标题【英文标题】：Read only first few rows or header in sqlContext 【发布时间】：2017-03-06 10:03:36 【问题描述】：

如https://github.com/databricks/spark-csv 所述，我也在读csv

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('cars.csv')

是否有任何选项可以仅读取标题或仅读取前几行。基本上我只想检查数据框中是否存在特定列？

【问题讨论】：

当我们从 csv 加载数据帧时，即步骤： df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema=' true').load('cars.csv') 是否会将整个数据加载到内存中？ 【参考方案1】：

如果 header 选项设置为 true，那么您可以使用：

df.first()

这样会返回标题行。

【讨论】：

以上是关于只读取 sqlContext 中的前几行或标题的主要内容，如果未能解决你的问题，请参考以下文章