DataBricks中pandas.DataFrame.tail的等价物是啥[关闭]

Posted

技术标签:

【中文标题】DataBricks中pandas.DataFrame.tail的等价物是啥[关闭]【英文标题】:What is the equivalent of pandas.DataFrame.tail in DataBricks [closed]DataBricks中pandas.DataFrame.tail的等价物是什么[关闭] 【发布时间】:2019-01-14 15:29:08 【问题描述】:

DataBricks 中 pandas.DataFrame.tail 的等价物是什么?我在文档中搜索了一下,但没有找到任何相关功能。

【问题讨论】:

【参考方案1】:

DataBricks 显然使用的是 pyspark.sql 数据帧,而不是 pandas

# Index the df if you haven't already
# Note that monotonically increasing id has size limits
from pyspark.sql.functions import monotonically_increasing_id
df = df.withColumn("index", monotonically_increasing_id())

# Query with the index
tail = sqlContext.sql("""SELECT * FROM df ORDER BY index DESC limit 5""")
tail.show()

请注意,这很昂贵,并且无法发挥Spark 的优势。

另见:

https://medium.com/@chris_bour/6-differences-between-pandas-and-spark-dataframes-1380cec394d2

pyspark,spark: how to select last row and also how to access pyspark dataframe by index

【讨论】:

以上是关于DataBricks中pandas.DataFrame.tail的等价物是啥[关闭]的主要内容,如果未能解决你的问题,请参考以下文章

Azure Databricks:如何在 Databricks 群集中添加 Spark 配置

如何使用 Spark sql 在 Databricks 中使用内部联接更新 Databricks Delta 表

通过 Python 中的 Databricks api 读取 Databricks 表?

无法在 Databricks 中使用 Configparser 读取配置文件

检查 Databricks 笔记本中是不是存在 S3 目录

Databricks的秘密[关闭]