如何在不读取所有数据的情况下获取此 CSV 的前 100 行 [关闭]

Posted

技术标签:

【中文标题】如何在不读取所有数据的情况下获取此 CSV 的前 100 行 [关闭]【英文标题】:How can I get the first 100 lines of this CSV without reading all the data [closed] 【发布时间】:2021-08-06 07:46:54 【问题描述】:

我有一个非常大的 CSV 文件,我的内存根本无法读取整个 CSV。如何在不读取所有数据的情况下获取此 CSV 的前 100 行

【问题讨论】:

pd.read_csv 中有一个选项nrows。你可以试试pd.read_csv('file.csv', nrows=100) 这能回答你的问题吗? Python Pandas: How to read only first n rows of CSV files in? 【参考方案1】:
import pandas as pd

first100 = pd.read_csv("someCoolData.csv", nrows=100)

这将只将前 100 行从给定的 csv 文件中读取到数据框中。

如需进一步解释发生了什么,请参阅: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

【讨论】:

谢谢。一开始我也考虑过这种方法,但是我不能确定panda在把CSV读入内存后,会读到指定的行数。我刚刚测试了这种情况,发现panda只是把指定行数读入内存,而不是全部读入。

以上是关于如何在不读取所有数据的情况下获取此 CSV 的前 100 行 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

如何在不连接的情况下读取 Python 数据框中的数据?

Python 3:如何在不保存在磁盘上的情况下将 pandas 数据帧作为 csv 流上传?

用python读取一个文件夹下的所有CSV文件里某一列数据中最大值,将此最大值所在行截取到新CSV文件中?

如何在不打开的情况下从 CSV 文件中检索数据

在不读取文件的情况下使用 parquet 文件统计信息

PHP:在不改变 memory_limit 和 max_execution_time 的情况下读取和导出大数据