将文件夹中 tsv 的内容合并到数据框中

Posted

技术标签:

【中文标题】将文件夹中 tsv 的内容合并到数据框中【英文标题】:Merging content of tsv's from a folder into a dataframe 【发布时间】:2021-10-03 21:24:19 【问题描述】:

我正在尝试将本地文件夹中的 tsv 文件合并到 pandas 数据框中。 我正在尝试遍历文件夹并将它们附加到数据框。 这是我到目前为止所尝试的:

bigdf=[]
for file in os.listdir(r'C:\Users\xxxx'):
    print(file)
    df = pd.read_csv(r'C:\Users\xxxx\xxxx\' + file, sep='\t')
    bigdf.append(df)

'file' 只给我文件名而不是文件本身的内容。 第 4 行完全不工作。有谁知道如何以附加内容的方式循环文件?

【问题讨论】:

【参考方案1】:

您的代码似乎是正确的,但您可以尝试类似的方法:

import pathlib

rootdir = pathlib.Path(r'C:\Users\xxxx')

data = []
for file in rootdir.glob('*.tsv'):
    print(file)
    df = pd.read_csv(file, sep='\t')
    data.append(df)

bigdf = pd.concat(data)  # or pd.concat(data, axis='columns')

【讨论】:

以上是关于将文件夹中 tsv 的内容合并到数据框中的主要内容,如果未能解决你的问题,请参考以下文章

使用熊猫合并tsv文件的问题

如何将压缩的 TSV 文件读取到 Databricks 上的数据框?

怎么把文件夹里的文件内容合并

如何将rtf文件合并

python 模块化 处理大文件 tsv csv

js怎么把几张图片合并到一个.bin文件中