如何使用 Python 计算目录中的文件数

Posted

技术标签:

【中文标题】如何使用 Python 计算目录中的文件数【英文标题】:How to count the number of files in a directory using Python 【发布时间】:2011-02-07 14:24:13 【问题描述】:

我需要使用 Python 计算目录中的文件数。

我猜最简单的方法是len(glob.glob('*')),但这也将目录本身视为一个文件。

有没有办法只统计目录中的文件

【问题讨论】:

要省略目录,您可以对要查找的任何文件扩展名执行 '*.fileextension'。 【参考方案1】:

转换成列表之后就可以Len了

len(list(glob.glob('*')))

【讨论】:

【参考方案2】:

这是一个简单的解决方案,可以计算包含子文件夹的目录中的文件数。它可能会派上用场:

import os
from pathlib import Path

def count_files(rootdir):
    '''counts the number of files in each subfolder in a directory'''
    for path in pathlib.Path(rootdir).iterdir():
        if path.is_dir():
            print("There are " + str(len([name for name in os.listdir(path) \
            if os.path.isfile(os.path.join(path, name))])) + " files in " + \
            str(path.name))
            
 
count_files(data_dir) # data_dir is the directory you want files counted.

你应该得到一个类似这样的输出(当然是改变了占位符):

There are number of files files in name of sub-folder1
There are number of files files in name of sub-folder2

【讨论】:

【参考方案3】:

我编写的一个简单实用函数,它使用os.scandir() 而不是os.listdir()

import os 

def count_files_in_dir(path: str) -> int:
    file_entries = [entry for entry in os.scandir(path) if entry.is_file()]

    return len(file_entries)

主要的好处是,消除了对os.path.is_file() 的需求,并用os.DirEntry 实例的is_file() 替换,这也消除了对os.path.join(DIR, file_name) 的需求,如其他答案所示。

【讨论】:

【参考方案4】:

短小精悍

import os
directory_path = '/home/xyz/'
No_of_files = len(os.listdir(directory_path))

【讨论】:

另外,如果python文件在同一目录下,则不需要目录路径。【参考方案5】:

使用 pathlib 的答案并且不将整个列表加载到内存中:

from pathlib import Path

path = Path('.')

print(sum(1 for _ in path.glob('*')))  # Files and folders, not recursive
print(sum(1 for _ in path.glob('**/*')))  # Files and folders, recursive

print(sum(1 for x in path.glob('*') if x.is_file()))  # Only files, not recursive
print(sum(1 for x in path.glob('**/*') if x.is_file()))  # Only files, recursive

【讨论】:

【参考方案6】:

单行和递归:

def count_files(path):
    return sum([len(files) for _, _, files in os.walk(path)])

count_files('path/to/dir')

【讨论】:

【参考方案7】:

我在通过 Google Colab 计算 google 驱动器目录中的文件数时解决了这个问题,方法是将自己引导到目录文件夹中

import os                                                                                                
%cd /content/drive/My Drive/  
print(len([x for x in os.listdir('folder_name/']))  

普通用户可以试试

 import os                                                                                                     
 cd Desktop/Maheep/                                                     
 print(len([x for x in os.listdir('folder_name/']))  

【讨论】:

【参考方案8】:

虽然我同意@DanielStutzbach 提供的答案:os.listdir() 会比使用glob.glob 稍微高效一些。

但是,为了更加精确,如果您确实想计算文件夹中特定文件的数量,您可以使用len(glob.glob())。例如,如果您要计算要使用的文件夹中的所有 pdf:

pdfCounter = len(glob.glob1(myPath,"*.pdf"))

【讨论】:

【参考方案9】:

很简单:

print(len([iq for iq in os.scandir('PATH')]))

它只是计算目录中的文件数,我使用列表理解技术迭代特定目录,返回所有文件作为回报。 "len(returned list)" 返回文件数。

【讨论】:

欢迎来到 Stack Overflow。这个答案的质量可以通过添加解释来提高:How to Answer Thankyou Elletlar,我已经编辑了我的答案,我会确保以更全面的方式回复:D【参考方案10】:
import os

path, dirs, files = next(os.walk("/usr/lib"))
file_count = len(files)

【讨论】:

这不是递归的 OP 没有要求它是递归的【参考方案11】:

如果要统计目录中的所有文件——包括子目录中的文件,最pythonic的方式是:

import os

file_count = sum(len(files) for _, _, files in os.walk(r'C:\Dropbox'))
print(file_count)

我们使用比显式添加文件计数更快的总和(时间待定)

【讨论】:

嗨,我试图理解这段代码(代码运行良好),我知道我们可以在for 循环中使用_os.walk 我也知道。但不确定sum 函数中的下划线是怎么回事,请您详细说明一下。谢谢! Unsderscore 只是一个变量名@Ejaz,按照惯例,当我们忽略该变量时使用 - 这就是我们在这里所做的 - 我们称之为 walk 并且只计算每个目录中的文件数,忽略根目录和dirs walk 返回值 这是完全递归的,可能是这里最好的答案。 这应该是最合适的答案,也可以计算任何子文件夹中的文件..【参考方案12】:

我很惊讶没有人提到os.scandir

def count_files(dir):
    return len([1 for x in list(os.scandir(dir)) if x.is_file()])

【讨论】:

与 Python 3.6 配合得很好!【参考方案13】:

我这样做了,这返回了文件夹中的文件数(Attack_Data)......这很好。

import os
def fcount(path):
    #Counts the number of files in a directory
    count = 0
    for f in os.listdir(path):
        if os.path.isfile(os.path.join(path, f)):
            count += 1

    return count
path = r"C:\Users\EE EKORO\Desktop\Attack_Data" #Read files in folder
print (fcount(path))

【讨论】:

【参考方案14】:

对于所有类型的文件,包括子目录:

import os

list = os.listdir(dir) # dir is your directory path
number_files = len(list)
print number_files

仅文件(避免子目录):

import os

onlyfiles = next(os.walk(dir))[2] #dir is your directory path as string
print len(onlyfiles)

【讨论】:

这不是递归的 编辑队列已满,所以...请不要使用内置函数 (list, dir) 作为变量名或占位符!【参考方案15】:

我使用glob.iglob 的目录结构类似于

data
└───train
│   └───subfolder1
│   |   │   file111.png
│   |   │   file112.png
│   |   │   ...
│   |
│   └───subfolder2
│       │   file121.png
│       │   file122.png
│       │   ...
└───test
    │   file221.png
    │   file222.png

以下两个选项都返回 4(正如预期的那样,即不计算子文件夹本身

len(list(glob.iglob("data/train/*/*.png", recursive=True))) sum(1 for i in glob.iglob("data/train/*/*.png"))

【讨论】:

【参考方案16】:

这是一个我觉得很有用的简单的单行命令:

print int(os.popen("ls | wc -l").read())

【讨论】:

解析ls 的输出通常是不受欢迎的(它经常会导致问题),尽管这在shell 上并不是一个糟糕的“快速而肮脏”的方法。不过,您应该使用ls -1,这样可以保证每个文件一行。【参考方案17】:

我找到了另一个可能作为已接受答案的正确答案。

for root, dirs, files in os.walk(input_path):    
for name in files:
    if os.path.splitext(name)[1] == '.TXT' or os.path.splitext(name)[1] == '.txt':
        datafiles.append(os.path.join(root,name)) 


print len(files) 

【讨论】:

【参考方案18】:

如果您将使用操作系统的标准 shell,则可以更快地获得结果,而不是使用纯 Python 方式。

Windows 示例:

import os
import subprocess

def get_num_files(path):
    cmd = 'DIR \"%s\" /A-D /B /S | FIND /C /V ""' % path
    return int(subprocess.check_output(cmd, shell=True))

【讨论】:

但它不会那么便携。【参考方案19】:
import os

total_con=os.listdir('<directory path>')

files=[]

for f_n in total_con:
   if os.path.isfile(f_n):
     files.append(f_n)


print len(files)

【讨论】:

OP 询问了文件的数量,这也列出了目录。【参考方案20】:

os.listdir() 会比使用glob.glob 稍微高效一些。要测试文件名是否为普通文件(而不是目录或其他实体),请使用os.path.isfile()

import os, os.path

# simple version for working with CWD
print len([name for name in os.listdir('.') if os.path.isfile(name)])

# path joining version for other paths
DIR = '/tmp'
print len([name for name in os.listdir(DIR) if os.path.isfile(os.path.join(DIR, name))])

【讨论】:

如果您不在 cwd 上,请记住在 os.path.filename(name) 中添加 folder_path。 ***.com/questions/17893542/… 对于嵌套在目录中的递归计数文件,使用 os.walk() 解决方案可能会更好。 使用os.path.join(DIR, name) 比使用DIR + '/' + name 有什么好处?后者比前者更短,而且 IMO 更清晰。是否有一些操作系统会导致后者失败? @HelloGoodbye 这正是原因。 对于使用python3的人来说, print(len(os.listdir('DIRECTORY_PATH')))【参考方案21】:
import os
print len(os.listdir(os.getcwd()))

【讨论】:

这有时可能很有用,但它也包括计数中的子目录【参考方案22】:

这就是 fnmatch 派上用场的地方:

import fnmatch

print len(fnmatch.filter(os.listdir(dirpath), '*.txt'))

更多详情:http://docs.python.org/2/library/fnmatch.html

【讨论】:

如果您知道要查找的模式,这会更快(大约是我在包含 10,000 个文件的目录上测试的一半时间),而不是使用 os.path.isfile() 测试每个文件作为接受答案是。也比glob.glob() 快​​得多。【参考方案23】:
def directory(path,extension):
  list_dir = []
  list_dir = os.listdir(path)
  count = 0
  for file in list_dir:
    if file.endswith(extension): # eg: '.txt'
      count += 1
  return count

【讨论】:

【参考方案24】:

这使用os.listdir 并且适用于任何目录:

import os
directory = 'mydirpath'

number_of_files = len([item for item in os.listdir(directory) if os.path.isfile(os.path.join(directory, item))])

这可以通过生成器进行简化,并通过以下方式加快速度:

import os
isfile = os.path.isfile
join = os.path.join

directory = 'mydirpath'
number_of_files = sum(1 for item in os.listdir(directory) if isfile(join(directory, item)))

【讨论】:

【参考方案25】:

Luke 的代码重新格式化。

import os

print len(os.walk('/usr/lib').next()[2])

【讨论】:

【参考方案26】:
import os

def count_files(in_directory):
    joiner= (in_directory + os.path.sep).__add__
    return sum(
        os.path.isfile(filename)
        for filename
        in map(joiner, os.listdir(in_directory))
    )

>>> count_files("/usr/lib")
1797
>>> len(os.listdir("/usr/lib"))
2049

【讨论】:

【参考方案27】:
def count_em(valid_path):
   x = 0
   for root, dirs, files in os.walk(valid_path):
       for f in files:
            x = x+1
print "There are", x, "files in this directory."
return x

取自this post

【讨论】:

1. files 是一个列表。 2. OP 不是在寻找递归计数

以上是关于如何使用 Python 计算目录中的文件数的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 python 以编程方式计算存档中的文件数

如何获取目录下的文件数(一行Python)

如何使用 gsutil 计算存储桶文件夹中的文件数

计算Linux目录中的文件数? [关闭]

计算不同子目录中的文件数

使用Python计算zip文件中具有不同格式的文件数