海量文件遍历之统计所有的不同子文件类型及占用内存

Posted amcomputer

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了海量文件遍历之统计所有的不同子文件类型及占用内存相关的知识,希望对你有一定的参考价值。

统计所有的不同子文件类型及占用内存

1 核心代码

import os
 
"""
通过给定目录,统计所有的不同子文件类型及占用内存
"""
size_dict = 
type_dict = 
def get_size_type(path):
    
    files = os.listdir(path)
    for filename in files:
        temp_path = os.path.join(path, filename)
        if os.path.isdir(temp_path):
            # 递归调用函数,实现深度文件名解析
            get_size_type(temp_path)     
        elif os.path.isfile(temp_path):
            # 获取文件后缀
            type_name=os.path.splitext(temp_path)[1]   
            #无后缀名的文件
            if not type_name:
                type_dict.setdefault("None", 0)
                type_dict["None"] += 1
                size_dict.setdefault("None", 0)
                size_dict["None"] += os.path.getsize(temp_path)
            # 有后缀的文件
            else:
                type_dict.setdefault(type_name, 0)
                type_dict[type_name] += 1
                size_dict.setdefault(type_name, 0)
                # 获取文件大小
                size_dict[type_name] += os.path.getsize(temp_path)  
    

核心逻辑说明:
1 先判断是否是目录, if os.path.isdir(temp_path):,如果是则继续递归调用自己
2 如果是文件,则判断有无后缀名,对于有后缀名文件,保存文件类型,数量和文件大小

2 实战

path= "data/"
get_size_type(path)
for each_type in type_dict.keys():
    print ("%5s下共有【%5s】的文件【%5d】个,占用内存【%7.2f】MB" %     
            (path,each_type,type_dict[each_type],\\
            size_dict[each_type]/(1024*1024)))
print("总文件数:  【%d】"%(sum(type_dict.values())))
print("总内存大小:【%.2f】GB"%(sum(size_dict.values())/(1024**3)))


运行结果:

以上是关于海量文件遍历之统计所有的不同子文件类型及占用内存的主要内容,如果未能解决你的问题,请参考以下文章

统计指定目录文件夹个数和文件类型和文件总大小

统计指定目录文件夹个数和文件类型和文件总大小

前端学PHP之文件操作

前端学PHP之文件操作

C#如何遍历指定目录以及指定目录下所有子文件夹,并获取除指定文件类型以外的所有文件的绝对路径?

java 遍历一个目录,统计目录及其子目录中各种类型文件的数目,统计完成后,打印出各种扩展名及其数目。急