python 通过给定目录统计所有的不同子文件类型及占用内存

Posted amcomputer

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 通过给定目录统计所有的不同子文件类型及占用内存相关的知识,希望对你有一定的参考价值。

1 背景

python 通过给定目录统计所有的不同子文件类型及占用内存。
看这个名字觉得挺吓人的,
但其实数据或者文件夹中已经有了具体信息,如数据类型,大小等等,只需要遍历目录或者文件拿到这些信息就好了。

主要利用了操作系统的提供的接口(OS模块),从里面获取具体的文件数据。

2 OS模块介绍

Python OS模块包含普遍的操作系统功能, 这里的的OS是操作系统的简写(Operation System)。
该模块 可以处理文件和目录这些我们日常手动需要做的操作。如果你希望你的程序能够与平台无关的话,这个模块是尤为重要的。
上面3个函数应该是比较常用的了。

os.listdir()
os.path.join()
os.path.getsize()  # 传入一个完整的文件路径,返回该文件的大小;

3 代码实现

import os
 
"""
通过给定目录,统计所有的不同子文件类型及占用内存
"""
size_dict = 
type_dict = 
def get_size_type(path):
    
    files = os.listdir(path)
    for filename in files:
        temp_path = os.path.join(path, filename)
        if os.path.isdir(temp_path):
            # 递归调用函数,实现深度文件名解析
            get_size_type(temp_path)     
        elif os.path.isfile(temp_path):
            # 获取文件后缀
            type_name=os.path.splitext(temp_path)[1]   
            #无后缀名的文件
            if not type_name:
                type_dict.setdefault("None", 0)
                type_dict["None"] += 1
                size_dict.setdefault("None", 0)
                size_dict["None"] += os.path.getsize(temp_path)
            # 有后缀的文件
            else:
                type_dict.setdefault(type_name, 0)
                type_dict[type_name] += 1
                size_dict.setdefault(type_name, 0)
                # 获取文件大小
                size_dict[type_name] += os.path.getsize(temp_path)  
    

4 用法

path= "data/"
get_size_type(path)
for each_type in type_dict.keys():
    print ("%5s下共有【%5s】的文件【%5d】个,占用内存【%7.2f】MB" %     
            (path,each_type,type_dict[each_type],\\
            size_dict[each_type]/(1024*1024)))
print("总文件数:  【%d】"%(sum(type_dict.values())))
print("总内存大小:【%.2f】GB"%(sum(size_dict.values())/(1024**3)))

以上是关于python 通过给定目录统计所有的不同子文件类型及占用内存的主要内容,如果未能解决你的问题,请参考以下文章

统计指定目录文件夹个数和文件类型和文件总大小

统计指定目录文件夹个数和文件类型和文件总大小

python如何在给定的字符串中,统计某个特定子串的数量?

C#,给定一个目录,遍历该目录下的所有文件、文件夹

python 统计文件夹下的文件夹/某类型文件的数目

捕获主目录中所有子文件夹中的所有 csv 文件 - Python 3.x