海量文件遍历之统计所有的不同子文件类型及占用内存
Posted amcomputer
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了海量文件遍历之统计所有的不同子文件类型及占用内存相关的知识,希望对你有一定的参考价值。
统计所有的不同子文件类型及占用内存
1 核心代码
import os
"""
通过给定目录,统计所有的不同子文件类型及占用内存
"""
size_dict =
type_dict =
def get_size_type(path):
files = os.listdir(path)
for filename in files:
temp_path = os.path.join(path, filename)
if os.path.isdir(temp_path):
# 递归调用函数,实现深度文件名解析
get_size_type(temp_path)
elif os.path.isfile(temp_path):
# 获取文件后缀
type_name=os.path.splitext(temp_path)[1]
#无后缀名的文件
if not type_name:
type_dict.setdefault("None", 0)
type_dict["None"] += 1
size_dict.setdefault("None", 0)
size_dict["None"] += os.path.getsize(temp_path)
# 有后缀的文件
else:
type_dict.setdefault(type_name, 0)
type_dict[type_name] += 1
size_dict.setdefault(type_name, 0)
# 获取文件大小
size_dict[type_name] += os.path.getsize(temp_path)
核心逻辑说明:
1 先判断是否是目录, if os.path.isdir(temp_path):,如果是则继续递归调用自己
2 如果是文件,则判断有无后缀名,对于有后缀名文件,保存文件类型,数量和文件大小
2 实战
path= "data/"
get_size_type(path)
for each_type in type_dict.keys():
print ("%5s下共有【%5s】的文件【%5d】个,占用内存【%7.2f】MB" %
(path,each_type,type_dict[each_type],\\
size_dict[each_type]/(1024*1024)))
print("总文件数: 【%d】"%(sum(type_dict.values())))
print("总内存大小:【%.2f】GB"%(sum(size_dict.values())/(1024**3)))
运行结果:
以上是关于海量文件遍历之统计所有的不同子文件类型及占用内存的主要内容,如果未能解决你的问题,请参考以下文章