数据标注员工作笔记:文档内有无文件筛选
Posted Mario cai
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据标注员工作笔记:文档内有无文件筛选相关的知识,希望对你有一定的参考价值。
代码源自不愿意姓名的志华哥
#读取文件
import os
List=[]
None_list=[]
Path = '/home/SENSETIME/huangyaoqi_vendor/下载/~标准人物库'
def Discriminate_file(Path,List,None_list):
for file in os.listdir(Path):
file_path = os.path.join(Path, file)
if os.path.isdir(file_path):
if len(os.listdir(file_path)) ==0 :
None_list.append(file_path.split('/')[-1])
Discriminate_file(file_path, List,None_list)
if os.path.splitext(file)[1] =='.jpg' or os.path.splitext(file)[1] =='.png' or os.path.splitext(file)[1] =='.jpeg' or os.path.splitext(file)[1] =='.webp' :
print(file_path.split('/')[-1])
List.append(file_path.split('/')[-2])
#开始进行筛选:原理为包含剔除
Discriminate_file(Path,List,None_list)
list_=List
no=None_list
def clear_file(list_,no):
for i in range(len(list_)-1,-1,-1):
for j in range(len(no)-1,-1,-1):
if list_[i] == no[j]:
del no[j]
return n
clear_file(list_,no)
#检验过程
import pandas as pd
pd.DataFrame(pd.DataFrame(List)[0].values==['毛建新'])[0].value_counts()
以上是关于数据标注员工作笔记:文档内有无文件筛选的主要内容,如果未能解决你的问题,请参考以下文章