利用文件的md5值查重并删除重复的文件|电子爱好者

admin管理员组
文章数量:1660166

整理数据，发现有些文件名虽然不一样，但是文件内容是一样的。所以使用MD5值进行查重，然后通过os.system调用shell脚本删除多余元素。

#code by yangdaxia

import hashlib
import os
from collections import Counter

def getFileMD5(filepath):
    '''
    :param filepath:
    :return: md5
    '''
    f = open(filepath,'rb')
    md5 = hashlib.md5()
    md5.update(f.read())
    hash = md5.hexdigest()
    f.close()
    return str(hash)

def checkRemove(path):

   files = []
   fileMd5s = []
   lines = os.listdir(path)

   for idx, file in enumerate(lines):
       Md5 = getFileMD5(path + file)
       fileMd5s.append(Md5)
       #print(idx, yl)
       files.append(file)

   tmp = dict(zip(files, fileMd5s))
   print('构建文件与MD5映射完毕！')
   chachong = Counter(fileMd5s)
   print('查重中......')
   for key, value in chachong.items():
       if int(value) >1:
           print(key, value)
           chongfu = [key2 for key2, value2 in tmp.items() if value2 ==key]
           print(chongfu)
           with open('chongfu.txt', 'a')as fw:
               fw.write(str(chongfu)[1:-1]+'\n')
           rmf = path+chongfu[-1]
           print(rmf)
           os.system('rm -v %s'%(rmf))

if __name__=='__main__':
   path = '/mnt/lustrenew/dataset/test/Image/guonei_test/Images/'
   checkRemove(path)

本文标签：文件值查重

版权声明：本文标题：利用文件的md5值查重并删除重复的文件内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1729845452a1215075.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

利用文件的md5值查重并删除重复的文件

更多相关文章

C# 删除指定文件或文件夹

文件服务器上的文件需要删除嘛?

linux删除七天前的文件

hprof是什么文件？可以删除吗

Linux 系统下重命名(move)文件和删除(remove)文件文件夹

类文件具有错误的版本 61.0, 应为 52.0 请删除该文件或确保该文件位于正确的类路

Ubuntu删除文件和文件夹命令

删除pom文件中不需要的依赖

git上的.idea文件如何删除

java idea src下文件被清除

linux删除指定日期的文件

mac误删除文件恢复，mac文件丢失如何找回

文件夹监视及文件删除的简易方法

OGG 手动删除trail文件

oracle archive目录,Oracle如何正确删除archivelog文件？

C语言：编写程序，打开文本文件stu.txt，读出文件内容，将其中的字符‘s’删除，将修改后的内容存到student.txt文件中。

windows快速删除大量文件

Linux常用命令(对文件文件夹的增删改查)

编译预处理(文件读入并输出文件，删除注释、回车、换行和多余空格)

三星U盘格式化后数据不见了？3个方法帮您找回珍贵文件

发表评论

推荐文章

12.linux中的软件管理

手机下载土豆网视频复制到电脑上不能播放问题

Ubuntu20.04安装后无法上网解决办法。

解决kali无法上网问题

halcon算子翻译——estimate_noise

热门文章

技术孵化的探索之路

邮箱大师手机版服务器异常,网易邮箱大师-高效强大的全平台邮箱客户端

【网络】无法解析服务器的DNS地址能登陆QQ，无法打开网页

python运行非常慢的解决-提升Python程序运行效率的6个方法

nmap太慢？快速扫描端口工具MASSCAN！

flac格式歌曲如何转换成mp3格式，flac转mp3详细图文教程

android wifi display

爱奇艺利用网络协程编写高并发，到底有多牛？

如何下载网页视频（bilibili，爱奇艺等）

华硕ROG枪神8笔记本电脑系统恢复指南：重拾出厂纯净体验

最新文章

三星U盘格式化后数据不见了？3个方法帮您找回珍贵文件

格式化后数据恢复全解析

华恒2410常见问题

Windows Mobile平台智能系统存储器ROM和RAM解释

移动硬盘加密

联想e480一键恢复小孔_联想自带一键恢复没用了怎么处理

如何恢复U盘里格式化数据？别慌，有带图详细步骤！

ubuntu2

转载：基于AT91RM9200与LINUX2.6.26内核的嵌入式平台开发全过程

ArchLinux 2009.08 硬盘安装

开机直接进入键盘布局_开机怎么进入安全模式（windows10停留选择键盘布局）

u盘格式化后数据能恢复吗？这四款工具别错过！

u盘快速格式化后怎么恢复文件：深入解析与全面指南

授之以鱼不如授之以渔！五分钟教会您手工查杀***！

|--------硬件故障专题--------| 主板.CPU.硬盘.内存.显卡.声卡

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载