Python中怎么查找重复文件

发布时间:2021-07-05 17:00:33 作者:Leah
来源:亿速云 阅读:331

今天就跟大家聊聊有关Python中怎么查找重复文件,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

Python查找重复文件主要思路如下:

1. 查找同命文件

2. 利用了crc32,先检查出同样尺寸的文件,再计算crc32,得出相同的文件名列表。

下面是转载的一个Python查找重复文件的代码,虽然可以满足要求,但是在查找大量文件时候,速度很慢,我抽空把它调优。

#!/usr/bin/env python  #coding=utf-8  import binascii, os  filesizes = {}  samefiles = []  def filesize(path):  if os.path.isdir(path):  files = os.listdir(path)  for file in files:  filesize(path + "/" + file)  else:  size = os.path.getsize(path)  if not filesizes.has_key(size):  filesizes[size] = []  filesizes[size].append(path)  def filecrc(files):  filecrcs = {}  for file in files:  f = open(file, "r")  23 crc = binascii.crc32(f.read())  24 f.close()  if not filecrcs.has_key(crc):  filecrcs[crc] = []  filecrcs[crc].append(file)  for filecrclist in filecrcs.values():  if len(filecrclist) > 1:  samefiles.append(filecrclist)  if __name__ == '__main__':  path = r"J:\My Work" filesize(path)  for sizesamefilelist in filesizes.values():  if len(sizesamefilelist) > 1:  filecrc(sizesamefilelist)  for samfile in samefiles:  print "****** same file group ******"  for file in samefile:  print file

看完上述内容,你们对Python中怎么查找重复文件有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注亿速云行业资讯频道,感谢大家的支持。

推荐阅读:
  1. Python实现检测文件的MD5值来查找重复文件案例
  2. python中怎么根据文件名批量查找文件

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

python

上一篇:Python中怎么操作 HTTP

下一篇:C++11中怎么利用移动类对象代替拷贝类对象

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》