sameline 检查文件中的行是否有重复的
sameline是偶然一次需求编写的一个小工具,应该属于极小众需求吧。
目的是检查一个文件中是否有重复的行,预设的文件大小上限是400万行。处理时间在秒级,目前还没遇到需要超过1秒的情况。
当时比较土,其实用sort与uniq之后数数行数也能判断有没有重复,不过这个东东的好处就是速度比较快,另外就是可以准确的检察出来重复的内容是什么。
运行于64位的linux系统。
---------------------------------------------------------------
本站作品根据创作共同协议进行授权, 转载时请务必以超链接形式标明文章原始出处
原文地址:http://www.mirecle.com/2009/07/16/sameline-check-the-files-for-duplicate-lines.html
---------------------------------------------------------------
您可能会喜欢:
分类: 软件