sameline是偶然一次需求编写的一个小工具,应该属于极小众需求吧。
目的是检查一个文件中是否有重复的行,预设的文件大小上限是400万行。处理时间在秒级,目前还没遇到需要超过1秒的情况。
当时比较土,其实用sort与uniq之后数数行数也能判断有没有重复,不过这个东东的好处就是速度比较快,另外就是可以准确的检察出来重复的内容是什么。
运行于64位的linux系统。