根据相关资料显示,查重技术是1993年Arizona大学的Manber(Google现副总裁、工程师)推出了一个sif工具,寻找相似文件。1995年Stanford大学的Brin(Sergey Brin,Google创始人之一)和Garcia-Molina等人在“数字图书观”工程中首次提出文本复制检测机制COPS(Copy Protection System)系统与相应算法[Sergey Brin et al 1995].之后这种检测重复技术被应用到搜索引擎中,基本的核心技术既比较相似。
网页和简单的文档不同,网页的特殊属性具有内容和格式等标记,因此在内容和格式上的相同相似构成了4种网页相似的类型。
1、两个页面内容格式完全相同。
2、两个页面内容相同,但格式不同。
3、两个页面部分内容相同并且格式相同。
4、两个页面部分重要相同但格式不同。
综上,网页的查重技术的核心是“比较相似”。