网页查重技术的核心是“比较相似”

2008-6-29 来源: 不详 点击查看评论

网站建设,网站推广 根据相关资料显示,查重技术是1993年Arizona大学的Manber(Google现副总裁、工程师)推出了一个sif工具,寻找相似文件。1995年Stanford大学的Brin(Sergey Brin,Google创始人之一)和Garcia-Molina等人在“数字图书观”工程中首次提出文本复制检测机制COPS(Copy Protection System)系统与相应算法[Sergey Brin et al 1995].之后这种检测重复技术被应用到搜索引擎中,基本的核心技术既比较相似。

  网页和简单的文档不同,网页的特殊属性具有内容和格式等标记,因此在内容和格式上的相同相似构成了4种网页相似的类型。

  1、两个页面内容格式完全相同。

  2、两个页面内容相同,但格式不同。

  3、两个页面部分内容相同并且格式相同。

  4、两个页面部分重要相同但格式不同。

综上,网页的查重技术的核心是“比较相似”。
网站建设,网站推广

  • 上一篇文章:
  •   

  • 下一篇文章:
    • 没有相关文章
    讨论区
    已有位网友浏览过此页查看评论内容
    匿名
    频道推荐
    商讯
    商讯
    158信息网
    Copyright @ 2008 158信息网 All Right Reserved 违法不良信息举报中心 不良信息举报信箱:licmty@163.com QQ:303768887