搜索引擎对相似网页的去重算法探究

时间:2013-8-19 9:19:40 浏览:522次

  从《百度搜索引擎优化指南2.0》一文中可以了解到,百度和所有搜索引擎都是喜欢独特并且有价值的文章。而在复制粘贴技术如此方便的今天,网络上很难有唯一的内容,随着时间的延续,相同或相近的版本会越来越多,其目的只有一个:一切为了流量。所以他们不顾版权、不顾用户是否已经在某些官方网站或门户网站看过,就偷偷转载过来,以新颖的标题吸引读者从来获取流量。于是,网络上充斥着大量相似网页,据统计表明,近似重复网页的数量占总网页数量的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%,即互联网页面中有相当大的比例的内容是完全相同或者大体相近的重复网页,这些重复网页有的是没有一点儿改动的副本,有的在内容上稍做修改,比如同一文章的不同版本。

  网页重复可以分为以下四种类型:

  1、如果两篇文档内容和布局格式上毫无差别,则这种重复可以叫做完全重复页面。

  2、如果两篇文档内容相同,但是布局格式不同,则叫做内容重复页面。

  3、如果两篇文档有部分重要的内容相同,并且布局格式相同,则称为布局重复页面。

  4、如果两篇文档有部分重要的内容相同,但是布局格式不同,则称为部分重复页面。

  搜索引擎对近似重复网页发现,就是通过技术手段(如百度spider)快速全面发现这些重复信息的手段,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一。

  发现相似网页对搜索引擎来说有以下好处:

  1、相同网页表明的实际内容相同,所以百度可以删除这些重复网页来节约百度数据库的空间,进而节约资源的消耗并提高用户体验度、减少用户查看有价值网页的时间。

  2、通过对相同网页来源网站进行归纳整理,对于无原创内容的网站采用降权或减少索引的惩罚措施,保护原创作者的版权及搜索引擎数据库的独特内容。

  3、如果我们能够通过对以往收集信息的分析,预先发现重复网页,在今后的网页收集过程中就可以避开这些网页,从而提高网页的收集速度。有研究表明重复网页随着时间不发生太大变化,所以这种从重复页面集合中选择部分页面进行索引是有效的。

  4、如果某个网站与其他站点内容相似度较高,根据文章引用的思路,可以判定被抄袭的网站显得比其他网站更有价值,搜索引擎可以适应赋予该网站更高权重。

  实际工作的搜索引擎往往是在爬虫阶段进行近似重复检测的,下图给出了近似重复检测任务在搜索引擎中所处流程的说明。当爬虫新抓取到网页时,需要和已经建立到索引内的网页进行重复判断,如果判断是近似重复网页,则直接将其抛弃,如果发现是全新的内容,则将其加入网页索引中。

  回顾上一讲我们提到的《网站相似度和网页相似度探究》可以看出,百度星火计划已经初步体现了搜索引擎去重算法的优势和必然趋势。在以后的网站建设和优化过程中,不要一味的扩充网站内容量,而要从质量入手,慢慢赢得搜索引擎的信任。

上一篇:漫谈网站内链nofollow属性的利弊

下一篇:百度指数选择合适的网站关键词

返回列表

网站建设知识

品牌创意网站建设 上市公司网站建设 大型门户类网站建设 全方位网站运营代理
企业官方网站建设 B2C电子商务网站建设 专题活动网站(MINISITE)

更多 +联系我们

24小时服务热线:400-1180-360

业务 QQ:  444961110传真: 0311-80979256

渠道合作:  444961110@qq.com

更多 +关于我们

河北供求互联信息技术有限公司(河北供求网)诞生于2003年4月,是康灵集团旗下子公司,也是河北省第一批从事网站建设、电子商务开发,并获得国家工业和信息化部资质认证的企业。公司自成立以来,以传播互联网文化为已任, 以高科技为起点,以网络营销研究与应用为核心,致力于为各企事业单位提供网络域名注册、虚拟主机租用、网站制作与维护、网站推广和宣传、网站改版与翻译、移动互联网营销平台开发与运营、企业邮局、网络支付、系统集成、软件开发、电子商务解决方案等优质的信息技术服务,与中国科学院计算机网络信息中心、腾讯、百度、阿里巴巴、搜狗、360、电信、联通、中国数据、万网、中资源、阳光互联、点点客、北龙中网、电信通等达成战略合作伙伴关系。

版权所有 © 河北供求互联信息技术有限公司-最优秀的石家庄网站建设公司,为您提供石家庄网站建设、网站推广等优质服务.   
服务热线:400-1180-360 传真:0311-80979256 增值电信业务经营许可证:冀B2-20105159 冀ICP备09010972号

在线留言
免费试用
扫一扫

扫一扫
赠送神秘大礼

全国免费服务热线
400-1180-360

返回顶部