网站相似度和网页相似度探究

时间:2013-8-18 1:48:16 浏览:517次

  整天揪心于搜索引擎的SEOer们应该都清楚,搜索引擎喜欢原创的、与众不同的文章。对于已经存在于互联网的网页或对搜索引擎这个喜新厌旧的机器人来说,它懒得再去抓取并给予较高的评价。所以我们在网站建设以及SEO优化过程中,要尽量避免网站相似度太高,以及网页雷同。

  网站相似度是多个相似网页积累起来的结果。造成网页相似的原因有很多:文章转载、引用,摘抄,工具采集,网站镜像,使用小偷抓取程序等等。其实大家可以看一下,随便搜索一篇热门新闻的关键词,你会找到好多标题相同的结果,甚至好多网页的内容也完全相同。毕竟文字是最容易修改的网页元素,那些版权声明、作者、来源都可以轻松的被替换掉,导致网站上出现各个看似不同实则同源的诸多版本。为了搜索引擎流量,大多数站长也便不顾版权以及网站整体体验,疯狂地抢网站上的资源丰富自身内容。

  搜索引擎虽然会判断网页相似度,但是毕竟反映时间上还有欠缺。好多同标题的抄袭文章很快被收录并拥有不错的排名,但是过一两天之后排名消失,甚至连同快照也消失了,估计是搜索引擎认出它是抄袭文章而给的惩罚措施。但是好多站长为了这些流量就疯狂转载网站上的热门内容、复制甚至是批量采集。把一条新闻换个相似标题再发布一遍,让网友们认为是新的文章。结果打开一看就是刚刚看过的内容。这无疑是浪费掉了网民们寻找准确信息的宝贵时间。

  那么对于搜索引擎来说,如何评判网站相似度呢?刚说了网站相似度是结合整个网站所有网页进行对比的结果。而网页相似度就是靠抓取的网站源代码进行对比。一般来说源代码相似度高于70%就算是抄袭的文章了,这样的文章即便发布之后获得了好的排名,也会在以后的日子里被搜索引擎查出非原创而被降权删掉的。为了避免过度相似,灰帽SEOer们便研究了“伪原创文章”来对付搜索引擎。

  伪原创的水平直接影响了读者阅读体验和网页相似度。如果是人为的伪原创、根据意思替换同义词,不会影响文章可读性的。但是大多数人用的是伪原创工具,通常情况下伪原创程度越高,读者阅读便越困难、越难以理解原作者的意图。

  百度星火计划虽然是提倡原创、反对抄袭,这也正是让站长们提高网站的原创度,减少网站相似度(包括网站内部网页之间的相似度),搜索引擎喜欢唯一的东西,读者也不希望重复读同一则信息,所以原创内容才是网站持续发展的源动力。

上一篇:百度指数选择合适的网站关键词

下一篇:网站日志spider分析

返回列表

网站建设知识

品牌创意网站建设 上市公司网站建设 大型门户类网站建设 全方位网站运营代理
企业官方网站建设 B2C电子商务网站建设 专题活动网站(MINISITE)

更多 +联系我们

24小时服务热线:400-1180-360

业务 QQ:  444961110传真: 0311-80979256

渠道合作:  444961110@qq.com

更多 +关于我们

河北供求互联信息技术有限公司(河北供求网)诞生于2003年4月,是康灵集团旗下子公司,也是河北省第一批从事网站建设、电子商务开发,并获得国家工业和信息化部资质认证的企业。公司自成立以来,以传播互联网文化为已任, 以高科技为起点,以网络营销研究与应用为核心,致力于为各企事业单位提供网络域名注册、虚拟主机租用、网站制作与维护、网站推广和宣传、网站改版与翻译、移动互联网营销平台开发与运营、企业邮局、网络支付、系统集成、软件开发、电子商务解决方案等优质的信息技术服务,与中国科学院计算机网络信息中心、腾讯、百度、阿里巴巴、搜狗、360、电信、联通、中国数据、万网、中资源、阳光互联、点点客、北龙中网、电信通等达成战略合作伙伴关系。

版权所有 © 河北供求互联信息技术有限公司-最优秀的石家庄网站建设公司,为您提供石家庄网站建设、网站推广等优质服务.   
服务热线:400-1180-360 传真:0311-80979256 增值电信业务经营许可证:冀B2-20105159 冀ICP备09010972号

在线留言
免费试用
扫一扫

扫一扫
赠送神秘大礼

全国免费服务热线
400-1180-360

返回顶部