通过网站日志分析spider对网站的爬行情况

时间:2013-8-17 12:20:44 浏览:765次

  前面我们的网站建设知识库中讲到了spider的用途,介绍了常用spider的名称和spider在搜索引擎中的工作方式。具体请阅读《spider知多少》一文。今天我们来讲讲如何利用spider的爬行情况分析网站的优化状态。这个能记录spider爬行情况的文件就是网站日志文件。

  网站日志包含着对网站所有访问记录,包括人工浏览和蜘蛛抓取。这个网站日志可以自定义生成的项目:比如网页访问来源、访问IP、访问时间、访问代理、访问者浏览器版本、访问者所用电脑系统、访问状态等等。浏览量越大的网站,这个日志文件就越大。当然可以自定义网站日志的生成间隔,具体方法可以参照IIS日志设置方法。对于真实访客的浏览,我们没必要通过网站日志分析,直接在网页上添加一个多功能的数据统计代码,我们就能很方便地了解用户访问网站的时间、地点、入口页、来源链接、停留时间、访问深度等。现在主要说利用网站日志分析搜索引擎蜘蛛spider的行为。

  要分析spider,网站日志需要有以下几项:访问时间、来访IP、访问代理标识、访问状态。其他的就不是必须的了。由于大多数站长都专注于百度搜索引擎里的排名,我们就拿百度spider为例说说不同的spider对网站情况的不同反映。

  百度spider名叫baiduspider或baiduspider2.0,以及百度图片蜘蛛Baiduspider-image,从网站日志里可以通过这两个名字来找到百度蜘蛛。接下来就是读取百度蜘蛛的IP和访问状态码。

  123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。

  220.181.68.*每天这个IP 段只增不减很有可能进沙盒或K站。

  220.181.7.*、123.125.66.* 代表百度蜘蛛IP造访,准备抓取你东西。

  121.14.89.*这个ip段作为度过新站考察期。

  203.208.60.*这个ip段出现在新站及站点有不正常现象后。

  210.72.225.*这个ip段不间断巡逻各站。

  125.90.88.* 广东茂名市电信也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的。

  220.181.108.95这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的,我保证。

  220.181.108.92 同上98%抓取首页,可能还会抓取其他 (不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。

  123.125.71.106 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

  220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。

  220.181.108.75重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来。

  220.181.108.86专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

  123.125.71.95 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

  123.125.71.97 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

  220.181.108.89专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

  220.181.108.94专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

  220.181.108.97专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

  220.181.108.80专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

  220.181.108.77 专用抓首页IP 权重段,一般返回代码是304 0 0 代表未更新。

  123.125.71.117 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

  220.181.108.83专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

  注:以上IP尾数还有很多,但段位一样的123.125.71.*段IP 代表抓取内页收录的权重比较低.可能由于你采集文章或拼文章暂时被收录但不放出来.(意思也就是说待定)。

  220.181.108.*段IP主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的,这点我可以保证!

  一般成功抓取返回代码都是 200 0 0返回304 0 0代表网站没更新,蜘蛛来过,如果是 200 0 64别担心这不是K站,可能是网站是动态的,所以返回就是这个代码。

  125.90.88.96,117.28.255.42可能是使用站长工具进行SEO综合检测造成,注意在分析蜘蛛的时候把此IP剔除。

  有了这些IP和状态码,我们可以简单判断一下网站的情况,哪些页面该按时更新,哪里页面可能已经被降权,哪些页面被蜘蛛频繁抓取,以及哪些时段百度蜘蛛活动频繁。频繁的时候尽量呈现给蜘蛛多一些原创内容,相信蜘蛛不会亏待你的。

上一篇:网站相似度和网页相似度

下一篇:网站排名,你如何提升?

返回列表

网站建设知识

品牌创意网站建设 上市公司网站建设 大型门户类网站建设 全方位网站运营代理
企业官方网站建设 B2C电子商务网站建设 专题活动网站(MINISITE)

更多 +联系我们

24小时服务热线:400-1180-360

业务 QQ:  444961110传真: 0311-80979256

渠道合作:  444961110@qq.com

更多 +关于我们

河北供求互联信息技术有限公司(河北供求网)诞生于2003年4月,是康灵集团旗下子公司,也是河北省第一批从事网站建设、电子商务开发,并获得国家工业和信息化部资质认证的企业。公司自成立以来,以传播互联网文化为已任, 以高科技为起点,以网络营销研究与应用为核心,致力于为各企事业单位提供网络域名注册、虚拟主机租用、网站制作与维护、网站推广和宣传、网站改版与翻译、移动互联网营销平台开发与运营、企业邮局、网络支付、系统集成、软件开发、电子商务解决方案等优质的信息技术服务,与中国科学院计算机网络信息中心、腾讯、百度、阿里巴巴、搜狗、360、电信、联通、中国数据、万网、中资源、阳光互联、点点客、北龙中网、电信通等达成战略合作伙伴关系。

版权所有 © 河北供求互联信息技术有限公司-最优秀的石家庄网站建设公司,为您提供石家庄网站建设、网站推广等优质服务.   
服务热线:400-1180-360 传真:0311-80979256 增值电信业务经营许可证:冀B2-20105159 冀ICP备09010972号

在线留言
免费试用
扫一扫

扫一扫
赠送神秘大礼

全国免费服务热线
400-1180-360

返回顶部