石家庄网络公司:Baidu spider关于网站解析的问题

时间:2014-12-12 13:32:55 浏览:950次

    之前百度站长论坛分析了关于SPIDER抓取建库方面的QA内容,而本次将为众站长带来的是关于解析方面的QA内容。

    问:我们的页面本身就很大,会不会解析不出来?
    答:页面本身很大倒没问题,赶集、安居客这些量都很大,没有问题。我刚才说的例子,你每次都follow出来新链接,随机把后面的参数去掉都不影响这个网页的正常访问,这种肯定有问题的。

    问:刚才说对URL的长度有要求,那对每一段、就是目录名的长度有没有要求
    答:没有要求,我们是要求url从www开始到结束,总长度不超过1024个字节。

    问:站内重复内容是怎么判断的?文本内容一样结构不一样,算不算重复?
    答:算重复

    问:假设是整个页面全是Flash,如果我把一些栏目或者最新的内容隐藏掉,不影响美观隐藏掉,如果用hidden属性能不能提取出来?CSS可不可以?
    答:hidden可以提出来,但如果是注释就不会管。CSS不可以。

    问:页面大小不超过1兆,是指页面压缩以前还是以后。
    答:指页面压缩以后,不要超过1兆

    问:我网站的信息已经过时了,但网页返回的是200,会受惩罚?为什么呀?
    答:用户在搜索结果里点了你的结果,导流导到你的网站,但没什么可看的,对用户没有用,百度当然不喜欢。

    问:现在我们很多网站,为了让用户觉得有意思,内容没了就放一张图片,写一些有意思的话,什么“工程师去哪啦”之类的,对百度友好不?
    答:最好不要用,我知道站点是想让百度当内容死链来识别,但内容死链识别起来是有准确率和召回率风险的。

    问:我们团购网站的确会有过期团购的页面,会受惩罚吗
    答:如果量特别大、点击量很大的话肯定会有惩罚的。有些可以当内容死链被分析出来,如果分析不出来,会被一些其他的策略挖出来,会有这样的问题。

    问:刚才说资讯内容页面,上面有个发布时间好,那如果页面上没有时间呢?
    答:那我们往往是按当时抓取的时间来做判定。

    问:评论里面时间重要吗。
    答:百度更重视主体内容的时间,评论不算主体内容。

    问:我们是个平台,很多产品其实只是一个型号变更了,其实颜色都是一模一样的,对蜘蛛而言仅仅只是几个字符,会被识别为重复吗
    答:如果是一个产品的结构化信息的话,应该不会被认为是重复。如果你是简单内容摘要的方式进行介绍的话,可能会存在重复问题。

    问:静态URL和动态URL区别大吗?
    答:不大,我们现在认为静态和动态都一样的,因为从url上面他能够识别出来,但是抓取回来的东西不太一样。所以现在认为无论你是静态还是动态,我们都认为同样都是url来对待。


 

上一篇:如何快速建立Less.js【译转】

下一篇:SEO实战:用户数据整合帮你快进排名

返回列表

网站建设知识

品牌创意网站建设 上市公司网站建设 大型门户类网站建设 全方位网站运营代理
企业官方网站建设 B2C电子商务网站建设 专题活动网站(MINISITE)

更多 +联系我们

24小时服务热线:400-1180-360

业务 QQ:  444961110传真: 0311-80979256

渠道合作:  444961110@qq.com

更多 +关于我们

河北供求互联信息技术有限公司(河北供求网)诞生于2003年4月,是康灵集团旗下子公司,也是河北省首批从事网站建设、电子商务开发,并获得国家工业和信息化部资质认证的企业。公司自成立以来,以传播互联网文化为已任, 以高科技为起点,以网络营销研究与应用为核心,致力于为各企事业单位提供网络域名注册、虚拟主机租用、网站制作与维护、网站推广和宣传、网站改版与翻译、移动互联网营销平台开发与运营、企业邮局、网络支付、系统集成、软件开发、电子商务解决方案等优质的信息技术服务,与中国科学院计算机网络信息中心、腾讯、百度、阿里巴巴、搜狗、360、电信、联通、中国数据、万网、中资源、阳光互联、点点客、北龙中网、电信通等达成战略合作伙伴关系。

版权所有 © 河北供求互联信息技术有限公司-优秀的石家庄网站建设公司,为您提供石家庄网站建设、网站推广等优质服务.   
服务热线:400-1180-360 传真:0311-80979256 增值电信业务经营许可证:冀B2-20105159 冀ICP备09010972号

在线留言
免费试用
扫一扫

扫一扫
赠送神秘大礼

全国免费服务热线
400-1180-360

返回顶部