发布时间:2017-05-04 02:55:26
下面列举四个特殊的影响页面收录量的原因:
1、防采集系统
有的大网站会经常被人采集,但是技术人员不想让别人采集,就做了一个采集的规则,当一个IP在5分钟左右访问1000个页面的时候屏蔽这个IP,这在技术员眼里是个很正常的规则,但是他不知道蜘蛛爬虫也会有这种行为,由此屏蔽了爬虫。
2、防火墙
防火墙和上面的仿采集系统差不多,服务器经常遇到一些攻击比如***,技术员就会在防火墙上设置策略,当一个IP同一时间连接数大约多少的时候屏蔽这个IP,同样会误屏蔽蜘蛛爬虫
3、爬虫返回
爬虫返回的状态码有200、404、301、500,有的网站会怕损失客户或者流量,会设置404页面,或者301。当蜘蛛爬虫同时连续出现2个或以上的链接出现404、301蜘蛛会停止爬行,这应该属于常识多看日志就知道了。尽量少用的减少404页面和301跳转。
(在此解释下蜘蛛爬虫同时连续出现2个链接出现404、301:拿301做例子,就是你做了几个301跳转规则,A页面跳转到B页面,B页面跳转到C页面,这样A到C就经过了2次,这样蜘蛛就会停止爬行,404同理:404页面上出现404链接)
4、服务器系统升级
一个网站服务器系统为win2003,假如当这个服务器升级到win2008的时候,看似正常的一个服务器,网站访问也正常,但是收录量下降了。细心的技术员查到当升级完后网卡需要安装一个驱动,否则会处于半双工状态,而正常的都是全双工状态。
半双工大概意思是进出的流量都走一个口,全双工是进出流量分开走。这时候处于半双工状态的网卡就会有很多处于排队状态的流量,由此减少了爬虫的爬行数量。
免责声明:以上信息由会员自行提供,内容的真实性、准确性和合法性由发布会员负责,产品网对此不承担任何责任。产品网不涉及用户间因交易而产生的法律关系及法律纠纷, 纠纷由您自行协商解决。
风险提醒:本网站仅作为用户寻找交易对象,就货物和服务的交易进行协商,以及获取各类与贸易相关的服务信息的平台。为避免产生购买风险,建议您在购买相关产品前务必 确认供应商资质及产品质量。过低的价格、夸张的描述、私人银行账户等都有可能是虚假信息,请采购商谨慎对待,谨防欺诈,对于任何付款行为请您慎重抉择!如您遇到欺诈 等不诚信行为,请您立即与产品网联系,如查证属实,产品网会对该企业商铺做注销处理,但产品网不对您因此造成的损失承担责任!
联系:304108043@qq.com是处理侵权投诉的专用邮箱,在您的合法权益受到侵害时,欢迎您向该邮箱发送邮件,我们会在3个工作日内给您答复,感谢您对我们的关注与支持!
深圳尚腾网络科技有限公司 电话: 传真: 联系人:
地址: 主营产品:营销型网站、响应式网站、企业网站建设、网络推广、企业邮箱
Copyright © 2024 版权所有: 产品网
免责声明:以上所展示的信息由企业自行提供,内容的真实性、准确性和合法性由发布企业负责。产品网对此不承担任何保证责任。
您好,欢迎莅临,欢迎咨询...