爬虫与反爬虫的纠葛论

By xiongjingjing

2021-03-22

在爬虫工作中有两股不断相互抗衡的力量，让我们长期处于网站攻和守之间。因为爬虫采集是很多企业大型项目的需求，不可避免的遇到网站网页做反爬技术，如时间限制、IP限制、验证码限制等等。　

爬虫时ip限制问题的最佳解决办法，首当其冲换IP是必须的操作，建议一定要使用代理IP，然后我们在有外网IP的机器上，部署爬虫ip代理，程序就会用服务器代理ip来替代你访问想要采集的网站，就算IP被屏蔽了，直接换下一个ip，程序逻辑也不会发生什么改变，代理ip软件还有设置cookies的处理。

其次，有的网站对登陆用户政策宽松些，而有些网站相对严格，爬虫也需要设置限制查询的频率，尽可能模拟正常用户的行为，访问页面的顺序可以随机着来，正统的做法是调用该网站提供的服务接口。网站封的依据一般是单位时间内特定IP的访问次数，所以我们需要将采集的任务按目标站点的IP进行分组，通过控制每个IP在单位时间内发出任务的个数避免被封。

总结就是，对于爬虫的抓取进行压力控制，降低抓取频率，时间设置长一些，访问时间采用随机数，模拟浏览器访问，更换IP是最直接有效的方法!动态ip海覆盖国内300+城市ip资源，每条线路的ip不重复，可以同城ip切换和全国混波，高匿ip代理受到了爬虫的热捧!

上一篇：我们上网的电脑是公网ip还是内网ip?

下一篇：代理服务器和网关在网络的不同之处

爬虫与反爬虫的纠葛论

相关文章