朱记大数据吧 关注:3,179贴子:3,124
  • 1回复贴,共1

为什么爬虫要使用HTTP代理?

只看楼主收藏回复

爬虫被封IP可以说是所有爬虫工程师必须要迈过去的一道坎,在爬虫工作的过程中,经常会遇到封IP的麻烦事,究竟要怎样爬才不会被封呢?许多 人觉得之所以被封IP,是由于爬取的太快了,确实是这样。那好吧,我就一而再、再而三地放慢速度,总算不被封了。但这速度和蜗牛没有什么差别了,爬虫也失去了它存在的价值!


1楼2020-07-14 14:54回复
    有些人总算想到了使用http代理来做爬虫,提高速度爬,被封;再换一个IP,再被封;接着换,还是被封,反正封了一个IP,还有千千万万IP,工作效率总算提高了。但这种方法也有个严重的问题,上哪找这么多高效稳定的http代理?有些人很快行动,写了个爬虫爬取网上的http代理,随后筛选验证,最后封装在IP池里。结果发现,这种方法效率太低,IP质量太低,自然花费的成本也最低,其实时间成本会很高很高。也有些人在网上通过各种筛选找到代理商,IP数据库,能够长时间的对IP资源的速度和稳定性进行监测,进而为用户打造更好的IP使用环境。只有选择像这样的专业IP供应商,才可以实现既方便自己操作又加快工作效率的目的。


    2楼2020-07-14 14:55
    回复