爬虫使用ip代理池的实例

发布时间:2021-09-07 11:58:35 作者:chen
来源:亿速云 阅读:112

本篇内容介绍了“爬虫使用ip代理池的实例”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

说明

1、在代理IP采集模块,采集代理IP,检测代理IP。如果不可用,直接过滤掉。如果可用,指定默认分数,存储在数据库中。

2、在代理IP检测模块,从数据库中获取所有代理IP,检测代理。如代理IP不能使用,则将分数-1,如果分数为0,则从数据库中删除,否则更新数据库,如果代理IP可以使用,则恢复默认分数,更新数据库。

3、在代理API模块,从数据库中为爬虫提供可用的代理IP。

实例

数据模型

class Proxy(object):
 
    def __init__(self, ip, port, protocol=-1, nick_type=-1, speed=-1, area=None, score=MAX_SCORE, disable_domains=[]):
        # ip: 代理的IP地址
        self.ip = ip
        # port: 代理IP的端口号
        self.port = port
        # protocol: 代理IP支持的协议类型, http是0, https是1, https和http都支持是2,-1不可用
        self.protocol = protocol
        # nick_type: 代理IP的匿名程度, 高匿: 0, 匿名: 1, 透明: 2
        self.nick_type = nick_type
        # speed: 代理IP的响应速度, 单位s
        self.speed = speed
        # area: 代理IP所在地区
        self.area = area
        # score: 代理IP的评分, 用于衡量代理的可用性;
        self.score = score
        # 默认分值可以通过配置文件进行配置.在进行代理可用性检查的时候, 每遇到一次请求失败就减1份, 减到0的时候从池中删除.如果检查代理可用, 就恢复默认分值
        # disable_domains: 不可用域名列表, 有些代理IP在某些域名下不可用, 但是在其他域名下可用
        self.disable_domains = disable_domains
 
    # 3. 提供 __str__ 方法, 返回数据字符串
    def __str__(self):
        # 返回数据字符串
        return str(self.__dict__)

“爬虫使用ip代理池的实例”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站,小编将为大家输出更多高质量的实用文章!

推荐阅读:
  1. 如何搭建稳定的代理ip池, 供爬虫使用
  2. Python 爬虫IP代理池的实现

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

ip

上一篇:css优雅降级说明以及实例写法

下一篇:reload在python中怎么用

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》