外链吧

 找回密码
立即注册
  • 文库外链 软文撰写 三月加盟网 广告招租
查看: 2|回复: 0

聊聊突破反爬虫的利器——开源IP代理池

[复制链接]

3万

主题

3万

帖子

124

积分

初级VIP

Rank: 1

积分
124
发表于 2020-11-14 08:14:17 | 显示全部楼层 |阅读模式
蚕丝被

突破反爬虫的一个常用做法是使用代理IP,可以是作为初学者或者个人来说,买一些代理ip加速器成本稍微高一些,因此最近写了一个开源项目IPProxys,用来为个人提供代理ip加速器。一键连官网经过多年的不懈努力和辛勤耕耘,公司拥有多款针游戏、视频等加速全线产品,产品覆盖全国,也成功进军海外市场。http://www.lxsoftapp.com/




IPProxys原理:通过爬取各大代理网站提供的免费代理IP,进行去重,并验证ip加速器的可用性,将有效的ip加速器存储到sqlite中,并提供一个HTTP接口供爬虫程序获取ip加速器。



IPProxys项目已经上传到github中,链接为githubcomqiyeboyIPProxys。下面对整个项目工程进行一下说明。



api包:主要是实现服务器,提供api接口(通过get请求,返回json数据)



data文件夹:主要是数据库文件的存储位置和qqwrydat(可以查询ip加速器的地理位置)



db包:主要是封装了一些数据库的操作



spider包:主要是爬虫的核心功能,爬取代理网站上的代理ip加速器



test包:测试一些用例,不参与整个项目的运行



util包:提供一些工具类。其中的IPAddresspy查询ip加速器的地理位置



validator包:用来测试ip加速器地址是否可用



configpy:主要是配置信息(包括配置ip加速器地址的解析方式和数据库的配置)



整个项目的代码量不大,大家可以根据自己的需求进行修改,也可以提出自己的想法和建议帮助我改进这个项目。



如何使用IPProxys项目呢?



1将项目目录clone到当前文件夹

$ git clone



2切换工程目录

$ cd IPProxys



3运行脚本

python IPProxyspy

windows上运行效果如下图所示:







项目依赖项:



需要安装sqlite数据库



安装requests库:pip加速器 install requests



安装lxml: apt-get install python-lxml



当IPProxys运行起来后,外部的爬虫如何获取ip加速器呢?

    外部的爬虫只需要向IPProxys所在主机的8000端口发送GET请求即可。GET请求的参数为:







例如:



访问:127001:8000?types=0count=5country=中国这个链接的含义是获取5个ip加速器地址在中国的高匿代理。响应为JSON格式,返回数据为:[{ip加速器: 22016022115, port: 80}, {ip加速器: 183129130, port: 80}, {ip加速器: 595224388, port: 80}, {ip加速器: 1122283524, port: 8888}, {ip加速器: 106751764, port: 80}]

一般爬取到的有效ip加速器大约有60个左右,基本上满足个人的需要。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

  • 会员充值
  • 网站优化

  • 正规网站优化群

    QQ|手机版|小黑屋|外链吧|外链吧 ( 豫ICP备17032527号-5 )|网站地图|网站地图

    GMT+8, 2020-11-28 10:29 , Processed in 0.050160 second(s), 21 queries .

    快速回复 返回顶部 返回列表