七夜信息安全:突破反爬虫的一个常用做法
![](http://www.onekao.net/templets/default/images/content_ad.gif)
七夜
信息安全研究人员,比较擅于网路安全、逆向安装工程、爬虫开发、Web开发。 #
博客园: #
CSDN:
: #
突破反爬虫的一个常用做法是使用代理IP,可以是作为初学者或则个人来说,买一些代理ip费用稍稍高一些,然而近来写了一个开源项目,拿来为个人提供代理ip。 #
原理:通过爬取各大代理网站提供的免费IP,进行去重,并验证ip的可用性,将有效的ip储存到中,并提供一个HTTP插口供爬虫程序获取ip。
项目早已上传到中,链接为。下边对整个项目安装工程进行一下说明,如右图所示:
#
整个项目的代码量不大,你们可以依照自己的需求进行更改,也可以提出自己的看法和建议帮助我改进这个项目。 #
怎样使用项目呢?
#
1.将项目目录clone到当前文件夹 #
$gitclone
2.切换安装工程目录 #
$cd
#
3.运行脚本
.py
上运行疗效如右图所示:
项目依赖项: #
当运行上去后,外部的爬虫怎么获取ip呢? #
外部的爬虫只须要向所在主机的8000端口发送GET恳求即可。GET恳求的参数为: #
比如:
访问:8000/?types=0&count=5&=美国这个链接的涵义是获取5个ip地址在美国的高匿代理。
#
响应为JSON格式爬虫代理服务器,返回数据为: #
[ #
{"ip":"220.160.22.115","port":80}, #
{"ip":"183.129.151.130","port":80},
#
{"ip":"59.52.243.88","port":80}, #
{"ip":"112.228.35.24","port":8888},
#
{"ip":"106.75.176.4","port":80} #
] #
通常爬取到的有效ip大概有60个左右爬虫代理服务器,基本上满足个人的还要。 #
在公众号(的编程课室)回复“代理”获取项目下载地址。
§§
英文社区 #
旨在于成为
国外最好的社区
#
【码上行动-零基础入门】