简单的免费代理池的爬取

编程入门 行业动态 更新时间:2024-10-19 01:19:24

<a href=https://www.elefans.com/category/jswz/34/1770983.html style=简单的免费代理池的爬取"/>

简单的免费代理池的爬取

前几天做Scrapy爬虫的时候被某网站ban了,于是写了一个爬取代理池的小程序。不知道为什么xici的代理全部报错,于是找了个国外的免费代理网站爬取,

网址是

/


直接放代码。

# coding:utf-8import queue
import threadingimport requests
from bs4 import BeautifulSoupclass ProxyGetter:def __init__(self, num=300):# num 代表爬取代理地址的数目,默认为全部爬取,也就是300.self.num = numself.url = "/"# 伪装response的headerself.header = {"User-Agent": 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'}self.q = queue.Queue()self.Lock = threading.Lock()def get_ips(self):# 把爬取的代理地址存储在当前文件夹list.txt文件中。with open("list.txt", "w") as l:res = requests.get(self.url, headers=self.head

更多推荐

简单的免费代理池的爬取

本文发布于:2024-03-05 16:07:51,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1712753.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:简单

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!