详解robots协议、UA检测、封禁IP的反反爬策略|电子爱好者

admin管理员组
文章数量:1566221

文章目录

- robots协议
- - 反爬机制
  - 反反爬策略
- UA检测
- - 反爬机制
  - 反反爬策略 UA伪装 UA池
- 封禁IP
- - 反爬机制
  - 反反爬策略代理IP 代理IP池

环境: Python3.7
工具： Pycharm

robots协议

反爬机制

在域名后面加上robots.txt

指的是一个纯文本的协议，指的是一个纯文本的协议，协议中规定了该网站中那些数据可以被那些爬虫爬取，哪些不可以被爬取。额就是一纸书文，防君子不妨小人，而且大都写的是都不可爬(规则之内’越规’)

反反爬策略

这是一个良心活，过不去就×掉换别的网站，无所谓就爬(做爬虫的一般是不管0.0)

UA检测

反爬机制

在发起的请求头headers中，包含了很多键值对，服务器会根据这些键值对进行反爬，

反反爬策略 UA伪装 UA池

缺少什么就添加上什么 模拟浏览器发起请求
当你的python爬虫程序发起请求的时候如果不在headers中添加上User-Agent的话就会默认填上python，这样的话绝大多数网站就会拒绝给你发送响应，这时我们要添加上User-Agent在发起请求就可以请求到数据

但是，浏览器也有可能检测短时间内同一浏览器请求情况，如果请求过快就直接封禁，或者执行其他反爬策略，
解决方式一： 降低发起请求的频率
解决方式二：

设置UA伪装池，发起请求的时候随机获取UA进行请求

user_agent_list = [
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 "
        "(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 "
        "(KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 "
        "(KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 "
        "(KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 "
        "(KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 "
        "(KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 "
        "(KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
         "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 "
        "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 "
        "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]

headers = {
‘User-Agent’: random.choice(user_agent_list)
}
之后发起一次请求用一次新的headers就可以了

也可以通过fake_useragent模块来实现UA伪装
模块下载： pip install fake-useragent

from fake_useragent import UserAgent
 
ua = UserAgent()  # 实例化，实例化时需要联网但是网站不太稳定

print(ua.random)   # 随机打印 User-Agent

封禁IP

反爬机制

通过服务端内部的一些操作来检测同一时间高频率的请求IP，如果确认(不是正常人能做到的),就会直接封禁IP，就会造成长时间同一IP无法请求数据的情况，一般要等一天左右吧，可能更长，这里就不去尝试了

反反爬策略代理IP 代理IP池

代理服务器分为不同的匿名度：

透明代理：如果使用了该形式的代理，服务器端知道你使用了代理机制也知道你的真实IP
匿名代理：知道你使用了代理，但是不知道你的真实IP
高匿代理：不知道你使用了代理也不知道你的真实IP

代理类型：

https：代理只能转发https协议请求
http：只能转发http请求

如果是使用单个代理IP的话，可以去快代理、西祠代理、goubanjia等代理网站去尝试可用的免费代理，因可用的免费代理过少，寻找过程过于艰难性价比低等原因，所以就不详解免费代理如何使用了

代理IP池：
付费代理这里推荐的是智连HTTP(之前好像叫代理精灵？)： http://http.zhiliandaili/

提取ip的时候一定要把本机ip(手机热点的话就是手机ip,去网上一查就可以了)加入ip白名单中

代理ip AIP url源码

本文标签：详解策略协议 robots UA

版权声明：本文标题：详解robots协议、UA检测、封禁IP的反反爬策略内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1726417995a1069980.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

详解robots协议、UA检测、封禁IP的反反爬策略

文章目录

robots协议

反爬机制

反反爬策略

UA检测

反爬机制

反反爬策略 UA伪装 UA池

封禁IP

反爬机制

反反爬策略 代理IP 代理IP池

更多相关文章

【robots.txt】设置网站不允许被搜索引擎抓取的代码

uniapp - 实现安卓App打包上架应用商店详细教程，详解Hbuilder打包编译apk发布上传到应用市场全流程，提供uniApp云打包、离线打包app、原生本地打包，附带APP备案和安卓证书申请

计算机策略禁止文件夹小程序,win7小程序安装被禁止 怎么禁用强制驱动签名？...

Markdown 时序图绘制详解

［转贴］Android研究院之应用程序屏幕锁定详解（二十三）

Android屏幕锁定详解（一）

Android屏幕锁定详解（一）（转载）

Pytorch、CUDA和cuDNN的安装图文详解win11（解决版本匹配问题）

win7计算机凭证,windows凭证管理,详解win7电脑添加和管理windows凭证的方法

2024年Linux最全linux的mount（挂载）命令详解(2)

【云服务器 ECS 实战】云服务器新手指南（配置+使用详解）

阿里云服务器使用步骤详解

CefSharp 集成谷歌浏览器详解---(一)环境搭建

CefSharp 集成谷歌浏览器详解（三）--官网示例解析2 CefSettings 介绍

局域网中文件或打印机共享服务器,局域网内文件、打印机共享设置详解.doc

android配置wifi,详解Android通过修改配置文件设置wifi密码

windows上VMware虚拟机安装mac os系统步骤详解

u盘装了个pe数据没了怎么办？分享恢复策略

转载：SqlServer数据库性能优化详解

数据库性能优化详解

发表评论

推荐文章

使用讯飞语音实现中文语音识别和文字朗读

Liunx操作系统——入门及系统安装

云心html mac,萤石云视频Mac版

计算机无法启动打印服务,电脑重启print spooler服务无法启动怎么处理

CAD图纸一键共享，永久轻松办公!

热门文章

解决win10和win11打印机报错0x00000709问题以及0x0000011b打印机一键共享工具分享

禁止手机浏览器上两个手指触碰在屏幕上，拉大距离，放大页面；缩小距离，缩小页面

从零开始的使用阿里云搭建我的世界服务器

华为云端畅玩《黑神话：悟空》

手机共享电脑Wifi软件网络抓包

rpc无法启动计算机,rpc服务器不可用开不了机 怎么解决不能开机的问题

JVM核心内容详细讲解

就是这么简单！破解激活AutoCAD 2019 for mac v2019.0.1(附图文讲解)

你的破解版CAD出现过多少问题？

如何在windows上安装centos单系统，以及安装事项和 centOS Linux和centOS Stream区别

最新文章

​mathtype7.7永久激活码密钥及2025最新序列号附安装教程​

Windows Server 2016补丁更新机制

windows server 2016版介绍与安装

Mac压缩包在Windows下解压后乱码或丢失(ZIP)

最简单的卸载ubantu系统（Windows和Linux双系统）

Windows10内置Linux(WSL)

怎样把任意exe程序注册成windows系统服务(手动注册服务)

windows 系统密码破解工具（适合各种版本windows）

Kinect for Windows sdk下载 以及安装时错误的解决方案

Windows10 mysql解决MySQL服务无法启动系统出错发生系统错误 1067

Windows11 家庭版 安装docker

window redis版本下载

自制 Windows Hello

Windows PowerShell远程连接Linux

Deepin下一键安装windows所有字体

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

反反爬策略代理IP 代理IP池

计算机策略禁止文件夹小程序,win7小程序安装被禁止怎么禁用强制驱动签名？...

rpc无法启动计算机,rpc服务器不可用开不了机怎么解决不能开机的问题

mathtype7.7永久激活码密钥及2025最新序列号附安装教程

Kinect for Windows sdk下载以及安装时错误的解决方案

Windows11 家庭版安装docker

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载