关于python爬取的一种另类解密方法（字符串缝合）

编程入门行业动态更新时间:2024-10-24 18:27:39

关于python爬取的一种另类解密方法（<a href=https://www.elefans.com/category/jswz/34/1771434.html style= 字符串缝合）"/>

关于python爬取的一种另类解密方法（字符串缝合）

本次我要爬取的网址是极简壁纸（国外网站），直接使用requests模块和bs4爬取不了，因为找到高清图的网址在打开的过程中会被解析成另一个网址，这属于网站防爬的一种加密方法。但破解简单：
通过观察
在首页看到图是缩小的非高清图（任举例）
网址为：.png.295x184_q100.png
而它的高清图为：
.png
所以我只要去掉后面的.295x184_q100.png，通过python强大的字符串拼接就能直接访问了，以后的类似可通过缝合字符串得到具体网址的也可以诸如此类操作。
具体实现代码为：

import re
import requests
import time##自主编写爬虫4
from bs4 import BeautifulSoup
from lxml import etree
url="/"headers={
"User-Agent":"User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36"
}#UA伪装
new_page=requests.get(url=url,headers=headers)
first_soup=BeautifulSoup(new_page.text,"html.parser")
div_a=first_soup.find("div",class_= "desktops column span-24 archive").find_all("img")
for src in div_a:src=src.get("src")src=src.replace(src[-17:],"" )img_resp=requests.get(url=src,headers=headers)img_name=src.split("/")[-1]#根据具体而修改with open("极简/"+img_name,mode="wb")as f:f.write(img_resp.content)#不需要修改print(img_name+"over")time.sleep(1)#防被服务器检测禁止ip访问

更多推荐

关于python爬取的一种另类解密方法（字符串缝合）

本文发布于:2024-02-12 02:05:03，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1685141.html