关于python爬取的一种另类解密方法(字符串缝合)

编程入门 行业动态 更新时间:2024-10-24 18:27:39

关于python爬取的一种另类解密方法(<a href=https://www.elefans.com/category/jswz/34/1771434.html style=字符串缝合)"/>

关于python爬取的一种另类解密方法(字符串缝合)

本次我要爬取的网址是极简壁纸(国外网站),直接使用requests模块和bs4爬取不了,因为找到高清图的网址在打开的过程中会被解析成另一个网址,这属于网站防爬的一种加密方法。但破解简单:
通过观察
在首页看到图是缩小的非高清图(任举例)
网址为:.png.295x184_q100.png
而它的高清图为:
.png
所以我只要去掉后面的.295x184_q100.png,通过python强大的字符串拼接就能直接访问了,以后的类似可通过缝合字符串得到具体网址的也可以诸如此类操作。
具体实现代码为:

import re
import requests
import time##自主编写爬虫4
from bs4 import BeautifulSoup
from lxml import etree
url="/"headers={
"User-Agent":"User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36"
}#UA伪装
new_page=requests.get(url=url,headers=headers)
first_soup=BeautifulSoup(new_page.text,"html.parser")
div_a=first_soup.find("div",class_= "desktops column span-24 archive").find_all("img")
for src in div_a:src=src.get("src")src=src.replace(src[-17:],"" )img_resp=requests.get(url=src,headers=headers)img_name=src.split("/")[-1]#根据具体而修改with open("极简/"+img_name,mode="wb")as f:f.write(img_resp.content)#不需要修改print(img_name+"over")time.sleep(1)#防被服务器检测禁止ip访问

更多推荐

关于python爬取的一种另类解密方法(字符串缝合)

本文发布于:2024-02-12 02:05:03,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1685141.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:字符串   另类   方法   python

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!