python爬虫之正则表达式实战

编程入门行业动态更新时间:2024-10-09 10:27:40

python<a href=https://www.elefans.com/category/jswz/34/1770264.html style= 爬虫之正则表达式实战"/>

python爬虫之正则表达式实战

文章目录

- 1. 图片爬取流程分析
- 2. 爬取家常菜图片

1. 图片爬取流程分析

先获取网址，URL：/
定位想要爬取的内容
使用正则表达式爬取
导入模块
指定URL
UA伪装（模拟浏览器）
发起请求，使用通过爬虫爬取整个页面
编译正则表达式（提取想要的内容）
解析请求内容
指定图片存储路径
持久化存储

2. 爬取家常菜图片

# 导入模块
import ssl
import os
import re
import requests
if __name__ == '__main__':# 创建一个文件夹，保存所有的图片if not os.path.exists('./caipu/'):os.mkdir('./caipu/')# 指定URLurl = '/'# 模拟浏览器headers = {'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'}# 使用通用爬虫对URL对应的一整个页面进行爬取，并获取响应数据page_text = requests.get(url=url, headers=headers).text# 编译正则表达式# repile()方法将正则表达式编译成一个对象，可以通过调用它的方法来对文本进行匹配操作。data_src_list = repile('data-src="(.*?)" width=')# 解析图片链接# findall()：查找字符串中所有满足正则表达式的字符串，以列表的形式返回。data_src_url = data_src_list.findall(page_text)# print(data_src_url)for src in data_src_url:# 请求到图片的二进制数据img_data = requests.get(url=src,headers=headers).content# 生成图片名称# 由于，所以将其进行切片img_name = src.split('/')[-10].split('?')[0]# print(img_name)# 指定图片存储的路径imgPath = './caipu/'+img_name# 持久化存储with open(imgPath,'wb') as fp:fp.write(img_data)print(img_name, "下载成功！！！")

更多推荐

python爬虫之正则表达式实战

本文发布于:2023-12-03 10:13:49，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1654191.html