07. 实战：Python正则法抓取某网站2022必看片迅雷种子|电子爱好者

admin管理员组
文章数量:1564179

前言 URL（在评论区）URL（在评论区）URL（在评论区）

目的 URL（在评论区）URL（在评论区）URL（在评论区）

思路 URL（在评论区）URL（在评论区）URL（在评论区）

代码实现

第一步，先导包

第二步，请求源代码

第三步，debug第二步

第四步，正则法定位信息

第五步，访问提取子页面内容

完整代码

运行结果

总结

前言

上一节我们讲到了Python正则法抓取某电影网Top250信息，

这一节再进行一个简单的正则法抓取例子：抓取某网站的迅雷种子资源！

目的

获取某网站中2022必看片榜单中所有电影的片名与对应迅雷种子

思路

1. 定位到2022必看片

2. 从2022必看片中提取子页面的链接地址

3. 请求子页面的链接地址，拿到我们想要的下载地址

代码实现

第一步，先导包

import re

import requests

复习一下，re库就是Regular Expression，即Python的正则库，用于数据分析。requests库是我们请求网页所用的库。

第二步，请求源代码

domain = "见评论区"  # domain就是url，换了个说法
resp = requests.get(domain)  # 如果报错，可能是http's'的问题。那么就需要加一个参数' verify = False '，不进行安全校验
print(resp.text)

这里可能出现两个问题：

1. resp报错，这里可能是http's'的问题，https和http的区别就在于是否进行安全校验。我们访问https网页如果报错，那就在requests.get()中添加参数verify=False，就可以跳过安全校验步骤了

2. print网页源代码时我们发现，涉及到中文的时候打印出了乱码，这个时候我们要敏锐的感觉到一定是编码方式的问题！html默认的编码方式和PyCharm是一致的，都是UTF-8。但是此时出现了乱码我们就要去寻找这个网页的编码方式有何不同。

第三步，debug第二步

1. 修改resp行函数为

resp = requests.get(domain, verify=False)

2. 观察发现网页源代码的头部标签中规定了此网页的编码方式：

<META http-equiv=Content-Type content="text/html; charset=gb2312">中charset=gb2312，所以我们应该采用gb2312编码。

注：如果想了解更多关于HTML头部标签的知识，请访问HTML头部

resp.encoding = 'gb2312'  # 指定字符集
print(resp.text)
resp.close()

此时再打印源代码就不会出现乱码了

第四步，正则法定位信息

1. 先检查页面源代码定位

可以观察到，从<ul>开始，每一个<li>中包含我们对应的资源名称和链接，这正是我们需要的。

其实， <ul>指的是无序列表，而每一个<li>代表无序列表中的每一个列表项；<div>是浏览器的块级元素，表达这一部分是一个整体。如果想了解更多关于HTML列表和HTML块级元素的知识，请点击下面的超链接

HTML列表 HTML块级元素

2. 正则法定位上述源代码

# 定位成功
obj1 = repile(r"2022必看热片.*?<ul>(?P<ul>.*?)</ul>", re.S)
result1 = obj1.finditer(resp.text)
for it in result1:
    ul = it.group('ul')
    # print(ul)

我们还是用惰性搜索拿出了中间一大堆<li>包裹的信息，还是很准确的，但是我们不能直接把这个拿来用，我们要进行重定位，把信息细节提取出来，不要其余多余的代码

3. 再次正则，拿出想要的信息

# html中，a标签表示超链接，点击对应的对象就会跳转到href引用的链接中，title是鼠标选中以后浮现出的提示文字，主要需要href中的子页面链接
# 提取子页面链接
obj2 = repile(r"<a href='(?P<href>.*?)'", re.S)
result2 = obj2.finditer(ul)
child_href_list = []
for i in result2:
    href = i.group('href')
    # 拼接子页面url地址：域名+子页面地址（这里多了一个斜杠，要strip掉）
    child_href = domain + href.strip("/")
    # print(child_href)  # 为了方便，把它们装进列表里
    child_href_list.append(child_href)  # 把子页面链接保存起来
    # 37 + 38 = child_href_list = [child_href]
    # child_href_list = [child_href]

这里<a>标签就是表示超链接，herf元素的含义就是引用子链接，是基于当前域名添加路径定位到我们需要的位置。所以我们需要把之前代码中写到的域名domain和子页面地址拼接起来。

打印出来发现链接多了一个斜杠，我们使用strip函数去掉，然后递归地保存到列表中就好了。

关于超链接<a>的知识请访问HTML链接

第五步，访问提取子页面内容

源代码90行开始出现了我们需要的信息，如图所示

# 提取子页面内容
obj3 = repile(r'◎片　　名(?P<moviename>.*?)<br />.*?<td '
                  r'style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)">', re.S)
for href in child_href_list:
    child_resp = requests.get(href)
    child_resp.encoding = 'gb2312'
    # print(child_resp.text)
    result3 = obj3.finditer(child_resp.text)
    for j in result3:
        moviename = j.group("moviename")
        download = j.group("download")
        print(moviename)
        print(download)
    # break  # 测试用
child_resp.close()

根据已知信息，写出正则表达式，进行预处理，拿到片名和迅雷种子。

之后进行递归，把子页面列表中的链接都遍历一遍，就得到了2022必看榜单片名及种子了。

完整代码

# 思路：
# 1.定位到2022必看片
# 2.从2022必看片中提取子页面的链接地址
# 3.请求子页面的链接地址，拿到我们想要的下载地址。（迅雷种子）
import re

import requests

domain = "见评论区"  # domain就是url，换了个说法
resp = requests.get(domain, verify=False)  # 如果报错，可能是http's'的问题。那么就需要加一个参数' verify = False '，不进行安全校验
# print(resp.text)  # 中文编码默认是utf-8，但是test出现乱码，说明编码方式出现问题
# 观察发现<META http-equiv=Content-Type content="text/html; charset=gb2312">中charset=gb2312，所以采用gb2312编码
resp.encoding = 'gb2312'  # 指定字符集
# print(resp.text)
resp.close()

# 定位成功
obj1 = repile(r"2022必看热片.*?<ul>(?P<ul>.*?)</ul>", re.S)
result1 = obj1.finditer(resp.text)
for it in result1:
    ul = it.group('ul')
    # print(ul)

# html中，a标签表示超链接，点击对应的对象就会跳转到href引用的链接中，title是鼠标选中以后浮现出的提示文字，主要需要href中的子页面链接
# 提取子页面链接
obj2 = repile(r"<a href='(?P<href>.*?)'", re.S)
result2 = obj2.finditer(ul)
child_href_list = []
for i in result2:
    href = i.group('href')
    # 拼接子页面url地址：域名+子页面地址（这里多了一个斜杠，要strip掉）
    child_href = domain + href.strip("/")
    # print(child_href)  # 为了方便，把它们装进列表里
    child_href_list.append(child_href)  # 把子页面链接保存起来
    # 37 + 38 = child_href_list = [child_href]
    # child_href_list = [child_href]

# 提取子页面内容
obj3 = repile(r'◎片　　名(?P<moviename>.*?)<br />.*?<td '
                  r'style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)">', re.S)
for href in child_href_list:
    child_resp = requests.get(href)
    child_resp.encoding = 'gb2312'
    # print(child_resp.text)
    result3 = obj3.finditer(child_resp.text)
    for j in result3:
        moviename = j.group("moviename")
        download = j.group("download")
        print(moviename)
        print(download)
    # break  # 测试用
child_resp.close()

运行结果

可以看到片名和迅雷种子都成功提取了，完成！

总结

我们今天又用正则法爬取2022必看电影名和其迅雷下载链接，再次锻炼了re模块的使用方法。下一期我们将简要介绍一下HTML语法，方便我们今后bs4和xpath的学习。关于 HTML教程我主页已经有一个专栏供大家学习了，这里放个传送门HTML教程

本文标签：迅雷正则实战看片种子

版权声明：本文标题：07. 实战：Python正则法抓取某网站2022必看片迅雷种子内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1727486215a1117185.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

07. 实战：Python正则法抓取某网站2022必看片迅雷种子

前言

目的

思路

代码实现

第一步，先导包

第二步，请求源代码

第三步，debug第二步

第四步，正则法定位信息

第五步，访问提取子页面内容

完整代码

运行结果

总结

更多相关文章

迅雷看看免费高清影视 v4.9.15.2156 绿色免费版

AX9000利用docker实现迅雷远程下载

迅雷 Thunder 11.0.2.52 抢先体验版

C#调用迅雷下载

2011剧情《密室2之不可靠岸》HD国语中字10241280高清迅雷下载 另附蓝光高清720P版本...

php 迅雷离线下载,linux 下使用迅雷离线下载

Ubuntu安装迅雷，让下载变得轻松

破解迅雷下载被屏蔽的电影（正版）

爬虫实战爬取豆瓣电影Top250榜单电影

树莓派迅雷远程下载服务搭建

迅雷看看看电影，画面是绿色的，不能看

曾经很火的迅雷，为什么现在不怎么火了？

折腾树莓派（六）在树莓派上使用迅雷远程下载

在Openwrt 上使用迅雷远程下载功能

哥谭第一季全集Gotham迅雷下载

迅雷下载iOS版本

苹果cmsv10迅雷下载站模板高权重好看的影视源码

犯罪心理第一季全集Criminal Minds迅雷下载

迅雷自动生成的vod_cache_data处理方法

Chrome导出cookie的实战教程

发表评论

推荐文章

在线LLM应用集锦1（持续更新ing...）

更改本地计算机用户名,Win10怎么修改本地账号的用户名

Mac 分享 WIFI 后，iPhone 连接 WIFI，但无法上网

idc商用台式计算机数据排名,IDC报告：台式机电商市场同比增长9.2%，高质量消费助力京东领跑...

Ubuntu18.04重装系统+常用软件安装

热门文章

计算机专业独显好还是集显好,笔记本选购指南：笔记本电脑核显好还是独显好？...

计算机硬盘读取超慢,如何解决电脑硬盘速度慢

Ubuntu18.04无法连接wifi

Cognitive Graph for Multi-Hop Reading Comprehension at Scale

【机器学习】模糊认知图（Fuzzy Cognitive Map, FCM）

怎么防止img的图片被手机浏览器的 图片查看器 打开

关闭计算机选项中没有休眠,win7系统电脑没有休眠功能的解决方法

win7系统电脑自动重启解决方法

制作自己定制的centos7安装光盘、U盘

linux端口共享打印机,linux如何共享打印机

最新文章

Android 10.0 app获取当前已连接wifi列表ssid和密码功能实现

再一次获取你的WIFI密码（fluxion附视频）

分分钟搞定python破解无线wifi

记一次老手机连接Wifi显示已保存，却不真正连接

安卓手机WiFi信号桥，增强版个人热点，wifi中继（第三方软件设置）root权限设置增强版个人热点名称密码

修改家中的WiFi密码

越狱iPhone手机使用openSSH wifi和usb连接mac电脑再免密码登录再用shell脚本执行教程

android 手机wifi重启,android – 如何通过重启来记住wifi配置和连接网络

android wifi名称修改器,360随身WIFI(SSID)名称修改工具v1.5.0

教你如何查看连接过的wifi密码

[MT8766][Android12] 修改WIFI热点默认名称、密码、IP地址以及默认开启热点

真正的手机破解wifi密码，aircrack-ng,reaver,仅限mx2（BCM4330芯片）

kali linux破解wifi密码-超详细过程

MAC系统下破解WIFI密码

Android Wifi热点通信，及Android7.0上修改手机连接wifi方法，和其他大神提供的方法稍作修改

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

2011剧情《密室2之不可靠岸》HD国语中字10241280高清迅雷下载另附蓝光高清720P版本...

怎么防止img的图片被手机浏览器的图片查看器打开

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载