Python爬取电影天堂最新发布电影下载地址|电子爱好者

admin管理员组
文章数量:1566646

1. 第三方库

爬虫基本都会用到的第三方库：

requests，优雅而简单的HTTP库，主要作用是模仿浏览器请求，获取爬取页面的HTML文件，给BeautifulSoup4用。
BeautifulSoup4,可以从HTML或XML文件中提取数据，可以快速上手使用。

2. 网页分析

我的理解，爬虫一定是根据爬取网页的HTML编写代码，分析你要爬取的内容在HTML的哪个标签中，这个标签跟其他标签有什么不同之处，比如属性不同，属性值不同等。需要稍微了解一些基础的HTML、CSS语法，只是基本了解即可。
我们爬取电影天堂中最新电影这个子版块。用requests获取到最新电影版本的HTML文件，交给BeautifulSoup解析。

通过查看HTML源码，我们可以发现所有最新发布电影的连接都在ul标签中的table标签里。取出a标签中href属性的值，这个就是电影的详情页面URL。我们取到这个URL后，就可以用requests来请求这个页面的HTML文件，然后继续用BeautifulSoup解析，获取电影的下载地址。

在电影的详情页面，我们关注的是迅雷下载地址，查看HTML网页元素，找到这个下载地址所在的标签，仍然通过BeautifulSoup来解析href值。这个就是该电影的迅雷下载地址了。
上述就是整个爬虫的思路。爬取其他网站，也是同样的方法。

3. 参考代码

我把代码中print方法删了，在你需要的地方自行添加print吧，或者直接用Pycharm打断点查看变量也很方便直观。

# -*- coding: utf-8 -*-

import requests
import urllib3
from bs4 import BeautifulSoup, SoupStrainer
import re
import json
from datetime import date, datetime, timedelta

# InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised.
# See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

class DyttSpider :
    def __init__(self) :
        # 电影天堂主页，用于后续拼接URL
        self.__index_url = 'https://www.dygod'
        # 电影天堂最新电影页面
        self.__new_film_page_url = 'https://www.dygod/html/gndy/dyzz/index.html'
        self.__headers = {
            'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.99 Safari/537.36 Vivaldi/2.9.1705.41'}
        self.__new_film_detail_url = list()
        self.__new_film_download_url = list()
        self.__query_date = date.today() - timedelta(days = 1)

    def __is_query_publish_day(self, str_date) :
        """
        是否满足发布的日期
        """
        query_date = datetime.strptime(str_date, '%Y-%m-%d').date()
        return True if self.__query_date == query_date else False

    def __get_new_film_detail_url(self) :
        response = requests.get(url = self.__new_film_page_url, headers = self.__headers, verify = False)
        # response.encoding = requests.utils.get_encodings_from_content(response.text)
        # 中文乱码,GB2312无效
        response.encoding = 'GBK'

        # 加快爬取速度，只分析关注部分
        parse_only = SoupStrainer('div', attrs = {'class' : 'co_content8'})
        soup = BeautifulSoup(response.text, 'html.parser', parse_only = parse_only)
        table_tags = soup.find_all("table", attrs = {'class' : 'tbspan'}, recursive = True)
        for table_tag in table_tags :
            # 正则表达式匹配电影下载的发布日期
            publish_date = re.search('\d{4}-\d{1,2}-\d{1,2}', table_tag.find('font', attrs = {'color' : '#8F8C89'}).string)
            # publish_date = re.search('\d{4}-\d{1,2}-\d{1,2}', '日期：2019-12-25')
            if not publish_date or not self.__is_query_publish_day(publish_date.group(0)) :
                continue
            link_tag = table_tag.find('a')
            if link_tag.get('title') and link_tag.get('href') :
                self.__new_film_detail_url.append({'data'  : publish_date[0],
                                                   'title' : link_tag.get('title'),
                                                   'link'  : self.__index_url + link_tag.get('href')})

    def __get_new_film_download_url(self) :
        for film_detail in self.__new_film_detail_url :
            response = requests.get(url = film_detail['link'], headers = self.__headers, verify = False)
            # response.encoding = requests.utils.get_encodings_from_content(response.text)
            # 中文乱码,GB2312无效
            response.encoding = 'GBK'

            # 加快爬取速度，只分析关注部分
            parse_only = SoupStrainer('div', attrs = {'class' : 'co_content8'})
            soup = BeautifulSoup(response.text, 'html.parser', parse_only = parse_only)
            table_tags = soup.find_all("table", recursive = True)
            downloads = list()
            for table_tag in table_tags :
                downloads.append(table_tag.find('a').get('href'))

            self.__new_film_download_url.append({'data'  : film_detail['data'],
                                                 'title' : film_detail['title'],
                                                 'link'  : downloads})

    def spider(self) :
        self.__get_new_film_detail_url()
        self.__get_new_film_download_url()
                
if __name__ == '__main__' :
    dytt_spider = DyttSpider()
    dytt_spider.spider()

打印self.__new_film_download_url这个变量值，是如下的结构：

[
{
“data”: “2020-01-12”,
“title”: “一月经典意大利9.3分剧情片《海上钢琴师》BD英意双语中英双字”,
“link”: [
“magnet:?xt=urn:btih:d11ab04bd6d5f6ca10d119b660638c1e9f4011bf&dn=[电影天堂www.dytt89]海上钢琴师BD英意双语中英双字.mp4”
]
},
{
“data”: “2020-01-12”,
“title”: “2019年中美7.8分战争历史片《决战中途岛》HD国语中字”,
“link”: [
“magnet:?xt=urn:btih:9b47724df2ce45a23cd867a1ad926eed51a5ed36&dn=[电影天堂www.dytt89]决战中途岛HD国语中字.mp4”
]
}
]

4. 后续完善

是否可以将爬取到的下载地址直接发送到指定的邮箱里呢？当然是可以的。可以参考我之前写的另一篇博客《Python通过SMTP协议使用QQ邮箱发送邮件》。这样，如果网站每天都有更新，你的邮箱每天都会收到一封邮件啦。
每次都要手动执行脚本，太麻烦了，可以让这个脚本每天都自己执行吗？也是可以的，可以看看这个第三方库APScheduler，全称是Advanced Python Scheduler，一个轻量级的 Python 定时任务调度框架。

郑重说明

本文只限技术交流，请在法律允许的范围内合法爬虫！

本文标签：下载地址电影天堂最新 Python

版权声明：本文标题：Python爬取电影天堂最新发布电影下载地址内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1726058541a1053538.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Python爬取电影天堂最新发布电影下载地址

1. 第三方库

2. 网页分析

3. 参考代码

4. 后续完善

郑重说明

更多相关文章

天翼云电脑实现不关机Python（nodejs）代码

python趣味编程-盒子追逐者游戏

Python错误卸载导致无法重装之残留卸载

谷歌浏览器下载地址 chrome最新版本 百度云地址

下载google浏览器稳定版（最新）

中山大学wifi linux,中山大学无线网络(SYSU-SECURE)最新设置方法(win7)

Python学习足迹

廖雪峰Python 2.X 教程

Python 二次开发 AutoCAD 简介

2024年最新水果编曲软件fl studio 24.1.14285汉化版

Git 学习笔记——莫烦PYTHON

python爬虫app下载_Python爬虫之抓取APP下载链接

linux版本的qq下载地址,linux版本qq的安装

vs2019无法安装python包_关于vs2019安装不了扩展问题的解决方法

〖Python 数据库开发实战 - MongoDB篇③〗- Windows环境下的MongoDB数据库安装

FL Studio 24.0.99.4077中文版 Torrent &amp; Full Cracked 2024最新免费下载安装激活图文教程

python 爬虫之路教程

Affinity VS PS 2024最新功能详细对比？Affinity Photo与Photoshop比哪家强？

photozoom pro 9如何激活解锁 2024最新激活解锁代码

网易mumu模拟器老版本下载地址历史版本完整包

发表评论

推荐文章

放开那三国2祝福语讯飞输入法文件处理

百度输入法js项目练习课

svn版本控制

SAP常用命令、 BASIS操作

R语言在安装程序包时显示：Warning in install.packages :

热门文章

高配云计算机平台,云电脑真的来了！小破本也能秒变高配

办公局域网内的打印机如何做共享？

百度输入法词库异常的解决办法

《程序员修炼之道》读书笔记

我在神策做研发 | 与客户难题“对抗”的百余天

cad和mysql_在建筑行业，BIM 最终会取代 CAD 吗？

Windows Server 2012 R2 百度创建AD域

关于AndroidStudio 的 Gradle 基础知识

Eclipse 使用经验总结

GIMP Photoshop 插件项目教程

最新文章

【Linux】学习Linux，需要借助具象化的思维

FL2440(S3C2440A 芯片) 开发板开发笔记

java开发环境搭建

堡垒机(运维审计系统) 干什么的? 看完你就懂了

编程好书推荐

【题目】【信息安全管理与评估】2018年全国职业院校技能大赛高职组信息安全管理与评估样题

Window基础（黑客基础）

flstudio20.8.3.2293水果软件最新中文语言版本

小android模拟器,小姚Android模拟器工作室版本v6.2.7.0正式版

Android 开发环境搭建

Windows 硬件体验 Device Stage Windows Update

基于android的摆摊进货app

黑盒测试方法

21页报告揭秘华为鸿蒙OS，七年沉淀、称霸5G+IoT时代的野心 | 附下载

个人台式计算机上常用的操作系统,几个常用的操作系统简介

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

谷歌浏览器下载地址 chrome最新版本百度云地址

FL Studio 24.0.99.4077中文版 Torrent & Full Cracked 2024最新免费下载安装激活图文教程

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载