python爬虫之下载电影(不是爱奇艺腾讯视频等平台哈)|电子爱好者

admin管理员组
文章数量:1644929

尝试在我的博客中添上程序流程图，如果画的有误或有修改意见请各位大佬提出，我会加以改进的

本程序的流程

准备工作

python安装完成
pycharm安装完成
lxml、asyncio、aiohttp、aiofiles第三方库安装完成，如果你卡在了这一步，我会写一篇关于python安装第三方库报错的博客

程序各个模块

返回页面源代码部分

def get_page_code(url):
    with requests.get(url) as resp:
        text =resp.text #获得页面的源代码
    print("已经获取到源代码") # 你不要这个也行，但是我看着没有任何提示语句的程序内心很慌张
    return text

获取第一层m3u8地址

找m3u8文件，直接在页面源代码中查找m3u8就行，查找快捷键：Ctrl+F
你就看到了这一行代码

让我们观察一下，m3u8地址在ifram标签中的src属性里面，我们要确认一下这个页面是否只有一个iframe标签，如果是直接全页面搜索iframe即可，经过查找发现，该页面只有一个iframe标签，那就好办了，这里你可以用xpath或者BeautifulSoup都可以，如果要用BeautifulSoup的话，需要在程序开头加上一句 from bs4 import BeautifulSoup即可，如果报错，评论区中告诉我，我尝试解决
但是这个m3u8文件的地址需要进行处理

上xpath(xpath不会的话我后期可能会写一篇博客)

def get_first_m3u8_url(code):
    tree = etree.HTML(code)#创建etree对象，由于这里是HTML所以就选HTML就行
    src = tree.xpath('//iframe/@src')[0]#//表示满页面的找ifame标签，@src表示获取iframe标签的src属性值，由于xpath返回的是一个列表，我们只要第一个，所以就是0
    # 到了这一步我们拿到了第一层m3u8文件的地址，但需要提取
    src= src.split("=")[1].strip('&id')# 真正的m3u8文件的地址在第二个元素中
    print("已经获取到了第一层m3u8的地址")
    return src

下载m3u8文件

在第二个函数中我们已经获得到了第一层m3u8文件的地址，但是真正的m3u8文件的地址实在第二层m3u8文件中
所以还要再处理一次

def download_m3u8_file(first_m3u8_file):

    print("正在下载第二层m3u8文件")
    second=  get_page_code(first_m3u8_file)
    root = first_m3u8_file.rsplit('/',3)[0]
    second = second.split()[-1]
    second = root+second#拼接第二层地址
    second_file = get_page_code(second)
    with open("m3u8.txt",mode="w",encoding='utf-8') as f:
           f.write(second_file)
    print("第二层m3u8文件下载完成")

下载文件

这是用协程来实现的两个函数，应该能看得懂

async def download_one(url, sem):
    async with sem:  # 这玩意叫信号量。 可以控制并发量， 目前看  运行稳定。 应该没啥问题
        for i in range(100):
            try:
                print(url, "开始工作")
                filename = url.split('/')[-1]  # 刚刚这里有问题
                async with aiohttp.ClientSession() as session:
                    async with session.get(url) as resp:
                        content = await resp.content.read()
                        async with aiofiles.open(f"./待拼接的/{filename}",mode='wb') as f:
                            await f.write(content)
                print(f"{filename}下载成功")
                break
            except Exception as e:  
                print(f"网址为{url}出错了，重新尝试", e)
                print(f"等待{(i + 2) * 5}秒")
                await asyncio.sleep((i+2)*5)

async def download_all():
    sem = asyncio.Semaphore(10)  # 10 表示最大并发量是10 也就是有10个任务可以被挂起
    tasks=[]
    with open("m3u8.txt",mode="r",encoding='utf-8') as f:
        lines=f.readlines()
        for line in lines:
            line=line.strip()
            if "#" in line:
                continue
            else:
                task = asyncio.create_task(download_one(line, sem))
                tasks.append(task)
    await asyncio.wait(tasks)

合并文件

Windows上是这么做的
在cmd中输入copy /b 第一个文件(含扩展名) +第二个文件(含扩展名) 最终文件(含扩展名)
Mac上是这么干的
cat 第一个文件(含扩展名) +第二个文件(含扩展名) 最终文件(含扩展名) > 最终文件(含扩展名)

def merget():

    namelist=[]
    with open("m3u8.txt",encoding="utf-8") as f:
        lines = f.readlines()
        for line in lines:
            if "#" in line:
                continue
            else:
                line=line.strip()
                line=line.split('/')[-1]
                namelist.append(line)
    print("已经将所有的ts文件名加入到了列表中，准备合并文件")
    os.chdir('./待拼接的')
    temp = [] #存放ts文件名后转成字符串的列表
    n=1
    for i in range(len(namelist)):
        temp.append(namelist[i])
        if i!=0 and i%40==0:
            command="+".join(temp)
            os.system(f"copy /b {command} {n}.ts")
            temp=[]
            n+=1
    command="+".join(temp)#假如有48个文件，这一步处理剩下来的文件
    os.system(f"copy /b {command} {n}.ts")
    print("倒数第二步")
    n+=1
    temp=[]
    for i in range(1,n):
        temp.append(f"{i}.ts")
    command = "+".join(temp)
    os.system(f"copy /b {command} hope.mp4")
    print("完成!!!我希望看到这一步")

最终代码

import os
import requests
from lxml import etree
import asyncio
import aiohttp
import aiofiles
def get_page_code(url):
    with requests.get(url) as resp:
        text =resp.text
    print("已经获取到源代码")
    return text

def get_first_m3u8_url(code):
    tree = etree.HTML(code)
    src = tree.xpath('//iframe/@src')[0]
    src= src.split("=")[1].strip('&id')
    print("已经获取到了第一层m3u8的地址")
    return src
def download_m3u8_file(first_m3u8_file):

    print("正在下载第二层m3u8文件")
    second=  get_page_code(first_m3u8_file)
    root = first_m3u8_file.rsplit('/',3)[0]
    second = second.split()[-1]
    second = root+second#拼接第二层地址
    second_file = get_page_code(second)
    with open("m3u8.txt",mode="w",encoding='utf-8') as f:
           f.write(second_file)
    print("第二层m3u8文件下载完成")

async def download_one(url, sem):
    async with sem:  # 这玩意叫信号量。 可以控制并发量
        for i in range(100):
            try:
                print(url, "开始工作")
                filename = url.split('/')[-1]  # 刚刚这里有问题
                async with aiohttp.ClientSession() as session:
                    async with session.get(url) as resp:
                        content = await resp.content.read()
                        async with aiofiles.open(f"./待拼接的/{filename}",mode='wb') as f:
                            await f.write(content)
                print(f"{filename}下载成功")
                break
            except Exception as e:  # 这样写就能知道错哪儿了
                print(f"网址为{url}出错了，重新尝试", e)
                print(f"等待{(i + 2) * 5}秒")
                await asyncio.sleep((i+2)*5)

async def download_all():
    sem = asyncio.Semaphore(10)  # 10 表示最大并发量是10 也就是有10个任务可以被挂起
    tasks=[]
    with open("m3u8.txt",mode="r",encoding='utf-8') as f:
        lines=f.readlines()
        for line in lines:
            line=line.strip()
            if "#" in line:
                continue
            else:
                task = asyncio.create_task(download_one(line, sem))
                tasks.append(task)
    await asyncio.wait(tasks)
def merget():

    namelist=[]
    with open("m3u8.txt",encoding="utf-8") as f:
        lines = f.readlines()
        for line in lines:
            if "#" in line:
                continue
            else:
                line=line.strip()
                line=line.split('/')[-1]
                namelist.append(line)
    print("已经将所有的ts文件名加入到了列表中，准备合并文件")
    os.chdir('./待拼接的')
    temp = [] #存放ts文件名后转成字符串的列表
    n=1
    for i in range(len(namelist)):
        temp.append(namelist[i])
        if i!=0 and i%40==0:
            command="+".join(temp)
            os.system(f"copy /b {command} {n}.ts")
            temp=[]
            n+=1
    command="+".join(temp)#假如有48个文件，这一步处理剩下来的文件
    os.system(f"copy /b {command} {n}.ts")
    print("倒数第二步")
    n+=1
    temp=[]
    for i in range(1,n):
        temp.append(f"{i}.ts")
    command = "+".join(temp)
    os.system(f"copy /b {command} hope.mp4")
    print("完成!!!我希望看到这一步")
if __name__ == '__main__':
    url = "http://www.wbdy.tv/play/67656_1_1.html"
    main_code=get_page_code(url)
    first_m3u8 = get_first_m3u8_url(main_code)
    print(first_m3u8)
    download_m3u8_file(first_m3u8)
    loop = asyncio.get_event_loop()
    loop.run_until_complete(download_all())
    merget()

本文标签：爬虫腾讯下载电影平台视频

版权声明：本文标题：python爬虫之下载电影(不是爱奇艺腾讯视频等平台哈) 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1726539683a1074597.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

python爬虫之下载电影(不是爱奇艺腾讯视频等平台哈)

本程序的流程

准备工作

程序各个模块

返回页面源代码部分

获取第一层m3u8地址

下载m3u8文件

下载文件

合并文件

最终代码

更多相关文章

uni-app 微信小程序 销毁激励视频广告

一个很好的免费的CDN平台--jsDelivr

RMVB格式介绍，如何播放该格式视频，以及将RMVB转换成MP4？

android rmvb格式下载,顶峰-Android手机视频转换器

OMV - open media vault 中 miniDLNA 增加支持 rm、rmvb 视频方法 (也可用于其他Linux系统教程，如其他NAS)

下载网页视频方法

视频格式转换 CoolUtils Total Movie Converter 序列号

linux怎么用命令下电影,linux命令行---用wget下载电影

视频动作识别--Two-Stream Convolutional Networks for Action Recognition in Videos

音视频转换器哪个好？嗨格式视频转换器来了

Java 使用 ffmpeg.exe ( FLV视频转换器 )

曦力音视频转换专家-免费全能视频转换器（支持GPU加速）

3种将4K视频转换成1080P格式的无损方法

android视频 转 gif,手机视频转gif转换器 安卓手机怎样把视频转化成GIF图片，手机视频转GIF方法...

使用ffmpeg将MP4视频转换为m3u8格式

基于android平台的手机安全卫士的设计与实现 开题报告,开题报告-基于android的手机安全卫士的设计与开发.doc...

基于web的城市房屋租赁管理系统-01855（免费领源码+数据库）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、全套文案

关于视频格式转换（MP4转AMV）

强大的视频格式转换工具——iSkysoft iMedia Converter Deluxe Mac

视频文件类型科普：了解常见的几种视频文件格式类型

发表评论

推荐文章

BLE协议栈 – 链路层（Link Layer）

英语口语exam5（culture）

未能加载文件或程序集&quot;System.Data,Version=2.0.0.0,Culture=neu

基于web的城市房屋租赁管理系统-01855（免费领源码+数据库）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、全套文案

写给MatheMagician读者的第4封新年来信——暨2022年终总结与感悟

热门文章

Elasticsearch：Fielddata is disabled on text fields by default. Set fielddate=true on...

firewall-cmd使用方法

win11安装RabbitMQ

各大搜索引擎提交入口（百度，谷歌，雅虎...）

LINE登录手机后怎样更换别个账号_2020年全国青少年禁毒知识竞赛在线答疑来了（附登录入口）...

C盘瘦身清理android avdinstallerDriverStore

解决System.IO.FileNotFoundException: 无法加载文件或程序集System.IO.Ports, Version=4.0.2.0, Culture=neutral

必须添加对程序集“System.Configuration, Version=4.0.0.0, Culture=neutral, PublicKeyToken=b03f5f7f11d50a3a”的引用...

618最值得入手的好物推荐？

TowardsDataScience 博客中文翻译 2022（一百九十七）

最新文章

CST软件如何设置硬件加速选项GPU DCMPI token？

2024年手把手教CleanMyMac X2024正式破解版安装激活图文教程

手把手教你免费流畅访问GitHub

超级兔子虚拟磁盘加速器_《使命召唤：战区》内存不足很卡的解决办法（虚拟内存篇）...

redhat中docker使用阿里的镜像加速器

万兴全能格式转换器v15.5.7.61绿色版

【docker】centos7配置docker镜像加速

小程序如何cdn加速服务器,小程序游戏加速方案

Redis 可视化客户端工具、fastgithub 加速器

2024最新免费版轻量级Navicat Premium Lite 下载和安装教程

【GitHub加速工具，让你的GitHub、StackOverflow网站流畅度快到飞起，建议收藏~】

软件及各开发语言镜像和加速源2022版

腾讯发布区块链产业加速器，生态共创助力新基建建设

正版软件 | Passcovery Suite - 一款专业的 GPU 加速密码恢复软件

Centos-7安装docker及配置加速器

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

uni-app 微信小程序销毁激励视频广告

android视频转 gif,手机视频转gif转换器安卓手机怎样把视频转化成GIF图片，手机视频转GIF方法...

基于android平台的手机安全卫士的设计与实现开题报告,开题报告-基于android的手机安全卫士的设计与开发.doc...

未能加载文件或程序集"System.Data,Version=2.0.0.0,Culture=neu

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载