python灰产路子有哪些_Python3 网络爬虫（四）：视频下载，那些事儿！-后台架构数据库-敏捷大拇指-一个敢保留真话的IT精英社区...|电子爱好者

admin管理员组
文章数量:1636810

快来登录

获取优质的科技资讯内容

收藏热门的IT网络技术干货

拷贝下载Swift Demo源代码

订阅梳理好了的知识点专辑

点击上方“Jack Cui”，选择“加为星标”

第一时间关注技术干货！

2f9270f7e6a8c983477f1e23a7d78c5c.jpg (48.64 KB, 下载次数: 0)

2020-5-11 15:21 上传

前言

你知道的视频下载“姿势”，有哪些吗？

本文绝对有你意想不到的玩法！

6d3e2bf0d7e9259aa60e89fe51954150.jpg (13 KB, 下载次数: 2)

2020-5-11 15:21 上传

陈年往事

视频下载，跟图片下载其实并无差别，甚至更简单。

玩过视频下载的，应该对「you-get」并不陌生。

「you-get」支持各大视频网站的视频下载，国内外加起来近 80 家。像国内的爱奇艺、腾讯视频、抖音、快手、B站、A站，国外的 Youtube、Twitter、TED、Instagram等等。

你只需要一行命令，就可以轻松下载想要的视频。

you-get https://www.bilibili/video/BV1NZ4y1j7nw

比如，下载“黑人抬棺原版视频”。

090e4ca3fedd956ec633059e02e7cc9d.jpg (34.97 KB, 下载次数: 1)

2020-5-11 15:21 上传

简单好用！

URL：https://github/soimort/you-get

有了「you-get」就“无敌”了吗？

并非如此，「you-get」对于短视频下载较好。对于爱奇艺、腾讯视频里面的长视频内容，支持就有些局限。比如 VIP 付费内容，只能下载个 6 分钟时长的片头。

付费的 VIP 内容，也可以下载吗？

当然可以。

早在 2 年前，我就搭建过视频解析网站。

7e97fedba4dda4d97a1be75b7f279db1.jpg (545.54 KB, 下载次数: 0)

2020-5-11 15:21 上传

甭管是爱奇艺、腾讯、还是优酷，也甭管是免费视频还是付费视频，只要给个视频网址链接，分分钟解析播放。

用自己搭建的这个解析网站，白嫖了半年的视频。后来，用我这个网站看视频的人越来越多，索性就给它停了。

说实话，自己白嫖就算了，还带着大家一起白嫖，就有些过分了。

后来付费意识逐渐增强，不想再做白嫖党，也就办了爱奇艺的年度会员。

这种视频解析网站现在仍然有很多，但大多数都早已不能用了。

在网络上，有个叫「视频解析接口」的东西。

这些大大小小的视频解析网站，其实就是调用的这些第三方「视频解析接口」实现的。

背后的原理也并不复杂，就是拿着一些 VIP 会员账号，在后台解析视频，然后分享给别人看的。

随着版权意识、版权管理的加强，以及技术的更新迭代，这类「视频解析接口」也就逐渐失效了。

在网络上，还有个叫「资源采集网」的东西。

「视频解析接口」大量失效，那帮搞「灰产」的人另辟蹊径，既然视频无法解析，那就搜索资源吧。

现在，与其叫它们「视频解析接口」，不如叫它们「视频搜索接口」。

这些「视频搜索接口」拿着视频地址，去「资源采集网」匹配资源。

「资源采集网」其实就是一个大型网络爬虫，它会采集网络上的视频资源，并将它们整合到一起。

这里的说头，太多了。扯远了，回归正题。

视频下载

背景讲完了，那就进入今天的主题，从「资源采集网」下载我们想要的视频。

以「越狱第一季」为例，越狱算是带我入坑的美剧之一，Miller 太帅了。

本文要爬的网站名叫「ok 资源网」，长这样：

a63179853bb3c1cdbf810ee92fa9ba92.jpg (280.98 KB, 下载次数: 0)

2020-5-11 15:21 上传

URL：http://www.jisudhw/

思路也不复杂，搜索、解析、下载。

1、搜索

想要下载视频，首先得找到资源，采用站内搜索很简单。

抓搜索的请求包也特别简单，教一个小技巧：

第一步输入要搜索的内容，第二步打开并清理 Network，第三步点击搜索按钮。

753bc16566f809313c66c6844194c33d.jpg (244.29 KB, 下载次数: 1)

2020-5-11 15:21 上传

Network 里第一个弹出的就是搜索的请求包。

5ecf0f7f9c677f2766b2b78f5b7acf9e.jpg (244.49 KB, 下载次数: 1)

2020-5-11 15:21 上传

可以看到，这是一个 POST 请求。

之前的实战内容，无论是下载小说，还是下载图片，都是 GET 请求。

GET 请求，就是字面意思，从服务器获取数据。POST 请求，也是字面意思，给服务器发送数据。

因为我们是搜索嘛，得告诉服务器，咱搜索啥，给服务器传递数据，就是通过 POST。

能 POST 的数据有很多，可以是简单的字符串、也可以是一张图片。

POST 啥数据，那就看服务器要啥数据，要啥给啥，就这么简单。

看一下搜索的结果页，不难发现，搜索结果存储在 class 属性为 xing_vb4 的 span 标签里。

3eab9b15da5b1c7e863237efbebd9d4f.jpg (107.63 KB, 下载次数: 1)

2020-5-11 15:21 上传

没有难度啊，直接搞起。根据浏览器抓包结果，填写 data 信息即可。由于网站也有简单的 Header 反爬虫，所以一些必要的 Headers 信息也要填写。

import requestsfrom bs4 import BeautifulSoup

search_keyword = '越狱第一季'search_url = 'http://www.jisudhw/index.php'serach_params = { 'm': 'vod-search'}serach_headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36', 'Referer': 'http://www.jisudhw/', 'Origin': 'http://www.jisudhw', 'Host': 'www.jisudhw'}serach_datas = { 'wd': search_keyword, 'submit': 'search'}

r = requests.post(url=search_url, params=serach_params, headers=serach_headers, data=serach_datas)

r.encoding = 'utf-8'server = 'http://www.jisudhw'search_html = BeautifulSoup(r.text, 'lxml')search_spans = search_html.find_all('span', class_='xing_vb4')for span in search_spans: url = server + span.a.get('href') name = span.a.string print(name) print(url)

顺利拿到详情页地址：

718473b75ec4d2b96a12ecf65d1eff75.jpg (170.05 KB, 下载次数: 1)

2020-5-11 15:21 上传

2、解析

解析详情页，获得下载链接，我们先看下详情页都有啥。

URL：http://www.jisudhw/?m=vod-detail-id-15409.html

视频详情页，至少有两种播放类型，一种是 m3u8 ，一种是 kuyun 。

0ceb0d4ee95fe1e7bdaa9dc14cf4bc29.jpg (343.29 KB, 下载次数: 1)

2020-5-11 15:21 上传

拿到其中一种链接即可，我们以 m3u8 为例进行说明。

可以看到，视频链接都放在了 input 标签里，直接匹配：

import requestsfrom bs4 import BeautifulSoup

detail_url = 'http://www.jisudhw/?m=vod-detail-id-15409.html'r = requests.get(url = detail_url)r.encoding = 'utf-8'detail_bf = BeautifulSoup(r.text, 'lxml')num = 1serach_res = {}for each_url in detail_bf.find_all('input'): if 'm3u8' in each_url.get('value'): url = each_url.get('value') if url not in serach_res.keys(): serach_res= num print('第d集:' % num) print(url) num += 1

将结果都存放到了字典里，这样方便后续视频链接和视频名称的一一对应。

b07c8458d334e2a43805514266837418.jpg (216.85 KB, 下载次数: 0)

2020-5-11 15:21 上传

3、下载

视频下载，一般而言，无非两种情况。

一种，链接明确是以 mp4、mkv、rmvb 这类视频格式后缀为结尾的链接，这种下载很简单，跟图片下载方法一样，就是视频文件要比图片大而已。

另一种，链接是以 m3u8 这类分段视频后缀结尾的链接。啥是分段视频？

抓包看一下就知道了，打开视频播放链接：

http://youku-youku/share/f0d48bde60d407c45af7ca00d1ef927b

0e59ff9ebe172eb3cb9dd563b66a5efe.jpg (365.39 KB, 下载次数: 2)

2020-5-11 15:21 上传

现在很多视频都是分段存储的，你看视频的时候，其实是在加载一个个 ts 视频片段，一个片段是几秒钟的视频。

这种视频要怎么下载？怎么将 ts 视频片段组合成一个视频？

其实，如果知道方法，就很简单。

m3u8 这种格式的视频，就是由一个个 ts 视频片段组成的。

一个 m3u8 文件并不大，你可以把它理解为链表，每个 ts 视频片段文件，都有下一个时序的 ts 视频片段的地址。

8f619b8c743eea631bc19f3e9ef33dd4.jpg (10.19 KB, 下载次数: 1)

2020-5-11 15:21 上传

记住一点，解决音频和视频的一些问题，可以看看 FFmpeg，它的中文名叫多媒体视频处理工具。

FFmpeg 有非常强大的功能包括视频采集、视频格式转换、视频抓图、给视频加水印等功能。

这种 ts 视频片段合成，格式转换问题，交给 FFmpeg 就好了。

要使用 FFmpeg，需要先安装配置一番。

下载地址：https://ffmpeg.zeranoe/builds/

安装好后，记得配置环境变量。

FFmpeg 也有 Python API 接口，名字叫 ffmpy3，安装好 FFmpeg 后，可以直接通过 pip 安装。

pip install ffmpy3

都弄好，就可以愉快的玩耍了。

比如想要下载 m3u8 文件。

URL：

http://youku-youku/20180614/11920_4c9e1cc1/index.m3u8

可以在命令行输入如下指令：

ffmpeg -i "http://youku-youku/20180614/11920_4c9e1cc1/index.m3u8" "第001集.mp4"

视频会保存为「第001集.mp4」。

如果用 Python 接口，也只需要两行代码：

import ffmpy3ffmpy3.FFmpeg(inputs={'http://youku-youku/20180614/11920_4c9e1cc1/index.m3u8': None}, outputs={'第001集.mp4':None}).run()

FFmpeg 自动整合 ts 分段视频，并保存为 mp4 格式的视频。

是不是很简单？

整合代码

代码整合在一起，开始下载电视剧。

import osimport ffmpy3import requestsfrom bs4 import BeautifulSoupfrom multiprocessing.dummy import Pool as ThreadPool

video_dir = '' r = requests.post(url=search_url, params=serach_params, headers=serach_headers, data=serach_datas)r.encoding = 'utf-8'server = 'http://www.jisudhw'search_html = BeautifulSoup(r.text, 'lxml')search_spans = search_html.find_all('span', class_='xing_vb4')for span in search_spans: url = server + span.a.get('href') name = span.a.string print(name) print(url) video_dir = name if name not in os.listdir('./'): os.mkdir(name) detail_url = url r = requests.get(url = detail_url) r.encoding = 'utf-8' detail_bf = BeautifulSoup(r.text, 'lxml') num = 1 serach_res = {} for each_url in detail_bf.find_all('input'): if 'm3u8' in each_url.get('value'): url = each_url.get('value') if url not in serach_res.keys(): serach_res[url] = num print('第d集:' % num) print(url) num += 1

def downVideo(url): num = serach_res[url] name = os.path.join(video_dir, '第d集.mp4' % num) ffmpy3.FFmpeg(inputs={url: None}, outputs={name:None}).run() # 开8个线程池pool = ThreadPool(8)results = pool.map(downVideo, serach_res.keys())pool.close()pool.join()

由于视频太大了，要是一个一个地下载，有些慢，适当开个线程，8 线程下载。

63dae92566a92ffb2560e038a5046edb.jpg (11.4 KB, 下载次数: 0)

2020-5-11 15:21 上传

来吧，一起看「越狱」吧！

最后

本文仅是探讨一些关于视频下载的技术，切勿滥用。

支持正版，从我做起。

关注微信公众号，公众号文章评论区留言，获赞数前2名的读者，将获得爱奇艺1个月黄金 VIP 会员。

Jack Cui

edcdeabb09ab8ddbdcd0863739952019.jpg (36.49 KB, 下载次数: 1)

2020-5-11 15:21 上传

ec6de9ecb86627f88755edc6c116def1.jpg (4.11 KB, 下载次数: 2)

2020-5-11 15:21 上传

6398465a8cbf5f348c8f98cfab1bfb41.jpg (36.6 KB, 下载次数: 0)

2020-5-11 15:22 上传

长按识别二维码关注

游客，本帖隐藏的内容需要积分高于 10240000 才可浏览，您当前积分为 0

登录才可查看全文

好好学习Swift，天天想上Swifthumb

敏捷大拇指，一个敢保留真话的IT精英社区

都看到这里了，就把这篇资料推荐给您的好朋友吧，让他们也感受一下。

回帖是一种美德，也是对楼主发帖的尊重和支持。您的赞赏是我前进的方向。

*声明：敏捷大拇指是全球最大的Swift开发者社区、苹果粉丝家园、智能移动门户，所载内容仅限于传递更多最新信息，并不意味赞同其观点或证实其描述；内容仅供参考，并非绝对正确的建议。本站不对上述信息的真实性、合法性、完整性做出保证；转载请注明来源并加上本站链接，敏捷大拇指将保留所有法律权益。如有疑问或建议，邮件至marketing@swifthumb。

*联系：微信公众平台：“swifthumb” / 腾讯微博：@swifthumb / 新浪微博：@swifthumb / 官方QQ一群：343549891(满) / 官方QQ二群：245285613 ，需要报上用户名才会被同意进群，请先注册敏捷大拇指。

本文标签：爬虫大拇指路子真话敏捷

版权声明：本文标题：python灰产路子有哪些_Python3 网络爬虫（四）：视频下载，那些事儿！-后台架构数据库-敏捷大拇指-一个敢保留真话的IT精英社区... 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1729231713a1191527.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

python灰产路子有哪些_Python3 网络爬虫（四）：视频下载，那些事儿！-后台架构数据库-敏捷大拇指-一个敢保留真话的IT精英社区...

更多相关文章

C#asp.net-智能制造业ERP系统-89973（免费领源码+开发文档）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、全套文案

基于大数据爬虫+数据可视化大屏+Python的广东省人口流动数据分析设计和实现(源码+论文+部署文档等)

Python爬虫爬取Google Play 100万个App的数据，并入库到数据库 scrapy框架

google play 爬虫项目

python3爬虫（4）各种网站视频下载方法

Python爬虫‘utf-8‘ codec can‘t decode byte 0x83 in position 0: invalid start byte 的解决方案

爬虫英雄联盟官网的全英雄介绍和技能介绍

浅谈Python爬虫（四）【英雄联盟人物背景故事爬取】

Python爬虫入门-爬取LOL英雄信息写入txt文件

爬虫之爬取英雄联盟战绩详细数据

python爬虫————获取英雄联盟所有皮肤原画

Python爬虫：英雄联盟英雄皮肤图片

Python爬虫实战| Python爬取英雄联盟高清壁纸

爬虫实战（一）—利用requests、mongo、redis代理池爬取英雄联盟opgg实时英雄数据

python -又一次爬虫练习（爬取LOL所有的英雄头像）

python爬虫 获取小米应用商店app信息

python爬虫 获取华为应用商店app信息

敏捷开发用户故事系列之八 剖析用户故事描述语法（兼谈不同种类故事的语法）

Python爬虫爬取腾讯视频动漫专区的动漫及其描述

用C++写一个腾讯视频的爬虫程序代码

发表评论

推荐文章

清明节海报设计软件测试,PS清明节海报设计教程

模拟登录qq网页版方法

免费chartGPT网站汇总

MAUI初体验：爽

Dapper Object must implement IConvertible.

热门文章

linux 解压缩 压缩 分片压缩（tar tar.gz zip rar 7z）

android打不出字母来,搜狗输入法功能科普二十一：为何字词通过拼音打不出来(安卓篇)...

linux 内搜狗输入法候选框乱码的情况处理

2023 最新可用Google镜像地址 长期更新

爬虫项目十五：你了解你的QQ好友吗？教你用Python采集QQ好友数据

APIServer 认证 ServiceAccount

phpcms URL路由原理

ROS知识： vanilla（香草） CMakeLists.txt 的语法

YT-DLP 超好用的开源视频下载工具

【LeetCode OJ 232】Implement Queue using Stacks

最新文章

windows@环境变量配置和使用@命令行配置环境变量@环境变量路径长度限制解除

windows系统许可证即将过期

VMware Workstation 11 可用密钥

mathtype74注册码永久激活版mathtype7激活密钥免费破解版

利用Vlan实现家庭网络单线复用

cn_win_srv_2003_r2_standard_x64_with_sp2_cd1_X13-28810 的序号

BeyondCompare3密钥过期处理

Win11下面的StartAllBack的安装、使用流程

怎么选择WiFi短信认证硬件供应商？

UPnP和DLNA协议

Norton Internet Security 序列号提取（卡饭）

Beyond Compare 4秘钥

mathtype2025破解永久激活密钥

大路由器默认密码（完美汇总经典版）

rdma verbs network libfabric OpenFabrics 接口简介-用于最大限度提高-高性能应用程序效率的新网络接口(API)-[译]

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

python爬虫获取小米应用商店app信息

python爬虫获取华为应用商店app信息

敏捷开发用户故事系列之八剖析用户故事描述语法（兼谈不同种类故事的语法）

linux 解压缩压缩分片压缩（tar tar.gz zip rar 7z）

2023 最新可用Google镜像地址长期更新

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载