QiYi视频评论信息采集|电子爱好者

admin管理员组
文章数量:1659592

- **Scrapy —— 高层次信息爬取**
- ****Pyspider****
- 实现方法
具体操作
采集文档
- 一、数据采集目标
- 二、目标网站设计原理分析
- 三、数据采集流程与步骤说明
- - 1、更换获取方式
  - 2、查找API接口
  - 3、自动化
- 四、数据采集实现过程
- - 1、实现思路
  - 2、实现步骤
- 五、采集数据结果说明
- 六、任务总结与个人心得
- - 源代码

Scrapy —— 高层次信息爬取

运行流程
1. 引擎从调度其中取出一个URL用于接下来的抓取。
2. 引擎把URL封装成一个请求，传给下载器。
3. 下载器将资源下载，并封装成一个响应。
4. 爬虫解析响应。
5. 解析出的是项目，则交给项目管道进行下一步处理。
6. 解析出的是URL，则把URL交给调度器等待下一步的抓取。

Pyspider

selenium
Crawley —— 提取数据方式
Portia —— 没有编程基础可视化
Newspaper —— 新闻、文章、内容分析

实现方法

获取网址链接
1. 用于重写获取的第三步子URL（编写子类）
获取排行内容
拿到排行的URL
在第三步基础上，对类进行重写操作
获取评价等信息

具体操作

丢弃

首先创建scrapy项目
```
scrapy startproject BigWork
```

spiders文件夹用于编写文件夹规则

scrapy crawl BigWork

```bash

browsermob-proxy -port 9999

curl -X POST http://localhost:9999/proxy
```

反向

采集文档

一、数据采集目标

获取电影风云榜单前三十五名（自定义条数），获取内容如下：

影片信息

电影名
排行榜
影片简介
热度
影片URL
评分
评论信息
图例

评论信息

用户名
评论时间
IP地点
点赞数
评论回复
以及评论回复的1-4条的信息
图例

二、目标网站设计原理分析

初步采集，先了解该网页设计框架，获取内容区域：风云榜。如下：

进入电影风云榜

点击进入

进入后样式

查看到入口后，分析界面采用的技术，Ctrl + u查看网络源代码。

发现直接可以获取源数据，接下来接着点击电影内部的评论是否采用同样技术。

这时，查看电影内的元素发现没有左方蓝色区域呈现的源码，所以初步判断影片内采用的是JavaScript异步渲染和AJAX的动态网页。

初步使用selenium与Pyspider框架进行调试

三、数据采集流程与步骤说明

但以上两个框架仅可获取到爱奇艺首页，无法获取风云榜内容（由于异步渲染，同时结合JavaScript方法）。

1、更换获取方式

经过以上两个框架调试无果，还不能放弃，此时查看爱奇艺是否存在API接口。

此时发现base_info……存有该影片的信息介绍，但最初风云榜源码已有相同的信息。

2、查找API接口

此时再找是否存在评论的API接口。

而评论也是使用JS点击才能出现内容，所以转换到JS数据查看，这时发现有一个get_base……与前面影片信息的base_info……有个相同单词，点开后惊奇发现，用户名和评论内容就在这里。

3、自动化

不过仅凭着两条还无法判断是否全部包含评论内容，不急，接着进入其链接查看

此时影片和评论信息均已找到对应API接口，但却要在程序上实现自动化。

查找评论API的参数在不同影片之间有什么变化。

（1）、查看参数

两个链接经过对比发现，channel_id（具体是哪一个视频具有不相同性已查找不到）、callback和content_id是不同的参数，这里我先将最后一个callback参数移除发现也可以访问。

平凡英雄

https://sns-comment.iqiyi/v3/comment/get_baseline_comments.action?agent_type=118&agent_version=9.11.5&authcookie=null&business_type=17&channel_id=1&content_id=3865336409304800&last_id=&need_vote=1&page_size=10&qyid=ae3660a6667720a508f88610df39e64b&sort=HOT&tail_num=1&callback=jsonp_1670052106799_2482

哥，你好

https://sns-comment.iqiyi/v3/comment/get_baseline_comments.action?agent_type=118&agent_version=9.11.5&authcookie=null&business_type=17&channel_id=1&content_id=8928607239732000&last_id=&need_vote=1&page_size=10&qyid=ae3660a6667720a508f88610df39e64b&sort=HOT&tail_num=1&callback=jsonp_1670050754038_83253

（2）、查找参数

查看完参数的不同后，接着就需要查找到评论API所需的对应电影参数。

此时想到前面获取影片内容的API中存在参数，那么此时跳回到这里，查看是否包含，如果包含，那就可以将其都利用API的方式实现。

进入API数据页面，查找content_id和channel_id内容

发现存有大量相同数据。

此时可以实现提取影片API数据，从而获得评论API。

但影片API如何查找？

经过多个影片比对，发现三个决定性参数：

entity_id —— 影片标识符
timestamp —— 时间戳
sign —— 签名

原先想采用图灵图书系列作者所写：自动获取AJAX方法获取到每个影片的API，但发现无法获取到，那没办法了，只好手动将这三个决定性参数存放起来调用（原始方法）。

content_id
channel_id

《哥，你好》影片API

https://mesh.if.iqiyi/tvg/pcw/base_info?entity_id=8928607239732000&timestamp=1670050026832&src=pcw_tvg&vip_status=0&vip_type=&auth_cookie=&device_id=ae3660a6667720a508f88610df39e64b&user_id=&app_version=3.0.0&sign=A9E09042D81A3A5BC45CD09E511A4223

四、数据采集实现过程

1、实现思路

主方法调用函数实现所有功能，影片信息获取、评论信息获取以及其他方法的调用。故以上方式我分为5个py文件实现。

main —— 主文件
homePage —— 风云榜封面信息获取
urlSource —— 视频链接API资源
commentAPI —— 评论API调用
item —— 方法调用

2、实现步骤

（1）、将影片API存储在JSON文件中

（2）、读取影片API

（3）、获取API数据

（4）、API数据转化为字典格式读取

（5）、将评论API所需两个必要参数传入

（6）、调用网页请求方法

（7）、调用API数据转化方法

（8）、循环获取影片中的十条评论

（9）、数据存储

五、采集数据结果说明

数据存储为JSON格式。

将每一部影片信息存储在对应序列下，紧接将对应影片的评论信息存储在该影片下。

即可保证数据可读性，也方便程序读取数据，进行数据分析。

已将所要的采集目标全部爬取出。

六、任务总结与个人心得

前后尝试过selenium、Scrapy和Pyspider但发现网页的JavaScript渲染技术实在太强大，接着通过反向JS技术实现影片API接口参数的实现，最终无法将其运行在Python中，最终放弃选择自行存储参数数据。

而在API参数分析过程中，时间戳的转化仅能精确到毫秒，而爱奇艺自动生成的则到了微秒。

有关爬虫，最重要的是相关性，让我将两个API联系在一起使用，就是因为在这两者之间的不同参数找相同，从而实现双通。

源代码

GitHub——amlei

本文标签：信息采集视频 qiyi

版权声明：本文标题：QiYi视频评论信息采集内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1729834778a1214325.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

【视频转换】监控视频DAV转mp4

10小时前

遇到.dav格式的视频，无法用OpenCV读取，如何转换成mp4 1. 首先将.dav视频修改后缀成.h264 # 批量修改视频后缀def video_rename(file_path,sa

CSF视频文件格式转换

10小时前

如果大家看过一些高校教学讲解视频的话，很可能见过这样一个难得的格式，".csf "，非常漂亮。用QQ影音和迅雷看看都可以打开观看&#xff0

Li‘s 影像组学视频学习笔记(18)-使用MRIcroGL软件格式转换、勾画ROI

10小时前

本笔记来源于B站Up主: 有Li 的影像组学系列教学视频本节(18)主要介绍: 使用MRIcroGL软件进行格式转换、勾画ROI并保存为mask文件 MRIcroGL 是一款免费、开源的轻量级软件；dicom格式

爱奇艺视频编码信息参考

3小时前

爱奇艺视频不同视频规格的编码信息分析根据下载下来的视频分析的结果，大家可以用来做参数： 规格文件码率分辨率视频编码格式视频编码码率视频帧率音频编码格式音频编码码率音频编码通道4K5966kb

爱奇艺怎么上传视频

3小时前

在爱奇艺使用过程中，不知道怎么上传视频。下面就由小编给大家介绍一下爱奇艺怎么上传视频的操作步骤吧。爱奇艺官网下载_爱奇艺怎么上传视频 1、进入爱奇艺，点击加号。爱奇艺官网下载_爱奇艺怎么

爱奇艺视频版权保护技术与维权实践

3小时前

随着海量多媒体应用内容的产生,对内容的安全性要求也相应提高.爱奇艺技术产品中心高级经理陈赫从多个方面介绍了爱奇艺在版权保护上的技术探索与维权实践.本文来自陈赫在LiveVideoStack线上交流分享，并由LiveVideoStack整理

两行代码下载网页视频~

3小时前

需要提醒的是，这个方法只能下载哔哩哔哩网页视频~ 1、先安装包 pip install you-get 2、下载 you-get [视频网址]

爱奇艺视频自动批量上传软件收录好吗

3小时前

爱奇艺视频自动批量上传软件收录好吗还有老照片心理测评等。大概年时，里出现一批老照片的账，他们发布老照片的视频，然后吸引家里有老照片的人，几十块钱&am

基于c++的模拟爱奇艺web视频上传

3小时前

资源下载地址：https:download.csdndownloadsheziqiong85883761 资源下载地址：https:download.csdndownloadsh

php 上传到爱奇艺,dedecms怎么上传视频

3小时前

如果你想了解更多关于dedecms的知识可以点击：DEDECMS教程 1.上传视频。我起初是直接在爱奇艺的网页里面上传的，发现，他上传不了。可能是视频太大的原因。它需要下载客

【web逆向】*qiyi视频签名vf逆向分析

3小时前

以下内容以视频全网超火的一首《错位时空》，很好听的治愈系，适合单曲循环为例来分析该视频下载所经历的过程抓包分析，可以得到视频下载链接 https:qcloudcdnct.inter.71edgevideosv1ts2021

2023-11 | 短视频批量下载爬取某个用户的所有视频 | Python

2小时前

这里以鞠婧祎的个人主页为demo 【2023-11-4 23:02:52 星期六】可能后面随着官方的调整, 方法不再适用, 请注意 URL地址:aHR0cHM6Ly93d3cuZG91eWluLmNvbS91c2VyL01TNHdMakF

爱奇艺视频生产 Kubernetes 集群优化实践：感知业务优先级

2小时前

本文介绍爱奇艺针对视频生产场景、在 Kubernetes（以下简称 K8s）集群优化方面的实践：如何使高优先级任务获得更多的 CPU 资源，更快完成任务。 01背景视频生产集群所面临的一个挑战是 K8s 原生机制无法区分业务优先

【VIP视频网站项目二】搭建爱奇艺优酷腾讯视频官网首页轮播图效果及实现原理分析

2小时前

这个是实现的效果，基本上轮播效果和主流网站的一致，但是我也在上面优化了一些效果，可以在线预览效果：https:vip.52tech.tech 目前项目代码已经全部开源：项目地址：https:githubxiugangzha

免费报名 | 爱奇艺ZoomAI视频增强技术的应用

2小时前

看各种视频节目已经成为当前娱乐休闲的一种方式，技术的进步和网速的升级提升了我们的视觉愉悦感，但是你总会遇到一些情况，比如老电影电视剧的画面抖动、色彩灰暗&#xff1

手机爱奇艺视频qlv格式怎么转换mp4格式

2小时前

1、搜索： 小白兔视频格式在线转换 2、上传你的视频（腾讯qlv，爱奇艺qsv、优酷kux）都可以。 3、转换好后，我们把转换的视

解决方案：Android开发基于rtmp视频直播

2小时前

前言近两年时间，视频直播可谓大火。在视频直播领域，有不同的商家提供各种的商业解决方案，包括软硬件设备，摄像机，编码器&#

Android视频直播的实现

1小时前

最近一段时间，视频直播可谓大火。在视频直播领域，有不同的商家提供各种的商业解决方案，包括软硬件设备，摄像机，编码器&#xf

度盘视频视频网页倍速播放？一行代码就够了

1小时前

该方法主要针对电脑网页中百度网盘视频在线播放。安卓手机推荐用“ES浏览器”“MX播放器”实现倍数，或者下载后使用软件加速，ios端自带加速。测试工具：Chrome浏览器&a

Android视频直播的实现（推流完整实现001）

1小时前

http:blog.csdn.NEThuaxun66articledetails53427771 http:blog.csdnhuaxun66articledetails53427771 最近一段时间&#x

电子爱好者 - 最新技术资讯及电子产品介绍！

QiYi视频评论信息采集

目录

Scrapy —— 高层次信息爬取

Pyspider

实现方法

具体操作

采集文档

一、数据采集目标

二、目标网站设计原理分析

三、数据采集流程与步骤说明

1、更换获取方式

2、查找API接口

3、自动化

四、数据采集实现过程

1、实现思路

2、实现步骤

五、采集数据结果说明

六、任务总结与个人心得

源代码

更多相关文章

【视频转换】监控视频DAV转mp4

CSF视频文件格式转换

Li‘s 影像组学视频学习笔记(18)-使用MRIcroGL软件格式转换、勾画ROI

爱奇艺 视频编码信息参考

爱奇艺怎么上传视频

爱奇艺视频版权保护技术与维权实践

两行代码下载网页视频~

爱奇艺视频自动批量上传软件收录好吗

基于c++的模拟爱奇艺web视频上传

php 上传到爱奇艺,dedecms怎么上传视频

【web逆向】*qiyi视频签名vf逆向分析

2023-11 | 短视频批量下载爬取某个用户的所有视频 | Python

爱奇艺视频生产 Kubernetes 集群优化实践：感知业务优先级

【VIP视频网站项目二】搭建爱奇艺优酷腾讯视频官网首页轮播图效果及实现原理分析

免费报名 | 爱奇艺ZoomAI视频增强技术的应用

手机爱奇艺视频qlv格式怎么转换mp4格式

解决方案：Android开发基于rtmp视频直播

Android视频直播的实现

度盘视频视频网页倍速播放？一行代码就够了

Android视频直播的实现（推流完整实现001）

发表评论

推荐文章

Codeforces Round #295A. Pangram

Ubuntu20安装RTL8811RTL8812无线网卡驱动

menu什么意思中文意思_menu是什么意思

ubuntu16.04虚拟机设置为桥接模式，解决无法上网问题（但NAT模式可以上网）

苹果电脑如何修改DNS？DNS提示错误无法上网怎么办？

热门文章

windows10 1903 + Windows Terminal 体验

春节还怕抢不到票？Github上11k star开源神器助你一臂之力

【博应用官网】苹果三款新iPhone将有望全部支持无线充电

如何学习嵌入式

windows下解决弹窗广告

excel下拉速度太慢_excel表格很卡怎么办？：excel数据表格下拉卡顿

Rstudio使用中最容易忽视的问题

恋爱必修课

安装mysql提示oxc000007b_Win7出现oxc000007b怎么办？解决win7重装系统出现oxc000007b的方法...

PDF怎么转CAD文件？(免费！高效转换方法汇总)

最新文章

C语言：删除指定文件内容

python 压缩文件夹_Python 中怎么样删除zip压缩文件夹中某个文件

服务器删除文件拒绝访问,教你win7系统删除文件拒绝访问的应对措施

删除本地文件后 Git从远程仓库重新获取

Linux下删除海量小文件最快方法

c删除文件的某几行

linux怎么找指定类型文件,Linux中查找指定类型文件以及删除例子

Linux删除所有文件之后的恢复快照恢复

Spring Boot配置MinIO（实现文件上传、下载、删除）

MyBatis增删改查基础及其xml文件

C#删除文件夹里的文件

手动删除nginx的access.log 文件和error.log文件，日志不在写入解决办法

python批量删除文件中多余的空行

linux rm 命令如何删除隐含文件

linux删除文件或文件夹

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

爱奇艺视频编码信息参考

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载