我的第一个爬取多页式的python小程序之爬取电影天堂最新电影前七页所有电影的详情页|电子爱好者

admin管理员组
文章数量:1657319

爬取了电影天堂最新电影里面的前七页所有电影的详情页面，并逐条写入到excel

import requests
from lxml import etree
import pandas as pd

url = 'https://www.dytt8/html/gndy/dyzz/index.html'
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}
MOVIE = {}


def get_main_url(url):
    """获取传入url里获取的所有电影列表的详情页面的url"""

    ori_url = 'https://www.dytt8'
    resp = requests.get(url=url, headers=HEADERS)
    text = resp.content.decode("gbk", 'ignore')  # 可能有gbk都处理不了的特殊字符，必须传入ignore参数

    html = etree.HTML(text)
    tables = html.xpath("//table[@class='tbspan']")
    det_url_list = []
    for table in tables:
        detail_ur = table.xpath(".//a/@href")[0]
        detail_urls = ori_url + detail_ur
        det_url_list.append(detail_urls)
    return det_url_list


def get_detail_page(url, i):
    resp = requests.get(url=url, headers=HEADERS)
    text = resp.content.decode("gbk", 'ignore')
    html = etree.HTML(text)
    MOVIE['索引'] = [i]
    title = html.xpath("//div[@class='title_all']//font[@color='#07519a']/text()")[0]
    MOVIE['电影名'] = title
    zooms = html.xpath("//div[@id='Zoom']")[0]
    try:
        poster = zooms.xpath(".//img/@src")[0]
        MOVIE['海报地址'] = poster
    except IndexError:
        MOVIE['海报地址'] = ['获取失败']

    def parser_cont(cont, rule):
        return content.replace(rule, '').strip()

    contents = zooms.xpath(".//text()")
    for index, content in enumerate(contents):
        if content.startswith('◎产　　地'):
            content = parser_cont(content, '◎产　　地')
            MOVIE['制片国家'] = content
        elif content.startswith('◎类　　别'):
            content = parser_cont(content, '◎类　　别')
            MOVIE['类别'] = content
        elif content.startswith('◎上映日期'):
            content = parser_cont(content, '◎上映日期')
            MOVIE['上映日期'] = content
        elif content.startswith('◎豆瓣评分'):
            content = parser_cont(content, '◎豆瓣评分')
            MOVIE['豆瓣评分'] = content
        elif content.startswith('◎片　　长'):
            content = parser_cont(content, '◎片　　长')
            MOVIE['片长'] = content
        elif content.startswith('◎主　　演'):
            content = parser_cont(content, '◎主　　演')
            actors = [content]
            MOVIE['主演'] = actors
            for x in range(index + 1, len(contents)):
                actor_main = contents[x].strip()
                if actor_main.startswith('◎'):
                    break
                actors.append(actor_main)

    return MOVIE


def spider():
    i = 0
    base_url = 'https://www.dytt8/html/gndy/dyzz/list_23_{}.html'
    for x in range(1, 8):
        # 第一个for循环用来获取七页电影列表的url
        url = base_url.format(x)
        det_url_list = get_main_url(url)
        for det_url in det_url_list:
            # 这里的for循环用来获取每一页包含的每一部电影的详情页面的url
            get_detail_page(det_url, i)
            i += 1
            print(MOVIE)
            movies = pd.read_excel('./movie.xlsx')
            movie = pd.Series(MOVIE, name='i')
            movies = movies.append(movie, ignore_index=True)
            movies.to_excel('./movie.xlsx')


if __name__ == "__main__":
    spider()

出现的问题

1.对于xpath的语法还不是很熟练

2.对于excel的写入还不是很熟悉，最后写入的excel每行都包含很多的无用行，不知道什么原因，改了大半天仍旧有问题，留待以后解决。

错误如下：

本文标签：第一个电影最新电影多页详情页

版权声明：本文标题：我的第一个爬取多页式的python小程序之爬取电影天堂最新电影前七页所有电影的详情页内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1729778777a1212524.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

调试移动端h5的新闻详情页对于空格pc谷歌浏览器调试的渲染效果与手机终端的渲染效果不同

22天前

我接到了一个需求，实现新闻列表以及对应的新闻详情这是一个react-native项目，但是要求用移动端h5开发详情页，打包成dist后，作为一个链接

电影光盘的vob格式视频如何转换成mp4格式

19天前

vob文件怎么打开，vob文件用来保存所有MPEG-2格式的音频和视频数据，也就是光盘中的视频，据小编所知市面上多数的视频播放器都可以播放此类文件，不过

电影：钢铁侠

18天前

简介：2008 年的钢铁侠讲述了托尼·斯塔克 (Tony Stark) 的故事，他是一位亿万富翁实业家和天才发明家，他被绑架并被迫制造毁灭性武器。相反，托尼利用他的智慧和聪明才智打造了一套高科技盔甲并逃脱了囚禁。当他发现一个具有全球影响的

从Windows 1.0到Windows 10的旅程：探索Windows系统的起源和第一个版本特点

15天前

学习目标： 了解Windows系统的发展历程和重要版本。理解每个版本的特点和改进。掌握每个版本的发布时间和重要功能。了解Windows系统对于个人用户和企业用户的市场影响。探索Windows系统在用户界面、性能优化和

Android应用内跳转到google play或者其他应用市场详情页下载或者评价

15天前

1. google play应用商店小米手机上对该代码进行了验证，安装有google play和小米应用商店，直接启动的是小米应用商店。验证环境红米note3Android 6.0系统

html 创建多个窗口,electron-vue开发笔记（3）多窗口多页面入口配置

10天前

准备写个系列，先把flag立上～问题 electron-vue默认的配置是单页面应用，但是在这种情况下想实现多个窗口多页面入口，即同时打开aWin，bWin两个窗口，且aWin窗口展示a.html，bWin窗口展示b.html。复制

android 跳转oppo应用中心_Android唤起应用商店并跳转到应用详情页

10天前

开发中有一个需求，是需要弹出弹窗，提示并引导用户前往应用商店中我们指定应用的应用详情页，填写评价。这个需求其实很简单，只需要唤起对应的应用商店，并加上我们应用的包名作为参数，即可打开。首先上代码，从最简单的开始，直接打开当前手机的应用商店

HarmonyOS鸿蒙最新Android studio开发-第一个入门例子（十分详细）_android开发，2024年最新2024年最新面试题

8天前

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！ 既有适合

我做了第一个ChatGPT .net api聊天库

7天前

我做了第一个ChatGPTapi聊天库最近这个ChatGPT很火啊，看了B站上很多视频，自己非常手痒，高低自己得整一个啊，但是让我很难受的是&

linux下播放rm，rmvb电影

5天前

首先安装mplayer 可以使用新得力软件包安装然后安装 win32codeces 下载地址是 http:debian-multimediapoolmainww32codecs直接选择deb文件下载&#xff0c

使用google查找AVIRMVBMP4电影--google搜索引擎的新用法

5天前

google的新用法第一篇在搜索框上输入：“index of ” 　AVI就是突破网站入口直接查找AVI的电影，还可以将AVI改为RMVB等等.在搜索框上输入&#xf

电影

4天前

喜欢用迅雷下的 pub 去如下网站 http:www.xiaodiao 原电影天堂 http:www.ffdy 放防电影喜欢用快播的 http:www.3444 这个网站喜欢用电驴的这个是我的最爱 http:

Windows10系统上投影(仅电影屏幕,复制,拓展,仅第二屏幕)类型的作用

4天前

一: 场景这几天需要使用到电脑的投屏功能,但是懒得找网上的投影软件,便使用windows自带投影工具,但是，发现系统自带的也分有四种类型，对这些类型不是很熟悉，一顿百度和操

itext 输出多页PDF

3天前

package cn.jn.bq.itext.pdf; import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutputStream;

完成您的第一个智能无人机

2天前

1 让智能无人机梦想变成现实对于大多数极客学员来说，自己组装一台无人机，可以航拍，可以目标跟踪，是心中的梦想，但是实现梦想的学员

完成你的第一个智能无人机

2天前

1 让智能无人机梦想变成现实对于大多数极客学员来说，自己组装一台无人机，可以航拍，可以目标跟踪，是心中的梦想，但是实现梦想的学员

多多进宝商品详情页，商品优惠券，商品优惠券id,商品属性id等参数接口代码展示

2天前

多多进宝商品详情页，商品销量，商品优惠券，商品优惠券id,商品属性id，SKU属性ID等参数接口代码展示如下： 1.公共参数

品优购商城——手机详情页（作业）

1天前

效果图：手机详情页文件 detail.html<!DOCTYPE html><html lang="en"><head><meta charset="

学完教程，不知道接下去从哪里开始做自己的第一个APP，怎么办？酷课堂iOS交流群问答（201902期）

1天前

酷课堂iOS移动开发交流群问题精华整理以下内容由客服妹子爬楼整理，限于篇幅，无法就所有问题做详细说明，感兴趣的小伙伴，可以添加小课QQ&#x

pytho2.7.x+requests+xpath爬取电影天堂

3小时前

python2.7.x，和python3.x处理中文乱码方式不一样。遇到问题就百度，遇到python2的中文乱码问题可以参考这几篇博客： https:blog.csdn

电子爱好者 - 最新技术资讯及电子产品介绍！

我的第一个爬取多页式的python小程序之爬取电影天堂最新电影前七页所有电影的详情页

爬取了电影天堂最新电影里面的前七页所有电影的详情页面，并逐条写入到excel

出现的问题

1.对于xpath的语法还不是很熟练

2.对于excel的写入还不是很熟悉，最后写入的excel每行都包含很多的无用行，不知道什么原因，改了大半天仍旧有问题，留待以后解决。

更多相关文章

调试移动端h5的新闻详情页 对于空格pc谷歌浏览器调试的渲染效果与手机终端的渲染效果不同

电影光盘的vob格式视频如何转换成mp4格式

电影：钢铁侠

从Windows 1.0到Windows 10的旅程：探索Windows系统的起源和第一个版本特点

Android应用内跳转到google play或者其他应用市场详情页下载或者评价

html 创建多个窗口,electron-vue开发笔记（3）多窗口多页面入口配置

android 跳转oppo应用中心_Android唤起应用商店并跳转到应用详情页

HarmonyOS鸿蒙最新Android studio开发-第一个入门例子（十分详细）_android开发，2024年最新2024年最新面试题

我做了第一个ChatGPT .net api聊天库

linux下播放rm，rmvb电影

使用google查找AVIRMVBMP4电影--google搜索引擎的新用法

电影

Windows10系统上投影(仅电影屏幕,复制,拓展,仅第二屏幕)类型的作用

itext 输出多页PDF

完成您的第一个智能无人机

完成你的第一个智能无人机

多多进宝商品详情页，商品优惠券，商品优惠券id,商品属性id等参数接口代码展示

品优购商城——手机详情页（作业）

学完教程，不知道接下去从哪里开始做自己的第一个APP，怎么办？酷课堂iOS交流群问答（201902期）

pytho2.7.x+requests+xpath爬取电影天堂

发表评论

推荐文章

推荐6 款超实用app软件工具，值得收藏！

Win10子系统ubuntu20.04设置静态ip、笔记

为什么分布式一定要有redis，redis的一些优缺点

erp服务器慢_公司的ERP反应很慢，怎么解决？原因分析方向

第三章 教育法律法规

热门文章

搭建网络ghost服务器

我的Android进阶之旅：经典的大牛博客推荐

【教程】看见清晰视界！全平台视频超分插帧，动漫党福利！

RViz与gazebo联合仿真时报错[ERROR] [1701506431.253044843, 25.636000000]: Unable to identify any set of contro

i7 12650h和i5 12450h对比 i712650h和i512450h哪个好

台式机和计算机有什么区别吗,台式机CPU和笔记本计算机CPU有什么区别

win10无法装载iso文件_win 10如何装载和弹出ISO映像文件

VirtualBox 中安装 Win10

六十年史诗！CPU的历史~！

发视频撸收益，软件无脑批量剪辑，第一天发第二天就有钱

最新文章

搭建嵌入式ARM完整系统

[UBUNTU]系统安装后,应该做的几件小事儿

Ubuntu系统分区方案

如何在linux系统上搭建部署网站？

新手买车细节

最全python爬虫面试笔试题及答案汇总，三万多字，持续更新，适合新手，应届生

Linux系统下OpenDDS安装及测试2021-07-10

万字长文分享，新手小白如何自学Java（方法+步骤）

201942更新 重制3617-6.17 增加918+6.21 二合一引导启动系统盘

新手入门，Ubuntu18安装CCSv8版本

我从Python新手到大师的百天之路（内附学习资源）

【好书推荐8】《智能供应链：预测算法理论与实战》

Ubuntu 20.04系统 安装显卡驱动RTX3080

如何安装虚拟机以及在虚拟机上安装 rhel9.3系统育婴级教程（文章最后附带所需文件地址）

京东云轻量云主机搭建WordPress个人博客系统教程（图文+视频）

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

调试移动端h5的新闻详情页对于空格pc谷歌浏览器调试的渲染效果与手机终端的渲染效果不同

第三章教育法律法规

201942更新重制3617-6.17 增加918+6.21 二合一引导启动系统盘

Ubuntu 20.04系统安装显卡驱动RTX3080

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载