爬虫-Scrapy实战一|电子爱好者

admin管理员组
文章数量:1650888

本项目是 python scrapy 爬虫练手项目，仅供学习使用。

目标

获取电影天堂-最新电影的所有电影的详情页的url，title和磁力链接magnet。

创建项目

在开始爬取之前，你必须创建一个新的Scrapy项目。进入你打算存储代码的目录中，运行下列命令:

scrapy startproject dianying

该命令将会创建包含下列内容的 tutorial 目录:

dianying/
     scrapy.cfg
     dianying/
         __init__.py
         items.py
         pipelines.py
         settings.py
         spiders/
             __init__.py
             ...

这些文件分别是:

scrapy.cfg: 项目的配置文件
dianying/: 该项目的python模块。之后您将在此加入代码。
dianying/items.py: 项目中的item文件.
dianying/pipelines.py: 项目中的pipelines文件.
dianying/settings.py: 项目的设置文件.
dianying/spiders/: 放置spider代码的目录.

定义Item

Item 是保存爬取到的数据的容器；其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

类似在ORM中做的一样，你可以通过创建一个 scrapy.Item 类，并且定义类型为 scrapy.Field 的类属性来定义一个Item。 (如果不了解ORM, 不用担心，你会发现这个步骤非常简单)

首先根据需要从电影天堂-最新电影获取到的数据对item进行建模。我们需要从最新电影中获取所有电影的详情页的url，title和磁力链接magnet。对此，在item中定义相应的字段。编辑 dianying 目录中的 items.py 文件:

import scrapy

class DianyingItem(scrapy.Item):
    url = scrapy.Field()
    title = scrapy.Field()
    magnet = scrapy.Field()

一开始这看起来可能有点复杂，但是通过定义item，可以很方便的使用Scrapy的其他方法。而这些方法需要知道你的item的定义。

编写爬虫(Spider)

Spider是用户编写用于从单个网站(或者一些网站)爬取数据的类。

其包含了一个用于下载的初始URL，如何跟进网页中的链接以及如何分析页面中的内容，提取生成 item 的方法。

为了创建一个Spider，必须继承 scrapy.Spider 类，且定义以下三个属性:

name: 用于区别Spider。该名字必须是唯一的，不可以为不同的Spider设定相同的名字。
start_urls: 包含了Spider在启动时进行爬取的url列表。因此，第一个被获取到的页面将是其中之一。后续的URL则从初始的URL获取到的数据中提取。
parse() 是spider的一个方法。被调用时，每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data)，提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。

分析网页

你可以在终端中输入 response.body 来观察HTML源码并确定合适的XPath表达式。不过，这任务非常无聊且不易。你可以考虑使用Firefox的Firebug扩展来使得工作更为轻松。详情请参考使用Firebug进行爬取和借助Firefox来爬取。

这里笔者使用的是Chrome的XPath Helper扩展，很方便。

在查看了网页的源码后，您会发现：

最新电影的选择每个分页的选项值的 XPath 路径是：
```
//select/option/@value
```
所有电影的详情页的link的信息的 XPath 路径是：
```
//a[@class="ulink"]/@href
```

进入单个详情页进行分析，可以发现：

单个详情页的title的信息的 XPath 路径是：
```
//div[@class="title_all"]/h1/text()
```
单个详情页的磁力链接的信息的 XPath 路径是：
```
//div[@id="Zoom"]//a[starts-with(@href, "magnet:")]/@href
```

随便查看了几个电影详情页，发现都有迅雷专用高速下载的地址(thunder://)，但是这些地址的属性名不一致，还未想到如何提取；部分电影有磁力链接的地址(magnet:)，属性名都是 @href，格式比较整齐，所以这里只提取了磁力链接的数据，爬取过程中，遇到没有磁力链接数据的页面会出现错误信息，但是程序不会停止

提取数据

现在，来尝试从这些页面中提取些有用的数据。

获取最新电影的分页的url的信息:

for page in response.xpath("//select/option/@value").extract():
    url = "https://www.dy2018" + page

获取单个分页中所有电影的详情页的url的信息:

for link in response.xpath('//a[@class="ulink"]/@href').extract():
    url = "https://www.dy2018" + link

获取具体详情页的title和磁力链接：

for sel in response.xpath('//div[@id="Zoom"]'):
    items['title'] = sel.xpath('p[3]/text()').extract()
    items['magnet'] = sel.xpath('//a[starts-with(@href, "magnet:")]/@href').extract()

提取数据的大概逻辑就是这样了，接下来是代码实现。
在spiders目录下创建dianying_spider，并加入这段代码:

import scrapy
from dianying.items import DianyingItem

class DianyingSpider(scrapy.Spider):
    name = "dianying"
    allowed_domains = ["dy2018"]
    start_urls = [
        "https://www.dy2018/html/gndy/dyzz"
    ]

    # 程序入口
    def parse(self, response):
        # 遍历 最新电影 的所有页面
        for page in response.xpath("//select/option/@value").extract():
            url = "https://www.dy2018" + page
            yield scrapy.Request(url, callback=self.parsePage)

    # 处理单个页面
    def parsePage(self, response):
        # 获取到该页面的所有电影的详情页链接
        for link in response.xpath('//a[@class="ulink"]/@href').extract():
            url = "https://www.dy2018" + link
            yield scrapy.Request(url, callback=self.parseChild)

    # 处理单个电影详情页
    def parseChild(self, response):
        # 获取电影信息，并提取数据
        for sel in response.xpath('//div[@id="Zoom"]'):
            items = DianyingItem()
            items['url'] = response.url
            items['title'] = sel.xpath('p[3]/text()').extract()
            items['magnet'] = sel.xpath('//a[starts-with(@href, "magnet:")]/@href').extract()
            yield items

现在尝试爬取dy2018，你将看到爬取到的网站信息被成功输出:

scrapy crawl dianying

保存爬取到的数据

最简单存储爬取的数据的方式是使用 Feed exports:

scrapy crawl dianying -o items.json

该命令将采用 JSON 格式对爬取的数据进行序列化，生成 items.json 文件。

更多信息请移驾爬虫-Scrapy实战二

本文标签：爬虫实战 scrapy

版权声明：本文标题：爬虫-Scrapy实战一内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1726058947a1053582.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

爬虫-Scrapy实战一

目标

创建项目

定义Item

编写爬虫(Spider)

分析网页

提取数据

保存爬取到的数据

更多相关文章

【Python实战】“特种兵”们的专属游戏助手，助你吃鸡：极品小助手也是棒呆了~（“大吉大利，今W吃鸡”）

pyppeteer：比 selenium 更高效的爬虫利器

【暗恋不可耻但无用】QQ空间爬虫-Python版（pyzone-crawler）

python使用scrapy爬取qq音乐（一）

Win10自带DLL修复工具实战指南：从识别到解决，全程无忧

AI驱动TDSQL-C Serverless 数据库技术实战营-与AI的碰撞

Llama模型家族训练奖励模型Reward Model技术及代码实战（一）

web渗透测试实战-SQLMAP

纯python实现 DNF搬砖脚本,深度学习版本,工作室适用（主体功能已完成，上线实战中）

（一）联邦学习FATE框架1.6.0版本单机部署和实战训练评估篇

31 实战-centos上安装docker(超详细)-2021912

XGBoost feature importance特征重要性-实战印第安人糖尿病数据集

python爬虫项目实战： 爬取酷狗音乐详细操作

Python爬虫之爬取酷狗音乐歌曲

【Python爬虫项目】酷狗音乐附源码

酷狗音乐爬虫

python爬虫教程：爬取酷狗音乐

vue酷狗音乐实战开发—1-酷狗音乐的需求，路由设计和mint-ui安装

scrapy 爬取酷狗T500音乐

源码分享：爬虫获取酷狗的付费音乐

发表评论

推荐文章

（2024年3月最新）iPhone添加QQ邮箱教程

NVIDIA控制面板打开后闪退

10款电脑加密软件超好用推荐｜2024年常用电脑加密软件排行榜

ubuntu安装qtcreator后没有桌面图标

oracle的执行图标不见了,oracle企业管理器图标无故消失

热门文章

Linux网络编程-UDP实现QQ聊天功能

miui 8.5 android,小米5c获MIUI 8.5.3.0系统更新：升级最新安卓7.1

Studio One正版多少钱 Studio One正版怎么购买

结构最清晰的Yolov3 head和loss实现完全解析

UTXO 和 Account 模型对比

system用户登陆的时候提示 ora-28000 the account is locked

windows服务器无法安装net3.5 提示：无法通过windows功能控制面板自动安装或卸载windows server角色和功能服务器

w ndows10的字体在哪里,更改windows10系统字体

scrapy_redis分布式爬取酷狗音乐

ubuntu 安装 酷狗在线音乐桌面版

最新文章

3ds Max 2018--点击“输入序列号”框就闪退

CDR2024序列号和密钥激活码注册机

Ubuntu20.04 搜狗输入法设置

Debian安装搜狗输入法及无法输入的问题解决

linux 用户卸载搜狗输入法一生轻松

CAD2017软件安装资料及教程

CAD2019安装方法及步骤

JAVA生成序列号

Autodesk2012 安装方法（最全密钥及序列号)

Linux Ubuntu自带中文（搜狗输入法真的坑）

CAD2019软件安装教程

cad2016中选择全图字体怎么操作_CAD2016 软件安装教程

CAD 2020电气版下载安装教程、详细步骤

AutoCAD2014的安装与激活

搜狗输入法皮肤编辑器（“用户账户不存在: 解压缩失败 皮肤解压失败:skin.ini不存在……”）

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

python爬虫项目实战：爬取酷狗音乐详细操作

ubuntu 安装酷狗在线音乐桌面版

搜狗输入法皮肤编辑器（“用户账户不存在: 解压缩失败皮肤解压失败:skin.ini不存在……”）

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载