爬取子页|电子爱好者

admin管理员组
文章数量:1644402

概述

在日常爬虫过程中，我们还要爬取当前页面的分页页面，这种情况下，普通爬虫方式已经不行了，所有今天来尝试子页面的爬取

开始工作

1.创建项目：

scrapy startproject pqejym
复制代码

2.创建爬虫器：

cd pqejym
scrapy genspider btdy www.btbtdy
复制代码

3.打开PyCharm

通过PyCharm打开项目目录

4.设置setting.py文件

ROBOTSTXT_OBEY = False  
##这是爬虫规则，我们选择False不遵守，可以爬取更多东西
复制代码

USER_AGENT =  'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.89 Safari/537.36'
##这是请求头信息的USER_AGENT，我们给它设置成这样，改制可以通过浏览器的开发者工具获取
复制代码

5.编写爬虫文件

分析：因为是爬取子页面，我们当前的起始url是当前页面，要想获取子页面，我们得拿到子页面的链接，然后再去解析获取子页面的内容先写个函数获取子页面链接：

 def parse(self, response):
        links = response.xpath('//div[@class="cts_ms"]/p/a/@href')
        for link in links:
            print(link.extract())
            yield response.follow(link,self.parse_content)
复制代码

我们通过xpath解析，拿到链接标签，然后通过循环遍历，follow是scrapy的内置方法，对scrapy中使用yield循环处理网页url的分析

首先，scrapy框架对含有yield关键字的parse()方法的调用是以迭代的方式进行的。相当于

for n in parse(self, response):
        pass
复制代码

其次，python将parse()函数视为生成器，但首次调用才会开始执行代码，每次迭代请求(即上面的for循环)才会执行yield处的循环代码，生成每次迭代的值。我们试着运行：

 scrapy crawl btdy
复制代码

部分结果展示：

/btdy/dy10862.html
/btdy/dy10598.html
/btdy/dy10186.html
/btdy/dy10216.html
/btdy/dy9749.html
/btdy/dy8611.html
/btdy/dy11748.html
/btdy/dy6403.html
/btdy/dy5165.html
/btdy/dy6219.html
/btdy/dy5164.html
/btdy/dy4356.html
/btdy/dy1670.html
/btdy/dy1669.html
/btdy/dy1668.html
复制代码

接下来我们写个函数解析子页面内容：

def parse_content(self,response):
        print(response.xpath('//title'))
        movie = PqejymItem()
        title = response.xpath('//h1/text()').extract()
        content = response.xpath('//div[@class="c05"]/span/text()').extract()
        magnet = response.xpath('//*[@id="nucms_downlist"]/div[2]/ul/li/span/a/@href').extract()
        movie['title'] = title
        movie['content'] = content
        movie['magnet'] = magnet
        yield movie

复制代码

我们的在items中定义一下：

import scrapy


class PqejymItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    content = scrapy.Field()
    magnet = scrapy.Field()

复制代码

总体btdy代码如下：

import scrapy
from pqejym.items import PqejymItem


class BtdySpider(scrapy.Spider):
    name = 'btdy'
    allowed_domains = ['www.btbtdy']
    start_urls = ['http://www.btbtdy/']

    def parse(self, response):
        links = response.xpath('//div[@class="cts_ms"]/p/a/@href')
        for link in links:
            print(link.extract())
            yield response.follow(link,self.parse_content)
    def parse_content(self,response):
        print(response.xpath('//title'))
        movie = PqejymItem()
        title = response.xpath('//h1/text()').extract()
        content = response.xpath('//div[@class="c05"]/span/text()').extract()
        magnet = response.xpath('//*[@id="nucms_downlist"]/div[2]/ul/li/span/a/@href').extract()
        movie['title'] = title
        movie['content'] = content
        movie['magnet'] = magnet
        yield movie
复制代码

6.运行文件

scrapy crawl btdy
复制代码

部分结果

2018-08-24 17:53:43 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.btbtdy/btdy/dy13375.html>
{'content': [], 'magnet': [], 'title': ['那些年，我们正年轻']}
2018-08-24 17:53:43 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.btbtdy/btdy/dy13350.html> (referer: http://www.btbtdy/)
[<Selector xpath='//title' data='<title>爱情进化论全集-高清BT种子下载_迅雷下载-BT电影天堂</tit'>]
2018-08-24 17:53:43 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.btbtdy/btdy/dy13315.html>
{'content': [], 'magnet': [], 'title': ['爱情进化论']}
2018-08-24 17:53:43 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.btbtdy/btdy/dy13379.html> (referer: http://www.btbtdy/)
[<Selector xpath='//title' data='<title>天盛长歌全集-高清BT种子下载_迅雷下载-BT电影天堂</titl'>]
2018-08-24 17:53:43 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.btbtdy/btdy/dy13350.html>
{'content': [], 'magnet': [], 'title': ['天盛长歌']}
[<Selector xpath='//title' data='<title>夜天子全集-高清BT种子下载_迅雷下载-BT电影天堂</title'>]
2018-08-24 17:53:43 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.btbtdy/btdy/dy13379.html>
{'content': [], 'magnet': [], 'title': ['夜天子']}
2018-08-24 17:53:44 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.btbtdy/btdy/dy13243.html> (referer: http://www.btbtdy/)
[<Selector xpath='//title' data='<title>进击的巨人 第三季全集-高清BT种子下载_迅雷下载-BT电影天堂<'>]
2018-08-24 17:53:44 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.btbtdy/btdy/dy13243.html>
{'content': [], 'magnet': [], 'title': ['进击的巨人 第三季']}
2018-08-24 17:53:44 [scrapy.core.engine] INFO: Closing spider (finished)
2018-08-24 17:53:44 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 45111,

复制代码

本文标签：爬取子页

版权声明：本文标题：爬取子页内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1729382533a1199207.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

爬取子页

概述

开始工作

1.创建项目：

2.创建爬虫器：

3.打开PyCharm

4.设置setting.py文件

5.编写爬虫文件

更多相关文章

爬取子页

发表评论

推荐文章

JDBC连接数据库出现Loading class `com.mysql.jdbc.Driver'. This is deprecated.问题的相关解决方法

win11锁屏屏保图片存放位置

渗透测试之——google语法

未能加载文件或程序集“System.Web.Extensions, Version=4.0.0.0, Culture=neutral, PublicKeyToken=31bf3856ad364e35”...

macOS Sequoia 15.0.1 (24A348) 正式版 ISO、IPSW、PKG 下载

热门文章

录屏软件电脑版哪个好？4个电脑免费录屏软件推荐

实用教程：解决Mac电脑启动时一直卡在进度条或Apple标志的情况

【开源】PaddleOCR一键识别万物

Fabric2.0 单机多节点环境（fabric-samplesfirst-network）搭建问题汇总（持续更新）

feign.FeignException: status 404 reading

centos7开启端口（永久--permanent）

Linux进阶六：【firewall-cmd】防火墙设置；（以【对外开放Tomcat】为例来演示）

运维进阶——firewall详解

winform遍历bartender_未能加载文件或程序集“Seagull.BarTender.Print, Version=11.0.8.1, Culture=neutral, PublicKeyT...

解决---请求“System.Net.WebPermission, System, Version=4.0.0.0, Culture=neutral, PublicKeyToken=b77a5c561...

最新文章

Office Online Server概述

Office Tool Plus 只安装Visio

onlyoffice 在线编辑

onlyoffice+vue集成

安装Office365后版本信息显示为Office2019或者其他的解决方案

office2021与365你还在纠结吗？快来看看

onlyoffice文件服务器安装,在本地服务器上安装Windows版ONLYOFFICE Integration Edition

Centos7 docker搭建onlyoffice

安装Office office Tool 一键解决，选择性安装功能

office365服务器没有响应,Win10安装Office365时电脑无响应的原因和解决方案

vue+onlyOffice+java : 集成在线编辑word并保存

安装office未能启动服务器,关于 office 2013 无法安装的解决方法

解决Office 365套件一直提示“缓存凭据已到期，无法上载或下载你的更改”问题

各款Excel、word在线预览工具对比分析以及onlyoffice预览Excel加载时间长的解决方案

SpringBoot下载Excel文件，在Wps上可以打开但是Office上的excel打不开的问题

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载