Scrapy请求顺序优化priority(优先级)|电子爱好者

admin管理员组
文章数量:1624341

# 解决爬虫download不能尽早执行的问题(前几分钟一直在请求url返回url,没有到达数据库的操作);优化请求顺序;
spider文件:
方法:priority=number   (默认为0,越大优先级越大)
def parse(self, response):
    res = response.selector.re('<a><span>(.*?)</span></a>')
    for val in res:
        val = quote(val)
        # range(1,61)
        for i in range(1,60):
            url = f'https://fe-api.zhaopin/c/i/sou?start={60*i}&pageSize=60&cityId=530&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw={val}&kt=3&lastUrlQuery=%7B%22p%22:{i},%22pageSize%22:%2260%22,%22jl%22:%22530%22,%22kw%22:%22{val}%22,%22kt%22:%223%22%7D&at=54721ddd55fd4f8ca9f2080ab3dfb7ea&_v=0.64103108'
            # Request请求中priority(优先级)默认值是0,越大优先级越大,允许是负值
            yield scrapy.Request(url = url,callback=self.parseone)

def parseone(self,response):
	# 最后一个请求,之后用来下载数据存入数据库
    res = json.loads(response.text)['data']['results']
    for i in res:
        url = 'https://jobs.zhaopin/' + i['number'] + '.htm'
        print(url)
        #  提高优先级,让队列中的请求尽早提前到达存储数据库这一步;
        yield scrapy.Request(url = url,callback=self.parsetwo,priority=10)


    def parsetwo(self,response):
        jobname = response.xpath('/html/body/div[1]/div[3]/div[4]/div/ul/li[1]/h1/text()').extract_first()
        time = response.xpath('/html/body/div[1]/div[3]/div[4]/div/ul/li[2]/div[1]/span/span/text()').extract_first()
        url = 'https://www.zhaopin/'
        salary = response.xpath('/html/body/div[1]/div[3]/div[4]/div/ul/li[1]/div[1]/strong/text()').extract_first()
        station = response.xpath('/html/body/div[1]/div[3]/div[4]/div/ul/li[2]/div[2]/span[1]/a/text()').extract_first()
        degree = response.xpath('/html/body/div[1]/div[3]/div[4]/div/ul/li[2]/div[2]/span[3]/text()').extract_first()
        experience = response.xpath('/html/body/div[1]/div[3]/div[4]/div/ul/li[2]/div[2]/span[2]/text()').extract_first()


        desc =  response.xpath("//div[@class='responsibility pos-common']//text()").getall()
        desc = ''.join(i.strip() for i in desc )

        item = LiepinItem()
        item['jobname'] = str(jobname)
        item['time'] = time
        item['url'] = url
        item['salary'] = salary
        item['station'] = station
        item['degree'] = degree
        item['experience'] = experience
        item['desc'] = desc
        return  item

本文标签：优先级顺序 scrapy Priority

版权声明：本文标题：Scrapy请求顺序优化priority(优先级) 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1728897390a1178585.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

Java并发09:Thread的基本方法(6)-线程优先级priority相关说明与操作

5小时前

[超级链接：Java并发学习系列-绪论] 本章主要对Java中Thread类的基本方法进行学习。 1.序言 Thread类作为线程的基类，提供了一系列方法，主要有&am

启动Hadoop集群，出现Cannot set priority of nodemanager(resourcemanager) process xxx问题

5小时前

背景 （不感兴趣可以跳过背景介绍） 配置 Ubantu20.04jdk1.8.0_221hadoop 3.3.1hive 3.1.3三台虚拟机搭建Hadoop集群在安装hive的过程中&

蓝牙耳机Priority设置流程

5小时前

当蓝牙耳机配对成功后，会发送一个BONDING_STATE_CHANGE的消息，在BondStateMachine状态机里会对这个消息进行处理，调用setProfilePri

priority-queue outmls qos trust dscp在cisco9300接口下怎么配置

5小时前

在 Cisco 9300 接口下，可以使用以下命令来配置优先级队列 out，mls qos trust dscp： 输入 interface interface_id 命令&

Python 优先队列（priority queue）和堆（heap）

5小时前

队列和优先队列（Priority Queue） 队列是一种可以完成插入和删除的数据结构。普通队列是先进先出（FIFO), 即先插入的先被删除。然而在某些时候我们需要按照任

线程优先权Thread Priority概念总结

5小时前

全文参考《WIN32多线程设计》一书。为什么会有线程优先权：为什么CPU处理线程时会按优先级执行？想象在忙碌的一天中，有很多事情待做但时间又不够，其中有很多紧急的事情。比如当晚的英语在线测试，明天的正式作业，下午重要的考试等等，你将如何

【C++】优先级队列 priority_queue的使用及模拟实现@STL —— 仿函数

5小时前

priority_queue 1. 优先级队列的使用2. priority_queue的模拟实现2.1 size & empty & top2.2 仿函数2.2.1 push & 向上调整算法2.2.2 pop &a

linux nice机制,Linux的进程优先级 Nice 和 priority

5小时前

nice value is a user-space and priority PR is the processs actual priority that use by Linux kernel. In linux system pri

Hadoop安装错误：Cannot set priority of secondarynamenode process : xxxxx

5小时前

这是由于当前用户与可操作用户不匹配，产生权限冲突使用以下命令可解决 chown -R root:root 文件名，如 chown -R root:root hadoop3.1.3 成果&

Python 实例教学_ 08_优先队列（Priority Queue）

5小时前

Python 实例教学_ 08_优先队列（Priority Queue） Python heapq 优先队列（Priority Queue）

ios开发控件压缩与抗压缩优先级Content Hugging Priority和 Content Compression Resistance Priority

5小时前

在了解上述两个属性的意思之前，我们必须了解下intrinsicContentSize的概念 intrinsicContentSize Intrinsic Content Size：固有大小。顾名思义，在AutoLayout中，它作为UI

java线程（12）——线程的优先级，Priority

5小时前

线程的优先级范围线程的优先级分为1-10（int类型） 线程优先级对执行的影响数值越大，优先级越大，cpu优先调动概率越大&#xff0

c语言中如何编写优先级的代码,优先队列(priority_queue)的C语言实现代码

5小时前

* *File: pq.h *purpose: declaration of priority queue in C * #ifndef _PRIORITY_QUEUE_H #define _PRIORITY_QUEUE_H==

线程-priority（优先级，分配比例）

5小时前

cpu调用线程是随机分配，通过设置priority，提高线程被cpu代用的比例 public class priority8implementsRunnable {Overridepubl

priority_queue自定义struct的优先级设置写法

5小时前

#include<iostream>#include<queue>using namespace std;struct node{int x;int y;friend bool operator < (n

优先级队列（priority_queue）基础知识点

5小时前

一、优先级队列的定义在文档中，是这样定义优先级队列的 1、优先级队列是一钟容器适配器，根据严格的弱排序标准，它的第一个元素总是它所包含的元素中最大的；

vue-touch报priority错误

4小时前

原因可能是vue-touch的版本不对，vue2.0以上的vue-touch需要2以上，使用npm install vue-touchnext命令重新安装vue-touch即可

BUG的Priority()和Severity属性

4小时前

BUG的Priority()和Severity属性 Priority()和Severity(严重程度)是的两个重要属性。很多新人经常混淆这两个概念。通常，人员在提交Bug时，只定义Bug的Sev

《 C++ 修炼全景指南：七》优先级队列在行动：解密 C++ priority_queue 的实现与应用

4小时前

1、引言在现代编程中，处理动态优先级队列的需求随处可见，例如任务调度、路径规划、数据压缩等应用场景都依赖于高效的优先级管理。C 标准库提供了 priority_queue 这一强大的工具&am

The following packages will be SUPERCEDED by a higher-priority channel是什么意思？

4小时前

参考资料： https:stackoverflowquestions42015732the-following-packages-will-be-superceded-by-a-higher-priority

电子爱好者 - 最新技术资讯及电子产品介绍！

Scrapy请求顺序优化priority(优先级)

更多相关文章

Java并发09:Thread的基本方法(6)-线程优先级priority相关说明与操作

启动Hadoop集群，出现Cannot set priority of nodemanager(resourcemanager) process xxx问题

蓝牙耳机Priority设置流程

priority-queue outmls qos trust dscp在cisco9300接口下怎么配置

Python 优先队列（priority queue）和堆（heap）

线程优先权Thread Priority概念总结

【C++】优先级队列 priority_queue的使用及模拟实现@STL —— 仿函数

linux nice机制,Linux的进程优先级 Nice 和 priority

Hadoop安装错误：Cannot set priority of secondarynamenode process : xxxxx

Python 实例教学_ 08_优先队列（Priority Queue）

ios开发控件压缩与抗压缩优先级Content Hugging Priority和 Content Compression Resistance Priority

java线程（12）——线程的优先级，Priority

c语言中如何编写优先级的代码,优先队列(priority_queue)的C语言实现代码

线程-priority（优先级，分配比例）

priority_queue自定义struct的优先级设置写法

优先级队列（priority_queue）基础知识点

vue-touch报priority错误

BUG的Priority()和Severity属性

《 C++ 修炼全景指南：七 》优先级队列在行动：解密 C++ priority_queue 的实现与应用

The following packages will be SUPERCEDED by a higher-priority channel是什么意思？

发表评论

推荐文章

Mac wifi 卡死

win10安装linux虚拟机

P11-Transformer学习1.1-《Attention Is All You Need》

《数据密集型应用系统设计》读书笔记——第一部分 数据系统基础

安装完Anaconda后，在命令行输入python弹出 应用商店 或 出现warnings 的解决办法

热门文章

【解决方案】谷歌chrome浏览器被hao123劫持 chrome:version命令行被篡改

IP-Guard文档防泄密解决方案

Altium Designer -- 精心总结

Win11自带微软浏览器无法翻译

WIN10下如何使用DEBUG

win10恢复上一次正确配置

C盘无损扩容教程（不用重新分区格式化）

C++优先队列（priority_queue）

【C++】优先队列、priority_queue（大顶堆，小顶堆）

如何获取微软商店应用的appxbundle程序包，并实现离线安装

最新文章

一芯FC1179主控扩容U盘量产修复教程（图文详解）

Mac安装文件清理全攻略

Python办公自动化实战 03 | 一健实现简历批量自动提取与分类+电脑垃圾文件智能清理

ios keychain 不被清理_清理垃圾，恢复出厂设置真的能让手机变快吗？

linux卸载软件垃圾清理,Ubuntu20.04系统卸载软件及清理系统垃圾缓存以及新力得...

金士顿固态硬盘修复，慧荣SM2246EN开卡记录，附量产工具

CleanMyMac2024免费版下载！轻松清理垃圾文件、优化系统性能

bat便捷清理工具

清除openwrt web界面缓存

android 应用图标缓存清理,垃圾缓存清理大师

pcie16x能插1x的卡嘛?_小白把这7个修复工具分享给你：不仅能修复U盘，SD卡、TF卡也能修复！...

DiskSlim：Mac用户的清理专家，一键释放无限空间

Macbooster8免费mac清理垃圾软件功能介绍

苹果手机清理缓存很麻烦？这样简单操作一下，一键能清出几个G缓存

计算机到点就有音乐怎么清除缓存垃圾,如何自动清理网易音乐的缓存

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

《 C++ 修炼全景指南：七》优先级队列在行动：解密 C++ priority_queue 的实现与应用

《数据密集型应用系统设计》读书笔记——第一部分数据系统基础

安装完Anaconda后，在命令行输入python弹出应用商店或出现warnings 的解决办法

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载