scrapy获取网页内容和图片下载

编程入门 行业动态 更新时间:2024-10-05 03:18:32

scrapy获取网页内容和<a href=https://www.elefans.com/category/jswz/34/1753494.html style=图片下载"/>

scrapy获取网页内容和图片下载

首先在终端命令行菜单键+R输入cmd进入命令行

然后再终端输入cd+空格 把储存的地址拉获取:

在存储的路径下创建一个小的项目输入scrapy startproject QiuShi,然后输入cd QiuShi进入项目下再然后输入创建scrapy genspider qiushi qiushibaike

创建好最后的结果是如下图:

我们直接进入主题:点击qiushi.py进入写代码界面:

获取热图里面的所有内容和图片下载;完整代码:

# -*- coding: utf-8 -*-
import scrapy
from  .. items import QiushiItem
class QiushiSpider(scrapy.Spider):name = 'qiushi'allowed_domains = ['qiushibaike']start_urls = ['']def parse(self, response):# 获取文本内容content_list = response.xpath('//div[@class="content"]/span/text()').extract()# 获取图片链接thumb_list = response.xpath('//div[@class="thumb"]/a/img/@src').extract()item = QiushiItem()for content in content_list:# 去掉换行out_list = content.strip()# 内容保存txt格式with open('baike.txt', 'a', encoding='utf-8')as f:f.write(out_list)f.write('\n')for thumb in thumb_list:#拼接图片链接url = 'https:' + thumbitem['url'] = [url]yield item# 获取下一页的链接next_url=response.xpath('//ul[@class="pagination"]/li[last()]/a/@href').extract()if len(next_url) != 0:# 拼接下一页网址nextUrl = '' + next_url[0]yield scrapy.Request(url=nextUrl,callback=self.parse)

我们先进入items.py:

接着我们进入settings.py配置管道:

 

配置好以后我们在终端输入scrapy crawl qiushi来运行:

输出的结果:

 

这样我们就把热图所有爬取完了...

更多推荐

scrapy获取网页内容和图片下载

本文发布于:2024-02-07 04:48:17,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1753570.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:图片下载   网页   内容   scrapy

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!