京东所有图书信息"/>
Scrapy 爬取京东所有图书信息
先记录代码吧,回头再写文字:
# -*- coding: utf-8 -*-
import scrapy
import json
import pprint
from copy import deepcopyclass JdSpider(scrapy.Spider):name = 'jd'allowed_domains = ['jd', 'p.3']# 这是由于后期使用有使用json解析,使用的域名为p.3start_urls = ['.html']def parse(self, response):dt_list = response.xpath('//div[@class="mc"]/dl/dt') # 获取大分类列表for dt in dt_list:item = dict() # 创建字典,存储相关信息item['b_cate'] = dt.xpath('./a/text()').extract_first() # 大分类标题em_list = dt.xpath('./following-sibling::dd[1]/em') # 获取小分类列表位置for em in em_list: # 小分类列表item["s_href"] = em.xpath('./a/@href').extract_first()item['s_cate'] = em.xpath('./a/text()').extract_first
更多推荐
Scrapy 爬取京东所有图书信息
发布评论