python3[爬虫实战] 爬虫之scrapy爬取传智播客（我的奋斗我的路）

编程入门行业动态更新时间:2024-10-17 23:34:44

python3[<a href=https://www.elefans.com/category/jswz/34/1770264.html style= 爬虫实战] 爬虫之scrapy爬取传智播客（我的奋斗我的路）"/>

python3[爬虫实战] 爬虫之scrapy爬取传智播客（我的奋斗我的路）

我的奋斗我的路

这里爬取的是传智播客大型学员征文活动，是一个个屌丝逆袭的成功故事

这次主要爬取的是

下面的文章包括：
1 目前排行
2 文章名称
3 作者
4 票数
5 支持Ta
6 查看

刚刚看了一下，点赞排行版，到最后的一共是144文章，难怪我搞个for循环60，到14的时候都已经不行了。可能是真的文章数量太少了。这里爬取的网站也是用的一部ajax异步json数据把，对前端了解的也不是很多，只是懂一些这些，不喜欢的勿喷。

scrapy 爬取json数据也是很简单，直接在parse方法中解析一下便好。

贴上代码：

# -*- coding: utf-8 -*-
# @Time    : 2017/8/10 22:19
# @Author  : 蛇崽
# @Email   : 17193337679@163
# @File    : BokeFightingMain.py  传智博客主页最新投稿文章
import scrapy
import json
# from chuanzhibokemyfendou.chuanzhibokemyfendou.items import BokeFighting
f = open('传智排行.txt', 'a',encoding='utf-8')class BokeFightingMain(scrapy.Spider):name = 'bokemain'allowed_domains = ['fendou.itcast']start_urls = ['.html?offset={}'.format(n) for n in range(1,20)]def parse(self, response):root_list = json.loads(response.body_as_unicode())for info in root_list:# Boke = BokeFighting()Boke = []print(info)# 挑战到详情页用的aid# Boke['titleAid'] = info['aid']  if 'aid' in info else ''titleAid= info['aid']  if 'aid' in info else ''f.write(str(titleAid))# 作者# Boke['nickname'] = info['nickname']  if 'nickname' in info else ''nickname= info['nickname']  if 'nickname' in info else ''# 文章名称# Boke['title'] = info['title']  if 'title' in info else ''title = info['title']  if 'title' in info else ''# 票数# Boke['vote'] = info['vote']  if 'vote' in info else ''vote = info['vote']  if 'vote' in info else ''# 发表时间戳# Boke['adddate'] = info['adddate']  if 'adddate' in info else ''adddate = info['adddate']  if 'adddate' in info else ''# 是否点过赞（暂且这样考虑）# Boke['stau'] = info['stau']  if 'stau' in info else ''stau = info['stau']  if 'stau' in info else ''print('*'*20)print(str(adddate))# yieldf.close()