还在看《生死疲劳》？Python采集某平台书籍和评论数据|电子爱好者

admin管理员组
文章数量:1564691

如果安装python第三方模块:

win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
在pycharm中点击Terminal(终端) 输入安装命令

基本实现流程:

<通用模板> 采集视频<小电影> 采集图片<美女小姐姐> 采集小说

一. 数据来源分析

确定了自己想要采集数据是什么?

通过开发者工具抓包分析 <不知道 1 知道 2>

通过F12开发者工具里面的搜索关键字, 找到相应的数据

二. 代码实现步骤过程

爬虫模拟浏览器对于url地址发送请求, 获取服务器返回响应数据

发送请求发送get请求
获取数据, 获取服务器返回响应数据 response<开发者工具里面看到的>
解析数据, 提取我们想要数据内容 xpath css re 这些方法去提取
保存数据, 保存表格里面

代码

采集书籍数据

import requests  # 数据请求模块 <工具>
import parsel  # 数据解析模块 <工具>
import csv  # csv数据表格

# mode='a' mode是什么意思 保存方式 a 是什么意思 追加保存
f = open('data\_1.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '标题',
    '评论',
    '推荐',
    '作者',
    '日期',
    '出版社',
    '售价',
    '原价',
    '折扣',
    '电子书',
    '详情页',
])
csv_writer.writeheader()  # 写表头
"""
发送请求
 爬虫模拟浏览器对于url地址发送请求, 获取服务器返回响应数据

 变量规则:
 不能使用数字开头
 不推荐使用关键字作为变量名 <import def del ...>
"""
# 确定网址
for page in range(1, 26):  # 包含头, 不包含尾巴
    print(f'=======================正在采集{page}页数据内容=======================')
    url = f'http://bang.dangdang/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-{page}'
    # 　headers 请求头 用来伪装模拟python代码 字典的数据类型
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
    }
    # 调用requests这个模块里面get请求方法, 对于url地址发送请求, 并且携带上headers请求伪装, 最后用自定义response变量接受返回数据
    response = requests.get(url=url, headers=headers)
    # print(response) # 打印发送请求得到的内容 <Response [200]> 响应对象 200状态码表示请求成功
    # print(response.text) # 获取响应对象的文本数据
    """
 解析数据, 提取我们想要数据内容
 css选择器: 根据标签属性内容提取数据 完全掌握你在系统课程学2.5个小时

 解析方法: css xpath re 那种好用用那种 如果你xpath没解析出来,换一下
 """
    selector = parsel.Selector(response.text)  # 把获取下来html字符串数据转成selector对象 <css选择器没有办法直接取字符串数据>
    lis = selector.css('ul.bang\_list li')  # 调用css方法解析数据 第一次提取 获取所有li标签内容
    # print(lis)
    for li in lis:
        title = li.css('.name a::attr(title)').get()  # 获取书名
        # 同理可得 p:nth-child(1) 组合选择表示取第几个P标签
        comment = li.css('.star a::text').get().replace('条评论', '')  # 评论
        recommend = li.css('.tuijian::text').get().replace('推荐', '')  # 推荐
        author = li.css('.publisher\_info a::attr(title)').get()  # 作者
        date = li.css('.publisher\_info span::text').get()  # 日期
        press = li.css('div:nth-child(6) a::text').get()  # 出版社
        price = li.css('.price p:nth-child(1) .price\_n::text').get()  # 售价
        price_r = li.css('.price p:nth-child(1) .price\_r::text').get()  # 原价
        price_s = li.css('.price p:nth-child(1) .price\_s::text').get().replace('折', '')  # 折扣
        price_e = li.css('.price\_e .price\_n::text').get()  # 电子书
        href = li.css('.name a::attr(href)').get()  # 详情页
        dit = {
        教程、资料、解答可加Q：903971231
            '标题': title,
            '评论': comment,
            '推荐': recommend,
            '作者': author,
            '日期': date,
            '出版社': press,
            '售价': price,
            '原价': price_r,
            '折扣': price_s,
            '电子书': price_e,
            '详情页': href,
        }
        csv_writer.writerow(dit)
        print(title, comment, recommend, author, date, press, price, price_r, price_s, price_e, href)

如何采集评论:

<相当于一个新的爬虫案例> 目的就为了让你们巩固一下前面案例内容

爬虫基本流程是什么? 分为两个大步骤…

一. 数据来源分析

确定采集数据
通过开发者工具搜索关键字查询数据包 <当这个方法不灵>

二. 代码实现的过程基本是哪四个?

发送请求
获取数据
解析数据
保存数据

方法一

import requests
import pprint
import re
import time



### 最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~  

给大家准备的学习资料包括但不限于：  

Python 环境、pycharm编辑器/永久激活/翻译插件  

python 零基础视频教程  

Python 界面开发实战教程  

Python 爬虫实战教程  

Python 数据分析实战教程  

python 游戏开发实战教程  

Python 电子书100本  

Python 学习路线规划

![](https://img-blog.csdnimg/d29631674929476f9c3b30f7ff58dff0.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA==,size_16,color_FFFFFF,t_70)




**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化学习资料的朋友，可以戳这里无偿获取](https://bbs.csdn/topics/618317507)**

**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

本文标签：还在疲劳生死书籍数据

版权声明：本文标题：还在看《生死疲劳》？Python采集某平台书籍和评论数据内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1725442180a1023706.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

pandas将dataframe中的指定数据行的内容转化为dataframe的列名称（convert certain row to column labels）

2天前

pandas将dataframe中的指定数据行的内容转化为dataframe的列名称（convert certain row to column labels）目录 pandas将dataframe中的指定数据行的内容转化为datafr

pandas使用str函数和startswith函数，筛选dataframe中（start with）以特定前缀开头的数据列(selecting columns begin with certain

2天前

pandas使用str函数和startswith函数，筛选dataframe中（start with）以特定前缀开头的数据列(selecting columns begin with certain prefix in dataframe)

Python Excel数据查找

2天前

今天突然被老师叫去帮她统计成绩，然后发现是一个大坑。为什么这么说呢：因为她英语成绩竟然分了20个excel文件来存。我们要查找出数学50以上，并且英语90以上的人。这就很尴尬了，我们本来打算都打开来查，但是我的mac打开excel

全球免费下载高程DEM数据整理

1天前

首先明确两个概念：DEM和DSM DEM是Digital Elevation Model数字高程模型，描述地表起伏形态特征的空间数据模型， DSM是Digital Surfa

❀数据集❀基于计算机视觉的情绪识别数据集

1天前

数据集介绍以及下载链接，免费！！！ 1.FER2013 Fer2013 包含大约 30,000 张不同表情的面部 RGB 图像&#xff0

（Adventure项目）自行车业务数据分析报告（可视化-Power BI）

1天前

（Adventure项目）自行车业务数据分析报告（可视化-Power BI） 项目背景 Adventure Works Cycles是Adventu

Scrapy爬取数据[scrapy.core.scraper] ERROR: Spider error processing解决办法

1天前

在爬取数据的时候遇到会遇到很多各种各样的问题，但是有一个问题会经常出现，并且原因还很难发现，下面就给大家说下这个问题的原因，以及解决办法，开始运行会出现这样的一个错误： [scrapy.core.scraper] ERROR: Spide

charles 抓包工具，连接手机和电脑在同一网络，抓取手机访问的相关数据

1天前

如果是使用charles抓包。一定要保证手机和电脑连的是一个网。 1、proxy setting，查看charles，端口 2、勾选 3、ipconfig，查看自己电脑的ip地址 4、手机通过设置http代理服务器，连

An Introduction to Analysis of Financial Data with R" by Ruey S. Tsayyua原书数据

1天前

https:faculty.chicagobooth.eduruey.tsayteachingintroTS 最近在跟R语言作斗争，TS课程用的是这本教材，书中数据mark 然后还有

PP助手联手墨迹天气未来用大数据服务用户

1天前

近日，在阿里移动事业群 PP助手举办的“Find Her·大数据分发时代”战略发布会上，阿里旗下UC浏览器、阿里云以及墨迹天气等多个重量级产品亮相为PP助手站台。PP助手宣布开启开启移动应用分发“

stm32f103vet6采集dht11温湿度数据通过usart1在串口助手中显示

1天前

DHT11主要代码同时上传一份在CSDN资源中，没有积分可以微信扫码回复“DHT11”获得百度网盘链接下面贴出dht11的主要代码和在main中的使用代码会移植的自行移植就不用下载工程了 bsp_dht11

有道云电脑端不能从云端同步数据到本地

1天前

问题描述：在一台新PC设备上登录有道云账号时，账号数据不能从云服务器同步至本地方法： 将有道云笔记配置目录和数据库目录中的内容删除按下windows徽标键&#

大数据讲课笔记2.2 大数据应用场景

1天前

文章目录零、学习目标一、导入新课二、新课讲解（一）大数据在医疗行业的应用1、优化医疗方案，提供最佳治疗方法2、有效预防预测疾病（二）大数据在金融行业的应用1、精准营销2、风险管控3、决策支持4、服务创新5、产品创新（三）大数据在零售行业的

从大数据应用案例中理解大数据的应用价值

1天前

现在的社会是一个高速发展的社会，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。

Redis笔记补充-热点数据、io多路复用、redis与mysql数据不一致问题

17小时前

1.Redis热点数据 ①热key描述在上面说的缓存击穿、缓存雪崩都是因为热点key集中突然访问或者过期。突然几十万的请求都去访问这个热点key流量过于集中，达到物理网卡上限，导致这台red

Azure OpenAI + Cognitive Search GPT处理自有数据（二）

16小时前

上篇文章介绍了整体的处理思路，Azure OpenAI Studio Chat里有处理自有数据的功能，核心思路是： 1. Cognitive Search会对文件&

flutter：实现扫码枪获取数据

13小时前

近期使用Flutter开发了一个Windows项目，不使用TextField等控件，获取扫码枪返回的数据。翻文档，发现官方提供了RawKeyboard 添加全局监听方法&

送书 | 教你爬取电影天堂数据

12小时前

大家好！我是啃书君我和朋友说：俗话说，闲来没事干，不如斗地主，哎，我们不斗地主，就是

关于云服务与本机之间传输数据的连接方式（本地磁盘映射）

8小时前

一、问题描述我在华为云上新建了一个windows弹性云服务器。虚拟机本地下载速度慢，或者需要从本地机上传输数据到虚拟机上。二、操作步骤 1、登录本机主机 2、winR 打开运行窗口 ，输

重装系统前如何备份数据？让重装无后顾之忧

4小时前

在日常使用电脑的过程中，有时我们可能需要重装系统以解决一些难以通过常规手段解决的问题。然而，在重装系统之前，最重要的一步就是备份数据，以防止重要信息的丢

电子爱好者 - 最新技术资讯及电子产品介绍！

还在看《生死疲劳》？Python采集某平台书籍和评论数据

如果安装python第三方模块:

基本实现流程:

一. 数据来源分析

二. 代码实现步骤过程

代码

采集书籍数据

如何采集评论:

一. 数据来源分析

二. 代码实现的过程 基本是哪四个?

更多相关文章

pandas将dataframe中的指定数据行的内容转化为dataframe的列名称（convert certain row to column labels）

pandas使用str函数和startswith函数，筛选dataframe中（start with）以特定前缀开头的数据列(selecting columns begin with certain

Python Excel数据查找

全球免费下载高程DEM数据整理

❀数据集❀基于计算机视觉的情绪识别数据集

（Adventure项目）自行车业务数据分析报告（可视化-Power BI）

Scrapy爬取数据[scrapy.core.scraper] ERROR: Spider error processing解决办法

charles 抓包工具，连接手机和电脑在同一网络，抓取手机访问的相关数据

An Introduction to Analysis of Financial Data with R&quot; by Ruey S. Tsayyua原书数据

PP助手联手墨迹天气 未来用大数据服务用户

stm32f103vet6采集dht11温湿度数据通过usart1在串口助手中显示

有道云电脑端不能从云端同步数据到本地

大数据讲课笔记2.2 大数据应用场景

从大数据应用案例中理解大数据的应用价值

Redis笔记补充-热点数据、io多路复用、redis与mysql数据不一致问题

Azure OpenAI + Cognitive Search GPT处理自有数据（二）

flutter：实现扫码枪获取数据

送书 | 教你爬取电影天堂数据

关于云服务与本机之间传输数据的连接方式 （本地磁盘映射）

重装系统前如何备份数据？让重装无后顾之忧

发表评论

推荐文章

H5+ appvue调用第三方应用，如果没有安装跳转到应用市场详情

rocketmq-常见问题总结(基本概念、高可用、中间件选型)

如何判断是否为真正的谷歌浏览器

谷歌浏览器Chrome安装，报0x80004002 等错误时，乖乖的这么解决！亲测有效。

苹果输入法怎么换行_最全的输入法皮肤，你想要的百度输入法都有

热门文章

小白也能看懂的网络基础 | 44 张图搞定什么是连接设备？

CoSeR: Bridging Image and Language for Cognitive Super-Resolution

如何从u盘启动选择修复计算机,今天解决联想电脑如何设置u盘启动的修复步骤...

msvcp120.dll文件缺失一键修复方法，靠谱的多种修复msvcp120.dll方案

【科技速报】：讯飞输入法崩了，英伟达「市值超过」苹果，Intel 卖厂、马斯克花 650 亿元采购 30 万块 B200...

uniapp使用讯飞语音输入接口

UOS应用商店安装失败，缺少依赖的问题

云电脑上WIN7远程桌面没有声音的处理方法

python使用selenium 打开谷歌浏览器闪退, 怎么解决

搜索邻近计算机打印机,在活动目录中设置和管理发布打印机

最新文章

windows11 删除输入法

android百度日语输入法下载,百度日文输入法

关于win10输入法导致电脑直接卡机无法动弹问题

推荐文章：深度定制你的输入风格 - 百度手机输入法皮肤工具 BiSkinTool V1.0.6

linux 怎么关闭输入法快捷键设置方法,关闭输入法快捷键

百度AI的2020

ubuntu输入法崩溃问题

Ubuntu Bug Report&amp;Fix: Ubuntu24.04 wayland窗口管理器下的中文输入法以及浏览器分辨率相关问题

安卓输入法 车机版_触宝输入法HD

两个port贴合七夕主题，百度输入法的“情感营销”策略

Android10 内置第三方输入法

PC端输入法双拼皮肤分享

输入法原理

百度拼音输入法2014官方版

windows10 出现重命名文件名字,百度无法弹出输入法的解决方法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

二. 代码实现的过程基本是哪四个?

An Introduction to Analysis of Financial Data with R" by Ruey S. Tsayyua原书数据

PP助手联手墨迹天气未来用大数据服务用户

关于云服务与本机之间传输数据的连接方式（本地磁盘映射）

Ubuntu Bug Report&Fix: Ubuntu24.04 wayland窗口管理器下的中文输入法以及浏览器分辨率相关问题

安卓输入法车机版_触宝输入法HD

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载