Python---分页爬取今日头条标题|电子爱好者

admin管理员组
文章数量:1660864

python分页爬取今日头条标题

要爬取的内容（分页爬取今日头条中77事件的所有文章标题）

爬取结果展示（只展示出了部分）

#工具：pycharm(什么编译器都可以)、谷歌浏览器

进入正文：

一、首先对需求进行分析：

1.打开谷歌浏览器，搜索今日头条，如下输入77事件搜索

2.鼠标右键浏览器，点击检查，进入开发者模式对数据进行分析

3.之后点击Network，选择XHR,会发现什么都没有，鼠标点到浏览器上方的地址栏，按回车进行刷新

4.刷新之后会发现只有一条数据，鼠标点击

5.我们这里只用Headers和Respone，Headers是浏览器请求的一些数据，Respone是后台返回的数据

6.第一步分析Headers; Request URL 是浏览器请求的url地址（一会写python代码用这个url请求），方式为get请求

7.鼠标滚轮向下翻找到Request Headers,会看到有user-agent ，cookie，这个有什么用呢？所有网站都会有反爬，这里user-agent写python代码会用到，用来伪装成谷歌浏览器访问后台，而cookie有时候有时候不写也能爬取到（爬取不到就再下面的python代码中加上）

8.第二步分析Response,这是一个json数据，ctrl+a全选，ctrl+c复制所有数据到json在线解析上（百度json解析，第一个就是，网址：http://www.bejson/ ）

9.选择json在线编辑器

10第一步：ctrl+a，先把原来的数据删除掉，ctrl+v把上面第8步复制的数据粘贴过来，第二步：点击格式化json数据，第三步：点击将json数据对象化

11.分析json数据，经分析，会发现title(标题)都在data里，我们需要将json串转化成字典，之后根据键取出data的数据

12.要进行分页爬取，这个offset参数代表的就是页码

13.鼠标滚轮向下滚，会发现offset以20递增，由此可见一共8页

二、进行python代码解析

1.导入json包，requests包；json直接就可以导入，requests需要下载；点击file—setting

选择Project:

右边点击加号

先搜索requests包，点击安装

2.python正式开始爬取,先导入这两个包

import requests
import json

3.写个主函数，手动输入起始页和终止页，并调用一个page函数

if __name__ == '__main__':
    startPage = int(input("请输入起始页码"))
    endPage = int(input("请输入终止页码"))
    page(startPage,endPage)

4.page函数接收起始页和终止页，for循环页码，url是上面分析的url,要将offset={}用来拼接页码（i就是页码，但是得*20,因为每增加一页是以offset=20递增的）,调用loadPage(url)，把url传过去，返回个布尔值（返回False代表读取完所有页了，终止当前函数）

def page(startPage, endPage):
    for i in range(startPage-1, endPage):
        print("当前第%s页" % (i+1))
        url="https://www.toutiao/api/search/content/?aid=24&app_name=web_search&offset={}&format=json&keyword=77%E4%BA%8B%E5%8F%98&autoload=true&count=20&en_qc=1&cur_tab=1&from=search_tab&pd=synthesis&timestamp=1562467283218".format(i*20)
        isPage=loadPage(url)
        if isPage==False:
            return

5.loadPage(url)接收url,设置个字典形式的请求头headers，用来伪装浏览器，

将上面分析到的user-agent和cookie复制到里面

def loadPage(url):
    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36",
        "cookie":"tt_webid=6710713392061285902; WEATHER_CITY=%E5%8C%97%E4%BA%AC; tt_webid=6710713392061285902; UM_distinctid=16bc9db8a29f6-0417349b599406-516d3e71-13c680-16bc9db8a2d85; csrftoken=5eb2a0e00bcbb888f417ef261ee5269a; CNZZDATA1259612802=1761938442-1562456487-https%253A%252F%252Fwww.baidu%252F%7C1562461887; s_v_web_id=ddb620b1224506f21ba99de20d4169e3; __tasessionId=ned4t635k1562467258609"
    }
    #try异常，为什么出现异常？当所有也访问完，data为空，会出'NoneType' object is not iterable异常
    try:
        #将url和headers绑定发送请求，.text是拿到json串
        data = requests.get(url, headers=headers).text
        #将json传化成字典
        news = json.loads(data)
        #遍历字典的data数据
        for new in news["data"]:
            #如果有title，就输出
            if "title" in new.keys():
                print(new["title"])
    except Exception as e:
        print(e)
        #返回false就代表所有也已经读取完了
        return False
    return True

总结：篇幅过长，如果跟着我这个做不出来，或者不懂，留言问我，我有时间B站直播教学。

所有代码：

import requests
import json


def page(startPage, endPage):
    for i in range(startPage-1, endPage):
        print("当前第%s页" % (i+1))
        url="https://www.toutiao/api/search/content/?aid=24&app_name=web_search&offset={}&format=json&keyword=77%E4%BA%8B%E5%8F%98&autoload=true&count=20&en_qc=1&cur_tab=1&from=search_tab&pd=synthesis&timestamp=1562467283218".format(i*20)
        isPage=loadPage(url)
        if isPage==False:
            return

def loadPage(url):
    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36",
        "cookie":"tt_webid=6710713392061285902; WEATHER_CITY=%E5%8C%97%E4%BA%AC; tt_webid=6710713392061285902; UM_distinctid=16bc9db8a29f6-0417349b599406-516d3e71-13c680-16bc9db8a2d85; csrftoken=5eb2a0e00bcbb888f417ef261ee5269a; CNZZDATA1259612802=1761938442-1562456487-https%253A%252F%252Fwww.baidu%252F%7C1562461887; s_v_web_id=ddb620b1224506f21ba99de20d4169e3; __tasessionId=ned4t635k1562467258609"
    }
    try:
        data = requests.get(url, headers=headers).text
        news = json.loads(data)
        for new in news["data"]:
            if "title" in new.keys():
                print(new["title"])
    except Exception as e:
        print(e)
        return False
    return True

if __name__ == '__main__':
    startPage = int(input("请输入起始页码"))
    endPage = int(input("请输入终止页码"))
    page(startPage,endPage)

本文标签：分页头条今日标题 Python

版权声明：本文标题：Python---分页爬取今日头条标题内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1729881632a1215993.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Python---分页爬取今日头条标题

python分页爬取今日头条标题

要爬取的内容（分页爬取今日头条中77事件的所有文章标题）

爬取结果展示（只展示出了部分）

#工具：pycharm(什么编译器都可以)、谷歌浏览器

进入正文：

一、首先对需求进行分析：

二、进行python代码解析

总结：篇幅过长，如果跟着我这个做不出来，或者不懂，留言问我，我有时间B站直播教学。

所有代码：

更多相关文章

html头条新闻样式,请问今日头条图片频道布局样式如何实现的？

仿头条新闻嵌入富文本编辑器

今日头条品质优化 - 图文详情页秒开实践

今日头条 mysql_今日头条的核心架构解析

头条php,基于PHP的免费新闻头条接口查询

（android高仿系列）今日头条 --新闻阅读器 （二）

java新闻爬虫_java实现简单的爬虫之今日头条

python爬取今日头条手机app广告_今日头条App广告采集器的实现

“今日头条”发展困境与未来发展策略

Axure新闻资讯APP客户端原型图，今日头条内容社交，RP成品原型197页

【vue前端项目实战案例】Vue3仿今日头条App

仿今日头条项目——首页（展示文章列表）

iOS仿今日头条顶部新闻分页

揭秘！今日头条爆款文章打造秘诀：低粉作者如何逆袭，成为流量王者？一文带你掌握！

（android高仿系列）今日头条 --新闻阅读器 （三） 完结 、总结 篇

今日头条付费项目，帮你赚到更多的钱，学会钱生钱的玩法

python 刷手机今日头条金币_刷金币全自动脚本 | 让Python每天帮你薅一个早餐钱（送源码）...

Django项目实践（爬取今日头条的头条热榜）

Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻

命令行版今日头条——上班“摸鱼”的好帮手

发表评论

推荐文章

学习笔记整理_Linux基本命令

c语言的四种存储,C语言中，变量的四种存储类别是自动变量、、寄存器变量和外部变量。...

VMware虚拟机桥接模式无法上网

C语言文件操作，增删改查

SpringBoot 应用服务在启动后长时间不访问会自动删除tmp临时文件，导致文件无法上传

热门文章

linux执行命令特别慢,Linux运行速度太慢的关键原因全都在这了

MATLAB启动很慢？1分钟快速解决~

为什么华为a1路由器网速变慢_华为a1路由器wifi经常掉线怎么办

家里的无线网最近总是网速不稳定，一阵一阵的卡，是怎么回事？

Win11系统提示找不到DeviceSetupManager.dll文件的解决办法

火爆GitHub项目，一行命令下载全网视频?

html视频播放器兼容处理

【精品篇】_如何在不影响Oracle生产库性能的评估整库大小

Centos7搭建KMS服务器

微软服务器更新通知,产品技术-微软安全公告 MS17-010 Microsoft Windows SMB 服务器安全更新 (4013389)-新华三集团-H3C...

最新文章

关于 微软商店无法加载页面 显示错误代码0x80131500的解决办法

微软出品可以免费使用的 monitor 应用程序验证器：AppVerifier

【html代码】Windows网页版界面源码

mysql57安装windows -windows版mysql57安装 -mysql自定义安装路径 -mysql57官网下载 -mysql57修改密码

下载:微软在TechNetMSDN发布的Windows 7 RTM

微软远程桌面，微软远程桌面连接可以卸载吗

微软远程桌面优化

服务器内网怎么更新微软补丁,架WSUS服务器 内网自动打补丁

iis7.0官方下载 IIS 7.0(微软Web服务器组件IIS 7.0) 官方(windows 2003,XP,2000)

使用Windows 7 USBDVD Download Tool制作WIN7系统安装盘

【Intel官方】Windows7系统加载USB3.0驱动教程

一些微软编程工具或SDK的官方下载地址

Windows 上可以安装 Apple Music 吗?

微软服务器更新通知,产品技术-微软安全公告 MS17-010 Microsoft Windows SMB 服务器安全更新 (4013389)-新华三集团-H3C...

Windows无法为计算机分级,10个Windows7常见问题解决方案

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

（android高仿系列）今日头条 --新闻阅读器（二）

（android高仿系列）今日头条 --新闻阅读器（三）完结、总结篇

关于微软商店无法加载页面显示错误代码0x80131500的解决办法

服务器内网怎么更新微软补丁,架WSUS服务器内网自动打补丁

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载