PHP头条爬虫,今日头条爬虫分析-爬取用户发的所有内容|电子爱好者

admin管理员组
文章数量:1660864

今日头条的用户页数据爬取跟频道页的数据爬取大部分很类似，但稍微有一点不一样，就是用户主页的接口signature有点不一样，需要将当前爬取的用户id和分页时间戳一起作为入参传递进去才能获取到真正的signature，除了这一点差异外其他的都是一样的思路，上代码：

def fetch_user_articles(self, user, browser):

honey = json.loads(self.get_js())

signature = honey['_signature']

max_behot_time = "0"

_as = honey['as']

cp = honey['cp']

if self.user_page > 0:

signature = browser.execute_script("return window.TAC.sign(" + user.user_id+max_behot_time + ")")

headers = {

'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',

'Connection': 'keep-alive',

'authority': 'www.toutiao',

'referer': user.media_url,

'method': 'GET',

'path': "/c/user/article/?page_type=1&user_id={}&max_behot_time={}&count=20&as={}&cp={}&_signature={}".format(

user.user_id, max_behot_time, _as, cp, signature),

'scheme': 'https'

}

self.s.headers.update(headers)

req_url = "https://www.toutiao/c/user/article/?page_type=1&user_id={}&max_behot_time={}&count=20&as={}&cp={}&_signature={}".format(

user.user_id, max_behot_time, _as, cp, signature)

req = self.s.get(req_url, proxies=get_proxy_ip())

# 通过随机数控制请求速度

time.sleep(random.random() * 2 + 2)

data = json.loads(req.text)

max_behot_time = str(data['next'][max_behot_time])

if data['has_more']:

self.user_page = self.user_page + 1

self.parse_user_artcle(data['data'], toutiaoitem.user_id, toutiaoitem.media_url)

#在休眠2s

time.sleep(2)

self.fetch_user_articles(user, browser)

else:

self.parse_user_artcle(data['data'], toutiaoitem.user_id, toutiaoitem.media_url)

toutiaodb.save(self.user_artcile_list)

def parse_user_artcle(self, items, user_id, url):

for item in items:

toutiaoitem = toutiaoitem()

toutiaoitem.user_id = user_id

toutiaoitem.source = item['source']

toutiaoitem.title = item['title']

toutiaoitem.source_url = 'https:' + item['display_url']

toutiaoitem.media_url = url

toutiaoitem.item_id = item['item_id']

toutiaoitem.abstract = item['abstract']

toutiaoitemments_count = item['comments_count']

toutiaoitem.behot_time = item['behot_time']

toutiaoitem.image_url = item['image_url']

toutiaoitem.image_list = item['image_list']

toutiaoitem.tag = item['tag']

toutiaoitem.chinese_tag = item['chinese_tag']

toutiaoitem.read_count = item['go_detail_count']

toutiaoitem.article_genre = item['article_genre']

self.user_artcile_list.append(toutiaoitem)

本文标签：爬虫头条所有内容今日用户

版权声明：本文标题：PHP头条爬虫,今日头条爬虫分析-爬取用户发的所有内容内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1729881505a1215976.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

PHP头条爬虫,今日头条爬虫分析-爬取用户发的所有内容

更多相关文章

今日头条品质优化 - 图文详情页秒开实践

今日头条的个性化推荐

（android高仿系列）今日头条 --新闻阅读器 （二）

推荐开源项目：react-toutiao - React 实现的今日头条

GitHub：今日头条机器人

高仿今日头条超级今日头条带手移动端商业版（GBK+UTF）网站模板头条资讯源码 Discuz模板

java新闻爬虫_java实现简单的爬虫之今日头条

今日头条 mysql_今日头条这么牛逼，用了什么技术？

抓取今日头条新闻

ai爆文写作技巧，小白轻松上手今日头条掘金方法，可多平台

可狱可囚的爬虫系列课程 10：在网站中寻找 API 接口（今日头条热榜爬取）

iOS仿今日头条顶部新闻分页

（android高仿系列）今日头条 --新闻阅读器 （三） 完结 、总结 篇

今日头条付费项目，帮你赚到更多的钱，学会钱生钱的玩法

java爬虫系列（五）——今日头条文章爬虫实战

Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻

用requests包爬取今日头条新闻标题

命令行版今日头条——上班“摸鱼”的好帮手

python爬取今日头条瀑布流_连续动作：滚屏采集瀑布流网页—以头条新闻为例

Python爬虫从入门到精通——爬虫实战：爬取今日头条图片新闻

发表评论

推荐文章

网络安全笔记整理

Week2 Teamework from Z.XML 软件分析与用户需求调查（三）必应助手体验评测

win8仅仅是个试验品

Win10电脑定期清理垃圾文件教程及常见问题解答

今日头条付费项目，帮你赚到更多的钱，学会钱生钱的玩法

热门文章

Big Sur系统更新后，运行变慢？使macOS Big Sur更快运行的12个技巧

vue打包上传到服务器加载慢的优化

Win系统 - 教你在系统内查看机器的主板型号 &amp; BIOS版本

安卓手机android文件,安卓Android手机系统内文件夹目录解释

免费html转换成word,如何免费将网页内容转成Word文档

爱奇艺利用网络协程编写高并发，到底有多牛？

VMware虚拟机NAT模式无法上网问题解决办法

ORBSLAM3 --- 优化（一）：g2o优化中的节点与边的定义-G2oTypes.h、G2oTypes.cc解析

计算机表格做八折怎么辛,五笔字根表口诀.doc

windows7计算机配置要求,Windows7操作系统硬件配置要求是什么？

最新文章

关于 微软商店无法加载页面 显示错误代码0x80131500的解决办法

微软出品可以免费使用的 monitor 应用程序验证器：AppVerifier

【html代码】Windows网页版界面源码

mysql57安装windows -windows版mysql57安装 -mysql自定义安装路径 -mysql57官网下载 -mysql57修改密码

下载:微软在TechNetMSDN发布的Windows 7 RTM

微软远程桌面，微软远程桌面连接可以卸载吗

微软远程桌面优化

服务器内网怎么更新微软补丁,架WSUS服务器 内网自动打补丁

iis7.0官方下载 IIS 7.0(微软Web服务器组件IIS 7.0) 官方(windows 2003,XP,2000)

使用Windows 7 USBDVD Download Tool制作WIN7系统安装盘

【Intel官方】Windows7系统加载USB3.0驱动教程

一些微软编程工具或SDK的官方下载地址

Windows 上可以安装 Apple Music 吗?

微软服务器更新通知,产品技术-微软安全公告 MS17-010 Microsoft Windows SMB 服务器安全更新 (4013389)-新华三集团-H3C...

Windows无法为计算机分级,10个Windows7常见问题解决方案

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

（android高仿系列）今日头条 --新闻阅读器（二）

（android高仿系列）今日头条 --新闻阅读器（三）完结、总结篇

Win系统 - 教你在系统内查看机器的主板型号 & BIOS版本

关于微软商店无法加载页面显示错误代码0x80131500的解决办法

服务器内网怎么更新微软补丁,架WSUS服务器内网自动打补丁

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载