admin管理员组文章数量:1633739
我们都知道对于目前来说很多时候我们很多企业要爬取公众号为了获取到最全公众号无不绞尽脑汁,可是就是采集补全,这是为什么呢?其实原因很简单很多企业都是从第三方平台获取的微信公众号而第三方平台是爬取另外第三方或者腾讯公众号官网一部分,这样就往往导致采集不全。其实我在学习的时候也经常为此大伤脑筋,最近才忽然发现有一个方法和腾讯公众号的直接入口
微信公众号入口设计出一种爬取方法不出意外只要时间够久几乎能把腾讯上所有公众号都抓去下来。具体设计思想如下:
代码分析:
主体:
url:[https://mp.weixin.qq/acct/findacct?action=search](https://mp.weixin.qq/acct/findacct?action=search)
请求方式:post
核心请求代码如下:
import requests
posturl='https://mp.weixin.qq/acct/findacct?action=search'
header={
'referer': 'https://mp.weixin.qq/acct/findacct?action=scan&token=&lang=zh_CN',
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}
postdata = {
'token': '',
'lang': 'zh_CN',
'f': 'json',
'ajax': '1',
'begin':"0",
'count': '9',
'query':"平安",
'acct_type': '0'
}
c1 = requests.post(posturl, headers=header, data=postdata, timeout=10).content.decode('utf8')
print(c1)
代码资源:链接:[https://pan.baidu/s/1DYMZCzIR6UE-AQRVq2kWGQ ](https://pan.baidu/s/1DYMZCzIR6UE-AQRVq2kWGQ)
提取码:hbpa
运行方式:
先下载redis后在kw.txt文件输入初始搜索关键字1个也行2个也行
然后运行devede.py将关键字录入到redis,然后启动spider.py即可成功运行,在运行前安装好pymysql,requests等python库初始关键字爬取完成后用结巴分词将爬取结果中公众号名称分词复制到kw.txt覆盖之前的重复刚刚步骤,即可爬取到更多公众号,由于时间关系并没有过多优化比如自动第一遍结束把结果分词录入redis感兴趣的朋友可以自行在这基础修改整合,好了今天就分享到这小伙伴们听没听懂都点个赞呗
版权声明:本文标题:公众号腾讯位置服务器,这样爬取公众号,据说能把腾讯服务器所有公众号取下来... 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dianzi/1729173605a1188524.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论