使用代理池爬取微信文章(pyquery+requests+mongoDb)

编程入门 行业动态 更新时间:2024-10-11 11:13:41

使用代理池爬取微信<a href=https://www.elefans.com/category/jswz/34/1771176.html style=文章(pyquery+requests+mongoDb)"/>

使用代理池爬取微信文章(pyquery+requests+mongoDb)

在看本文之前需要了解有关代理维护的知识。
若不清楚如何维护代理池,可参考:
但是在用的过程中发现该方法代理池里面的代理质量不是很好,经常会出现代理无效的情况,若大家有更好的方法,欢迎评论留言告知,感谢!

############配置文件config.py
#mongodb的参数
MONGO_URL = 'localhost'
MONGO_DB = 'weixin'
MONGO_TABLE = 'article_data'POOL_PROXY_URL = 'http://127.0.0.1:5000/get'   # 初始化代理
KEYWORDS= '风景'  # 搜索的内容
base_url = '?'

爬取文章的代码如下:

from pyquery import PyQuery as pq
import requests
from urllib.parse import urlencode
import pymongo
from config import *# 设置cookies 保证自己处于登陆状态
headers = {'Cookie': 'SMYUV=1543916558046770; IPLOC=CN3210; SUID=824A933D2E18960A000000005C064C19; usid=xOxPgW3N3IoHtGbK; SUV=00EC55C13D934A825C064C1975830150; ld=ZZllllllll2tx6ZPlllllVZpFj9lllll5B23kkllll9lllllxllll5@@@@@@@@@@; LSTMV=247%2C70; LCLKINT=3969; ABTEST=0|1543916582|v1; weixinIndexVisited=1; SNUID=C008D27C41443EE5E68EBAC74227C258; sct=3; JSESSIONID=aaapI9Xh-AseD_U-Nw_Cw; ppinf=5|1544421555|1545631155|dHJ1c3Q6MToxfGNsaWVudGlkOjQ6MjAxN3x1bmlxbmFtZTo0OlRpbmF8Y3J0OjEwOjE1NDQ0MjE1NTV8cmVmbmljazo0OlRpbmF8dXNlcmlkOjQ0Om85dDJsdUJYcHpaSHVCXzRoMG5rQ2tQdS00bGdAd2V

更多推荐

使用代理池爬取微信文章(pyquery+requests+mongoDb)

本文发布于:2024-02-06 15:10:44,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1749861.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:文章   池爬取微信   pyquery   mongoDb   requests

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!