文章(pyquery+requests+mongoDb)"/>
使用代理池爬取微信文章(pyquery+requests+mongoDb)
在看本文之前需要了解有关代理维护的知识。
若不清楚如何维护代理池,可参考:
但是在用的过程中发现该方法代理池里面的代理质量不是很好,经常会出现代理无效的情况,若大家有更好的方法,欢迎评论留言告知,感谢!
############配置文件config.py
#mongodb的参数
MONGO_URL = 'localhost'
MONGO_DB = 'weixin'
MONGO_TABLE = 'article_data'POOL_PROXY_URL = 'http://127.0.0.1:5000/get' # 初始化代理
KEYWORDS= '风景' # 搜索的内容
base_url = '?'
爬取文章的代码如下:
from pyquery import PyQuery as pq
import requests
from urllib.parse import urlencode
import pymongo
from config import *# 设置cookies 保证自己处于登陆状态
headers = {'Cookie': 'SMYUV=1543916558046770; IPLOC=CN3210; SUID=824A933D2E18960A000000005C064C19; usid=xOxPgW3N3IoHtGbK; SUV=00EC55C13D934A825C064C1975830150; ld=ZZllllllll2tx6ZPlllllVZpFj9lllll5B23kkllll9lllllxllll5@@@@@@@@@@; LSTMV=247%2C70; LCLKINT=3969; ABTEST=0|1543916582|v1; weixinIndexVisited=1; SNUID=C008D27C41443EE5E68EBAC74227C258; sct=3; JSESSIONID=aaapI9Xh-AseD_U-Nw_Cw; ppinf=5|1544421555|1545631155|dHJ1c3Q6MToxfGNsaWVudGlkOjQ6MjAxN3x1bmlxbmFtZTo0OlRpbmF8Y3J0OjEwOjE1NDQ0MjE1NTV8cmVmbmljazo0OlRpbmF8dXNlcmlkOjQ0Om85dDJsdUJYcHpaSHVCXzRoMG5rQ2tQdS00bGdAd2V
更多推荐
使用代理池爬取微信文章(pyquery+requests+mongoDb)
发布评论