心灵鸡汤"/>
爬取心灵鸡汤
网页截图
Python代码
import requests
import reurl = '/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}text = requests.get(url, headers=headers).content.decode()
for i in range(64783, 64793):page = re.findall(r'div id="humorContent_{}" class="pic_text1"(.*?)<p>'.format(str(i)), text, re.DOTALL)print(page[0])print('*' * 40)
效果截图
总结
网页本身存在一定的问题,而我的正则表达式应该是没有问题的;现在的不足之处就是还不会翻页爬取数据,存储以及整理数据,希望今后能因为兴趣再更上一层楼。
更多推荐
爬取心灵鸡汤
发布评论