Python 爬虫案例

编程入门行业动态更新时间:2024-10-26 22:23:55

一、用cookie池模拟登录

在网络请求交互中，为了维持用户的登录状态，引入了cookie的概念。当用户第一次登录某个网站时，网站服务器会返回维持登录状态需要用到的信息，这些信息就称为cookie。浏览器会将cookie信息保存在本地计算机中，再次对同一网站发起请求时就会携带上cookie信息，服务器从中可以分析判断出用户的登录状态。

服务器中的资源有些不需要登录就能获取，有些则需要登录才能获取，如果在爬虫程序中携带正确的cookie信息，就可以爬取那些需要登录才能获取的数据了。

1、用浏览器获取cookie信息

代码文件：用浏览器获取cookie信息.py

第一次登录一个网页后，浏览器会从响应头的set-cookie字段中读取cookie值并保存起来。下次访问该网页时，浏览器就会携带cookie值发起请求，服务器从cookie值中得到用户登录信息，就会直接返回用户登录之后的页面。下面以人人网为例讲解如何获取cookie值。

在谷歌浏览器中打开人人网（http://www.renren/），输入账号和密码，登录成功后通过开发者工具对数据进行抓包，即在开发者工具的“Network”选项卡下刷新当前页面后选中第一个数据包，在“Headers”选项卡下的“Request Headers”中查看Cookie字段，该字段的值就是发起请求时携带的cookie值，如下图所示。

在爬虫程序中使用requests模块的get()函数发起请求时，携带cookie值的方式

更多推荐

Python 爬虫案例

本文发布于:2023-06-14 09:04:00，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1459591.html