爬虫(02)网络请求模块2020

编程入门 行业动态 更新时间:2024-10-11 07:30:51

<a href=https://www.elefans.com/category/jswz/34/1770264.html style=爬虫(02)网络请求模块2020"/>

爬虫(02)网络请求模块2020

文章目录

  • 第二章 网络请求模块
    • 1. 几个概念
      • 1.1 get和post
      • 1.2 全球统一资源定位符
      • 1.3 User-Agent
      • 1.4 Referer
    • 2. 状态码
    • 3. 抓包工具里的选项
    • 4. urllib
      • 4.1 urllib的用法
      • 4.2 urllib.request的headers传参流程
      • 4.3 urllib.parse的使用
    • 5. 项目实操
      • 5.1 构建url
      • 5.2 项目:搜索一个关键字并存储

第二章 网络请求模块

1. 几个概念

1.1 get和post

爬虫有两种主要的请求方式就是get和post,get的请求方式,请求参数都会在url里面显示出来,而post则不会。一般post会对服务器数据产生影响,比如登录的时候会提交账户和密码,这个时候需要用post请求。

1.2 全球统一资源定位符

通称URL
例如下面是一个新闻网页的url:
.shtml?spm=C94212.P4YnMod9m2uD.E7v7lEZZ0WEM.4
我们研究一下他的组成部分

http: 协议
newstv: 主机名  这里省略了一个端口443
2020/12/13/ARTILDC3agyCVhXCYNdc8Alu201213.shtml?spm=C94212.P4YnMod9m2uD.E7v7lEZZ0WEM.4    这是我们所访问资源的一个路径anchor  拓展,这个是锚点,做导航的,定位到某个目录  (拓展知识点)

浏览器去请求一个url的时候,除了英文字母,数字和部分符号外,其他的都采用%加16进制来进行编码。因为网站只能识别ascall码。如果携带中文的时候,会被编码。

1.3 User-Agent

用户代理,记录了用户的操作系统,浏览器版本等信息,为了让用户获得更好的页面浏览效果。爬虫时将User-Agent作为header加入,会增加成功率。
User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0

Gecko 这个时指浏览器的内核

1.4 Referer

我们在header里面还发现了Referer: ,显示本页面是由哪个页面跳转来的。也是和反爬虫有关的,如果你请求的时候,没有这个元素,则服务器认为你是爬虫程序,而不是从浏览器跳转来到这个页面的。所以这个元素也要添加到header里面,可以增加请求的成功率。

当然,后面还有关于Cookie、seccion等中还要知识点,后面专题来讲。

2. 状态码

200 请求成功
301 永久重定向
302 临时重定向
404 服务器无法响应
500 服务器内部请求

3. 抓包工具里的选项

elements: 元素,网页源代码,用于提取数据和分析数据(注意,有些数据是经过处理的,并不准确)
Console: 控制台,可以编码,打印信息。

更多推荐

爬虫(02)网络请求模块2020

本文发布于:2024-03-23 18:09:56,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1741229.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:爬虫   模块   网络

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!