爬虫"/>
阿里微认证之python 爬虫
robots协议
指定一个文件,告诉爬虫引擎可以爬什么,不能爬什么。
eg:
淘宝
.txt
马蜂窝
.txt
这个协议是君子协议,不是强制性要求
HTTP请求处理和响应处理
urllib包是标准库
- urllib.request用于打开和读写url
- urllib.error包含了有urllib.request引起的异常
- urllib.parse用于解析url
- urllib.robotparser分析robots.txt文件
python3中只有urllib一个包
urllib.request模块
模块定义了在基本和摘要式和身份验证、重定向、cookies等应用中打开URl(主要是HTTP)的函数和类
urlopen方法
urllib.request.urlopen(url,data=None)
打开一个url可以是一个string或者对象
data是提交的数据如果data为None则为GET请求,否则为POST请求
from urllib.request import urlopen
# 打开一个url返回一个响应对象,类文件对象
# 下面的连接访问后会有跳转
response = ur
更多推荐
阿里微认证之python 爬虫
发布评论