初见Python网络爬虫

编程入门 行业动态 更新时间:2024-10-11 07:31:19

初见Python网络<a href=https://www.elefans.com/category/jswz/34/1770264.html style=爬虫"/>

初见Python网络爬虫

用R语言已经有一段时间了,R语言的统计以及作图功能的确十分强大,暑假我也看完了《基于R语言的网络数据采集》一书,算是对爬虫有了初步的了解。
在看完那本书之后我也写了一些爬虫,爬过厦大的图书馆,爬过京东的暴风魔镜评论,爬过厦大周围外卖的评论,爬过蚂蚁短租,效果还是不错的。但在我爬取拉勾网的时候就出现问题了,我想爬取拉勾网量化投资的招聘信息,用谷歌的开发者工具可以知道向
.json?needAddtionalResult=false
网址发送三个变量first=false pn=2 kd='量化投资' 即可获得想要的json数据,first关键字不知道是什么鬼,pn是页码,kd是搜索的关键词。首先先看R语言的效果,先上代码

library(RCurl)
library(stringr)
url <- '.json?
needAddtionalResult=false'
doc <- postForm(url,.params = list(first = 'false',pn = 2,kd = '量化投资'))
cat(doc)
cat(str_replace_all(doc,',','\n'))

再看效果:

显然,这里返回的数据为空的。懂R语言的人可能会说,R语言中逻辑型变量是大写而且不用引号,那我们再试把代码换成first = FALSE 试试。再次上图
又是空的,这真的很让人抓狂,之前我还尝试过给post请求加一个句柄来更加真实的模拟浏览器,但是仍然没有效果,即使有效果我也不想在这种小爬虫上浪费太多精力,还是直接看Python吧。老规矩,先上代码:

import requests
url = '.json?needAddtionalResult=false'
data = {'first':'false','pn':2,'kd':'量化投资'}
html = requests.post(url,data)
doc = html.json()
print(doc)

看Python的效果:

可见此次得到的数据是正确的,以后要学习一下Python了,并且为了达到好的学习效果,会不定期地写一下博客。

更多推荐

初见Python网络爬虫

本文发布于:2024-02-14 13:16:33,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1763805.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:爬虫   网络   Python

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!