如何用 Python 爬取网易严选妹子内衣信息,捕获妹纸的芳心

编程入门 行业动态 更新时间:2024-10-05 03:18:32

如何用 Python 爬取<a href=https://www.elefans.com/category/jswz/34/1770005.html style=网易严选妹子内衣信息,捕获妹纸的芳心"/>

如何用 Python 爬取网易严选妹子内衣信息,捕获妹纸的芳心

如何用 Python 爬取网易严选妹子内衣信息,捕获妹纸的芳心

今天分析一下爬虫数据分析文章,一起来看看网易严选商品评论的获取和分析。

警告:本教程仅用作学习交流,请勿用作商业盈利,违者后果自负!如本文有侵犯任何组织集团公司的隐私或利益,请告知联系离一删除!!! 声明:这是一篇超级严肃的技术文,超!级!严!肃!请本着学习交流的态度阅读,谢谢!

 

网易商品评论爬取

分析网页

评论分析

点击进入到网易精选官网,搜索“文胸”后,先随便点进一个商品。(小编觉得这个外国小姐姐太好看了,哈哈^_^)

 

 

然后在商品页面,打开 Chrome 的控制台,切换至 Network 页,再把商品页面切换到评价标签下,选择一个评论文字,如“无钢圈、舒适、冰丝”,在 Network 中搜索。

 

 

 

到这里大家可以看到,评论是通过 listByItemByTag.json 传递过来的,点击进入该请求,并拷贝出该请求的 URL:

 

you.163/xhr/comment…

 

 

将该 URL 放入 Postman 中,逐个尝试 url query params,最后能够发现,只需保留 itemId 和 page 两个请求参数即可。

 

 

 

请求返回的是一个 JSON 格式的数据,下面就是分析该 JSON 数据了。

我们可以看到,所有的评论数据都存储在 commentList 中,我们只需保存该数据就可以了。

下面就是如何获取 itemId 的信息了,这个是产品的 ID,我们回到网易精选首页,继续分析。

产品 ID 获取

当我们在搜索框中输入关键字进行搜索的时候,同样能够发现在 Network 中有很多请求,此时可以观察各个请求,通过请求文件的名称,我们可以定位到搜索时展示搜索结果的请求。

 

 

搜索一般都是 search,所以我们就锁定了这个 search.json 的请求。同样把请求 URL 拷贝到 Postman 中,逐个验证传参,最后保留 page 和 keyword 两个参数即可。

 

 

 

该请求返回的数据较多,还是需要耐心的分析数据,也能够发现,在 result->data->directly->searcherResult->result 下面的 id 值,即为我们要获取的产品 ID。

 

以上,我们基本完成了前期的分析工作,下面开始代码的编写。

编写代码

获取产品 ID

def search_keyword(keyword):uri = '.json'query = {"keyword": keyword,"page": 1}try:res = requests.get(uri, params=query).json()result = res['data']['directly']['searcherResult']['result']product_id = []for r in result:product_id.append(r['id'])return product_idexcept:raise
复制代码

我这里是获取了 page 为 1 的产品 ID,下面就是通过产品 ID 来获取不同产品下的评论信息。

通过前面的分析,我们可以知道,评论信息都是如下形式的,对这种形式的信息,我们可以很方便地存储进入 MongoDB,然后再慢慢分析数据里的内容。

{"skuInfo": ["颜色:肤色","杯码:75B"],"frontUserName": "1****8","frontUserAvatar": ".jpg","content": "质量好,穿着舒服","createTime": 1555546727635,"picList": [".jpg"],"commentReplyVO": null,"memberLevel": 4,"appendCommentVO": null,"star": 5,"itemId": 1680205}
复制代码

对于 MongoDB,我们既可以自己搭建,也可以使用网上免费的服务。在这里我介绍一个免费的 MongoDB 服务网站:mlab,使用很简单,就不过多介绍使用过程了。

数据库有了,下面就是把数据保存进去了。

def details(product_id):url = '.json'try:C_list = []for i in range(1, 100):query = {"itemId": product_id,"page": i,}res = requests.get(url, params=query).json()if not res['data']['commentList']:breakprint("爬取第 %s 页评论" % i)commentList = res['data']['commentList']C_list.append(commentList)time.sleep(1)# save to mongoDBtry:mongo_collection.insert_many(commentList)except:continuereturn C_listexcept:raise
复制代码

最后爬取完成之后,总共是七千多条数据,然后就可以提取自己需要的一些数据来进行分析了。

 

 

爬取的数据 MongoDB 链接

 

conn = MongoClient("mongodb://%s:%s@ds149974.mlab:49974/you163" % ('you163', 'you163')) db = conn.you163 mongo_collection = db.you163

商品评论数据分析

下面就到了心情澎湃的时刻了,看看妹纸们的偏好有哪些!

偏好颜色

先来看看妹子们偏好的颜色

 

 

这组数据很明显可以看出,黑色是遥遥领先的哦,这里你要做到心中有数!

 

再通过饼状图来观察下不同颜色的占比情况

 

 

那么这些颜色中,你喜欢的她有吗?(小编不怀好意的问一下*@*)

 

尺寸分布

 

 

没有问题,75B 就是大多数妹子的尺寸了

 

如果你对这种罩杯尺寸没有研究的话,不要紧,贴心的我给你准备了对照表,拿走不谢

 

 

 

商品评论

最后我们再来看看妹子们对于商品的评价情况

 

 

就星级评价上来看,大多数都是五星好评,毕竟打着“严选”的名号,质量还是杠杠的。

 

再来看一下妹纸们的评论感受吧!

 

 

舒服、很舒服,非常舒服;满意、很满意,非常满意。

 

仿佛进入了“夸夸群”,看来妹子们首要看重的就是舒服与否,毕竟是贴身的,质量最重要!

好了,看了上面的分析,单身的你是不是更加有了脱单的冲动?如果是已经有软妹傍身的你,是不是该下手讨好下身边的她了呢?

更多推荐

如何用 Python 爬取网易严选妹子内衣信息,捕获妹纸的芳心

本文发布于:2024-03-04 11:20:00,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1709133.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:网易   妹子   芳心   如何用   内衣

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!