农业领域数据资源获取与分析——爬取新发地官网信息|电子爱好者

admin管理员组
文章数量:1564668

1 开发环境

2 程序功能介绍

（1）实验目的

（2）数据说明

（3）技术说明

3 程序设计的思路

4 关键技术及难点

5 程序的详细设计

5.1 爬取数据

5.2 读取数据

5.3查看数据的整体情况

5.4数据清洗

5.5数据分析

6 可视化展示

7 结论

1 开发环境

主要是Jupyter Notebook

2 程序功能介绍

（1）实验目的

参考智慧农业导论课程内容，结合本专业已学课程知识，开展涉农数据的“爬取—清洗—存储—可视化—结论性分析”的工作，通过分析，实现对数据的整体评价或预测。

（2）数据说明

本次爬虫实验共爬取了100页，2000条数据，八列分别为产地、单位、发布日期、品名、平均价、最低价、最高价、规格等，其中无重复值，产地有403个缺失值，规格有1259个缺失值，缺失值过多不能直接删除，这两个变量在后续研究中只看比较关系，无需填充，所以不用进行缺失值处理。数据类型有两类，object类型的数据有产地、单位、发布日期、品名、规格等，float64类型的数据包括平均价、最低价、最高价等。

（3）技术说明

采用Python3技术使用requests库的post()方法来爬取数据。

3 程序设计的思路

向HTML网页提交POST请求的方法，对应于HTTP的POST，找到蔬菜信息页面，然后进行翻页，发现页面的url没有发生改变，所有蔬菜信息是通过接口数据动态获取的，是动态数据。进行chrom调试抓包，找到每个页面信息所在的url，发现每个信息的url都相同，post请求，formdata不同。通过修改提交的data来获取不同页面的蔬菜信息。

4 关键技术及难点

如何爬取大量数据且保证数据的有效性
数据处理的方法，相关函数的应用，图像的制作
选定所要制作图像的数据
对所得结果的综合性分析

5 程序的详细设计

5.1 爬取数据

利用在页码框输入页码指定需要爬取的页面数目

爬取数据网址：新发地官网：http://www.xinfadi/priceDetail.html

import json
import requests
import threading
import pandas as pd
#新发地官网：http://www.xinfadi/priceDetail.html
#页数
page = 1
#商品总列表
count=[]
#json列表
jsons=[]

#解析网页函数
def url_parse(page):
#请求地址
url = 'http://www.xinfadi/getPriceData.html'
headers = {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Accept-Language": "zh-CN,zh;q=0.9",
"Cache-Control": "no-cache",
"Connection": "keep-alive",
"Content-Length": "89",
"Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
"Host": "www.xinfadi",
"Origin": "http://www.xinfadi",
"Pragma": "no-cache",
"Referer": "http://www.xinfadi/priceDetail.html",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36",
"X-Requested-With": "XMLHttpRequest",
}
data = {
"limit": "20",
"current": page,
"pubDateStartTime": "",
"pubDateEndTime": "",
"prodPcatid": "1186", #商品类id
"prodCatid": "",
"prodName": "",
}
response=requests.post(url=url,headers=headers,data=data).text
#获取商品信息
response=json.loads(response)['list']
#生成线程锁对象
lock=threading.RLock()
#上锁
lock.acquire()
#添加到json列表中
jsons.append(response)
#解锁
lock.release()

#解析json函数
def json_parse(product):
lock=threading.RLock()
lock.acquire()
dic = {'品名': product['prodName'], "最低价": product['lowPrice'], '最高价': product['highPrice'],
'平均价': product['avgPrice'], '规格': product['specInfo'], '产地': product['place'], '单位': product['unitInfo'],
'发布日期': product['pubDate']}
print(dic)
#将商品信息添加到商品总列表中
count.append(dic)
lock.release()

if __name__ == '__main__':
num=int(input('请输入爬取页数：'))
#多进程解析网页
for i in range(1,num+1):
x=threading.Thread(target=url_parse,args=(i,))
x.start()
x.join()
# 多进程解析json
for i in jsons:
for product in i:
y=threading.Thread(target=json_parse,args=(product,))
y.start()
y.join()
#生成excel
data = pd.DataFrame(count)
data.to_excel('E:\\爬取蔬菜相关信息.xlsx', index=None)

5.2 读取数据

导入数据集并进行查看，（爬取蔬菜相关信息.xlsx）

import pandas as pd

df1 = pd.read_excel(r'E:\\爬取蔬菜相关信息.xlsx')

df1

df1.head()#显示前5条记录

5.3查看数据的整体情况

查看数据的规模，对数据的初步统计信息有所了解

(1)查看数据的规模:行数和列数

print(df1.shape) #查看维度

print(df1.index.size) #获得行数

print(df1.columns.size) #获得列数

数据规模（2000，8）

(2)利用info()查看数据的维度、字段名及类型等

df1.info()

(3)利用describe()查看数据初步统计信息

df1.describe()

数据的初步统计信息

图一

5.4数据清洗

对重复值，缺失值进行查看与处理

（1）重复值处理

#查看是否存在重复行

df1.duplicated()

#查看重复行与非重复行的数量

cf = df1.duplicated()

cf.value_counts()

无重复行，无需对重复行进行操作

（2）缺失值处理

#查看各元素是否为空值

df1.isnull()

#查看各列是否存在空值

#只要该列有空值，就为True

df1.isnull().any()

#各列含空值的具体数目

df1.isnull().sum()

可以得到该数据集中产地有403个缺失值，规格有1259个缺失值，缺失值过多不能直接删除，这两个变量在后续研究中只看比较关系，所以无需填充

（3）产看规格列包含具体种类

p1 = df1['规格'].drop_duplicates()

ww = []

for i in p1:

ww.append(i)

#查看规格列各种类出现的次数

from collections import Counter

Counter(df1['规格'])

可以看到规格为'袋\箱'的较多，出现了68次，其次依次是'洗'47次，'新'47次,'泥\洗'34次，'老'30次等，'散装'出现较少，仅有4次，规格列缺失较多，但我们只需对已有的值进行分析，缺失值不影响比较结果，所以不对其进行处理

5.5数据分析

（1）查看每一列的数据类型

df1.dtypes

（2）查看价格的相关情况

#最高价的平均值

pj1 = df1['最高价'].mean()

print("最高价的平均值是{}".format(pj1))

#最高价的众数：

zs1 = df1['最高价'].mode()

print("最高价的众数是：{}".format(zs1))

#最高价的方差：

fc1 = df1['最高价'].var()

print("最高价的方差是：{}".format(fc1))

#最低价的平均值

pj2 = df1['最低价'].mean()

print("最低价的平均值是{}".format(pj2))

#最低价的众数：

zs2 = df1['最低价'].mode()

print("最低价的众数是：{}".format(zs2))

#最低价的方差：

fc2 = df1['最低价'].var()

print("最低价的方差是：{}".format(fc2))

#平均价的平均值

pj3 = df1['平均价'].mean()

print("平均价的平均值是{}".format(pj3))

#平均价的众数：

zs3 = df1['平均价'].mode()

print("平均价的众数是：{}".format(zs3))

#平均价的方差：

fc3 = df1['平均价'].var()

print("平均价的方差是：{}".format(fc3))

data = {'平均值':[pj1,pj2,pj3],'众数':[zs1,zs2,zs3],'方差':[fc1,fc2,fc3]}

w = pd.DataFrame(data,index=

本文标签：官网新发领域农业数据

版权声明：本文标题：农业领域数据资源获取与分析——爬取新发地官网信息内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1727109232a1098059.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

农业领域数据资源获取与分析——爬取新发地官网信息

1 开发环境

2 程序功能介绍

（1）实验目的

（2）数据说明

（3）技术说明

3 程序设计的思路

4 关键技术及难点

5 程序的详细设计

5.1 爬取数据

​​​​​​​5.2 读取数据

5.3查看数据的整体情况

5.4数据清洗

5.5数据分析

更多相关文章

面部表情识别1：表情识别数据集(含下载链接)

Scrapy爬取数据[scrapy.core.scraper] ERROR: Spider error processing解决办法

ML之Scorecard之toad：基于germancredit数据集构建金融风控领域的信用卡评分卡模型——加载数据集→数据预处理(特征编码+特征筛选【IV＞0.02corr＞0.7empty＞0

金融领域文档级别事件抽取-Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extract

Neo4j在Windows下的安装，提供下载链接（官网忒慢）

AI：大模型领域最新算法SOTA核心技术要点总结(一直持续更新)、大模型实战与理论经验总结(训练优化+代码实战+前沿技术探讨+最新案例应用)、带你精细解读多篇优秀的大模型论文、AI领域各种工具产品集合

STM32串口回传显示：在同一个串口USART1：PA9;PA10下，将串口助手的数据发送给32，然后通过32回传给串口助手。

Burp抓包手机模拟器数据（可解决证书不可信问题）

win10自带远程桌面+局域网内数据共享

13个大数据应用案例,告诉你最真实的大数据故事

无法复制：数据错误（循环冗余检查）的解决方法

win10pe命令打开计算机,Win10无法进入系统、没有U盘PE，如何备份数据？

Windows 10 卸载并重装MySQL8（保留数据）

谷歌浏览器在PC端登录抖音官网时，登录页面不显示二维码的解决方法

chrome官网下载网址

使用谷歌浏览器翻译之后，vue数据修改，页面显示不变

下一篇CefSharp 集成谷歌浏览器详解（五）–官网示例解析2 winform 捕获ChromiumWebBrowser消息

CefSharp 集成谷歌浏览器详解（二）--官网示例解析1启动

实用工具 | Chrome谷歌浏览器安装JSONView扩展程序，方便查看JSON数据

kindeditor用谷歌浏览器上传图片出现 “上传错误 ”，在官网上就这样。{&quot;error&quot;:0,&quot;url&quot;:&quot;ke4attachedW02009112452451

发表评论

推荐文章

微星安装双系统Linux卡顿,微星笔记本-gf63-1050-win10-ubuntu16双系统安装

kali linux 安装中文输入法

U盘安装各种系统方法总结

下载谷歌浏览器插件网址

谷歌浏览器插件安装教程，简单易懂（图文讲述）

热门文章

一名架构师，懂点硬件知识不过分吧？

往360市场上传企业应用程序时，上传不成功

手机浏览器打开百度网页

iPhone自带的Safari浏览器怎么设置为电脑网页版，四步教会你

七款无广告不骚扰输入法

小米平板2刷哪个系统更流畅_教程：小米平板2轻松刷Win10

【MC】我的世界零基础开云服务器教程

谷歌浏览器离线下载地址

跨网段共享打印机

无法正常启动0xc000007b的解决方法

最新文章

centos7中文输入法

软件发明专利实例_上知案例洞察：搜狗诉百度输入法软件发明专利侵权纠纷案...

Ubuntu设置中文输入法教程（全）

Ubuntu20.04安装中文输入法

用输入法打出希腊字母

rk android10.1 默认输入法 百度tv输入法

Centos7安装输入法

deepin 20.9中文输入法问题

为什么php-fpm会使用内存一直增加_百度输入法重大BUG：内存占用随用户词库增大而暴涨...

Ubuntu 24.04 输入法配置

用百度输入法的用户体验

android 百度轻量输入法,百度发布Android手机输入法 打造流畅体验

MIUI 13 去除输入法广告

Jmeter与搜狗输入法、百度输入法不兼容问题解决方法

Ubuntu下微信（wechat）经常无故卡死解决方法百度输入法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

5.2 读取数据

kindeditor用谷歌浏览器上传图片出现 “上传错误 ”，在官网上就这样。{"error":0,"url":"ke4attachedW02009112452451

rk android10.1 默认输入法百度tv输入法

android 百度轻量输入法,百度发布Android手机输入法打造流畅体验

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载