【大数据搜索引擎】网络爬虫南华实验报告（2021年版）|电子爱好者

admin管理员组
文章数量:1578025

实验7：设计一个网络爬虫的算法，动态获取全国新型冠状肺炎疫情。

实验8：提交一篇与实验作业7相对应的网络爬虫实验报告。

实验作业7+实验作业8下载链接
https://download.csdn/download/qq_37636795/18398399

（作业是博主认真做的，请多多支持！！！资源中有实验作业7和实验作业8，实验作业7提交epidemic.db，epidemic.py，全国疫情最新信息.xls三个文件；实验作业8单独提交实验报告即可）

南华大学
计算机科学与技术学院
实验报告

（ 2020 ~2021 学年度第二学期）

课程名称搜索引擎
实验名称网络爬虫

姓名学号

专业软件工程班级

地点八教606 教师肖建田

目录
一、实验目的 3
二、实验环境 3
三、实验材料 3
四、实验设计 3
五．结果和性能分析 3
六．有待解决的问题 3
七．实验总结 3

一、实验目的
了解网络爬虫的意义
掌握网络爬虫的基本方法

二、实验环境
Windows 10
Python 3.9
三、实验材料
Firefox 浏览器
Sqlite 数据库
pycharm开发工具
四、实验设计
1.数据库设计
create table epidemic
(
id integer – 主键id
primary key autoincrement,
title text, – 标题
newsUrl text, – 新闻主体url
publish_time text, – 发布时间
contents text – 新闻内容
);

2.程序代码
import re
import sqlite3

import xlwt
from bs4 import BeautifulSoup
from selenium import webdriver

browser = webdriver.Firefox()

定义正则

findnewUrl = repile(’<a href="(.?)".>’)
findTitle = repile(’<a.>(.?)’)
findPublishTime = repile(’(.*?)’)

def getContent(url):
“”"
获取新闻主体
:param url: url地址
:return:
“”"
browser.get(url)
# 获取页面资源
html = browser.page_source
# 解析页面,获取文档树
doc = BeautifulSoup(html, “lxml”)
contents_Ele = doc.select(“div#xw_box > p”)
contents = “”

for content_Ele in contents_Ele:
    childrens = content_Ele.children
    for children in childrens:
        contents += str(children.string)

return contents

def getData(baseUrl):
“”"
爬取网页数据
:param baseUrl:
:return:
“”"
tempUrl = baseUrl

for i in range(1, 3):
    if i != 1:
        baseUrl = tempUrl + "_" + str(i) + ".shtml"
    else:
        baseUrl = tempUrl + ".shtml"

    browser.get(baseUrl)
    # 获取页面资源
    html = browser.page_source
    # 解析页面,获取文档树
    print( "开始解析 " + baseUrl )
    bs = BeautifulSoup(html, "html.parser")
    print(bs)
    print("===================================================")


    dataList = []

    # 所有的新闻
    newsEle = bs.select("div[class='list']>ul>li")

    for newEle in newsEle:
        new_dict = []
        newEle = str(newEle)

        title = re.findall(findTitle, newEle)[0]
        new_dict.append(title)

        newUrl = re.findall(findnewUrl, newEle)[0]
        new_dict.append("http://www.nhc.gov" + newUrl)

        publish_time = re.findall(findPublishTime, newEle)[0]
        new_dict.append(publish_time)

        # http://www.nhc.gov/
        content = getContent("http://www.nhc.gov" + newUrl)
        new_dict.append(content)

        print(new_dict)

        dataList.append(new_dict)

return dataList

def init_db(dbPath):
“”"
创建数据库和表
:param dbPath:
:return:
“”"
sql = ‘’’
create table epidemic(
id integer primary key autoincrement,
title text ,
newsUrl text ,
publish_time text,
contents text
)
‘’’

conn = sqlite3.connect(dbPath)
cursor = conn.cursor()
cursor.execute(sql)
connmit()
cursor.close()
conn.close()

def saveDataDB(dbPath, dataList):
“”"
保存数据到sqlite中
:param dbPath:
:param dataList:
:return:
“”"
init_db(dbPath)
conn = sqlite3.connect(dbPath)
cursor = conn.cursor()

for i in range(0, len(dataList)):
    data = dataList[i]

    for index in range(len(data)):
        data[index] = '"' + data[index] + '"'

    values = ",".join(data)

    sql = '''
        insert into epidemic(
            title,newsUrl,publish_time,contents
        )
        values(
            %s
        )
    ''' % values

    cursor.execute(sql)
connmit()
cursor.close()
conn.close()

def saveData(savePath, dataList):
“”"
保存数据到excel
:param savePath:
:param dataList:
:return:
“”"
workbook = xlwt.Workbook(encoding=“utf-8”)
sheet = workbook.add_sheet(‘最新疫情消息’, cell_overwrite_ok=True)

col = ['标题', '详情链接', '发布时间', '新闻内容']
for i in range(0, len(col)):
    sheet.write(0, i, col[i])
for i in range(0, len(dataList)):
    for j in range(0, len(col)):
        sheet.write(i, j, dataList[i][j])

workbook.save(savePath)

def main():
baseUrl = “http://www.nhc.gov/xcs/yqtb/list_gzbd”

# 1. 爬取网页
dataList = getData(baseUrl)
print("疫情数据爬取完毕!! ")

# 3. 保存数据到excel
savePath = ".\\全国疫情最新信息.xls"  # 路径
saveData(savePath, dataList)

print("成功保存到" + savePath + "中")

# 4. 保存数据到数据库
dbPath = "epidemic.db"
saveDataDB(dbPath, dataList)

print("成功保存到" + dbPath + "中")

if name == “main”: # 程序执行入口
main()
五．结果和性能分析
1. 控制台输出

excel 表的内容
sqlite 数据库数据

六．有待解决的问题
1. 在对网页数据的解析方面，不能非常熟悉的使用正则解析，导致某些数据存在冗余的字符，观感性不好。
2. 对于sqlite 的操作没有进行封装，导致了每一次执行代码就会执行一次数据库的初始化操作，故在每一次执行前都需要将数据库删除，否则会报错。
3. 在对某些网页进行爬取时，由于种种原因，无法得到正确的网页数据，导致了部分数据的丢失。
七．实验总结
爬虫是未来it 行业的一大趋势，爬虫的作用范围巨大，带开发的价值也很大。此实验是一个小型较简单的一个爬虫实验。其中也遇到了很多问题，例如数据丢失，解析出错等等。通过不断的查找资料以及爬虫相关的技术博客，最终基本上解决了上述问题。在爬取全国疫情信息的实验中，我学到了如何利用java语言和python语言进行爬取网页数据，也学会了python操作excel，sqlite操作以及re正则匹配等知识。

本文标签：南华爬虫搜索引擎报告数据

版权声明：本文标题：【大数据搜索引擎】网络爬虫南华实验报告（2021年版）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1727831144a1132615.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【大数据搜索引擎】网络爬虫南华实验报告（2021年版）

实验7：设计一个网络爬虫的算法，动态获取全国新型冠状肺炎疫情。

实验8：提交一篇与实验作业7相对应的网络爬虫实验报告。

定义正则

更多相关文章

大搜索引擎系统架构

Google和百度都无法替代的10大深网搜索引擎

搜索引擎使用技巧-更好地使用搜索

Google 搜索引擎命令大全！

常用谷歌地址和常用搜索引擎

自己动手实现主题搜索引擎

搜索引擎命令大全！

谷歌搜索引擎使用语法大全收集

关于搜索引擎使用方法的一些小窍门

注意：网站中出现以下违规内容-搜索引擎百度都不收录

Elasticsearch搜索引擎：ES的segment段合并原理

关于信息检索（IR）、搜索引擎的学与思

百度网盘搜索攻略:教你用哎哟喂啊等聚合搜索引擎快速找资源

搜索引擎面临的挑战及应对措施

【搜索引擎】强推！最好用资源最全的十个百度网盘搜索引擎

搜索引擎基本原理

一个大数据方案：基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

u盘格式化恢复怎么做？推荐5个方法找回重要数据

硬盘格式化后能恢复数据吗？教你三个简单的方法

莱卡相机sd内存卡格式化了怎么恢复数据

发表评论

推荐文章

（赠源码）node.js+koa+MySQL社区干洗店服务微信小程序79573-计算机毕业设计项目选题推荐

Windows定时开关机

网络设备配置与管理（浙大出版社）课堂笔记

不同搜索引擎的对比

如何在浏览器中快速切换搜索引擎

热门文章

Android - Bootloader? root原理？Recovery? SuperSU？Magisk？Xposed？ROM包？这都啥玩意？

雨晨QQ2012 (4924)绿色版|qq三显IP显隐身VIP完美自选版

Windows电脑设置自动关机的教程

android 亮屏分析,Android亮屏速度分析总结

COVID-19 肺炎疫情数据实时监控（python 爬虫 + pyecharts 数据可视化 + wordcloud 词云图）

UDP可靠性传输-QUIC

手机怎么安装python3_如何安装python3

linux开机提示welcome to emergency mode！after logging in,type “journalctl -xb” or…

搜索引擎使用技巧-更好地使用搜索

搜索引擎的查询方法

最新文章

校运会管理系统设计与实现(源码+lw+部署文档+讲解等)

vncapp下载，vncapp下载怎么下载？下载教程

AI换脸Roop-Unleashed，一键整合包教程

装系统cmd 所需命令

gradle各版本下载、高速下载小技巧

亚马逊平板刷机Linux系统,亚马逊平板刷机步骤盘点【图解】

斐讯N1盒子刷OpenWRT系统结合内网穿透远程管理本地软路由

解决宝塔面板无法下载软件和更新应用的问题

在安卓手机上安装完整LINUX系统

Ubuntu 配置与简单优化(未完)

【2025】springboot家装一体化服务平台背景（源码+文档+调试+答疑）

如何解决Windows 7中DLL文件缺失导致的文件无法打开问题？恢复系统正常运行的步骤

wps 2019智能填充

搬砖工具

袋鼠下载IOS用的一款不限速下载工具支持极速下载，在线秒播

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载