多线程爬虫爬取电影天堂资源|电子爱好者

admin管理员组
文章数量:1657213

先来简单介绍一下，网络爬虫的基本实现原理吧。一个爬虫首先要给它一个起点，所以需要精心选取一些URL作为起点，然后我们的爬虫从这些起点出发，抓取并解析所抓取到的页面，将所需要的信息提取出来，同时获得的新的URL插入到队列中作为下一次爬取的起点。这样不断地循环，一直到获得你想得到的所有的信息爬虫的任务就算结束了。我们通过一张图片来看一下。

　　好的下面进入正题，来讲解下程序的实现。
　　首先要分析一下电影天堂网站的首页结构。

　　从上面的菜单栏中我们可以看到整个网站资源的总体分类情况。刚刚好我们可以利用到它的这个分类，将每一个分类地址作为爬虫的起点。
　　 ①解析首页地址提取分类信息

[py] view plaincopy

#解析首页
def CrawIndexPage(starturl):
print "正在爬取首页"
page = __getpage(starturl)
if page=="error":
return
page = page.decode('gbk', 'ignore')
tree = etree.HTML(page)
Nodes = tree.xpath("//div[@id='menu']//a")
print "首页解析出地址",len(Nodes),"条"
for node in Nodes:
CrawledURLs = []
CrawledURLs.append(starturl)
url=node.xpath("@href")[0]
if re.match(r'/html/[A-Za-z0-9_/]+/index.html', url):
if __isexit(host + url,CrawledURLs):
pass
else:
try:
catalog = node.xpath("text()")[0].encode("utf-8")
newdir = "E:/电影资源/" + catalog
os.makedirs(newdir.decode("utf-8"))
print "创建分类目录成功------"+newdir
thread = myThread(host + url, newdir,CrawledURLs)
thread.start()
except:
pass

在这个函数中，首先将网页的源码下载下来，通过XPath解析出其中的菜单分类信息。并创建相应的文件目录。有一个需要注意的地方就是编码问题，但是也是被这个编码纠缠了好久，通过查看网页的源代码，我们可以发现，网页的编码采用的是GB2312，这里通过XPath构造Tree对象是需要对文本信息进行解码操作，将gb2312变成Unicode编码，这样DOM树结构才是正确的，要不然在后面解析的时候就会出现问题。
　　 ②解析每个分类的主页

[py] view plaincopy

# 解析分类文件
def CrawListPage(indexurl,filedir,CrawledURLs):
print "正在解析分类主页资源"
print indexurl
page = __getpage(indexurl)
if page=="error":
return
CrawledURLs.append(indexurl)
page = page.decode('gbk', 'ignore')
tree = etree.HTML(page)
Nodes = tree.xpath("//div[@class='co_content8']//a")
for node in Nodes:
url=node.xpath("@href")[0]
if re.match(r'/', url):
# 非分页地址可以从中解析出视频资源地址
if __isexit(host + url,CrawledURLs):
pass
else:
#文件命名是不能出现以下特殊符号
filename=node.xpath("text()")[0].encode("utf-8").replace("/"," ")\
.replace("\\"," ")\
.replace(":"," ")\
.replace("*"," ")\
.replace("?"," ")\
.replace("\""," ")\
.replace("<", " ") \
.replace(">", " ")\
.replace("|", " ")
CrawlSourcePage(host + url,filedir,filename,CrawledURLs)
pass
else:
# 分页地址从中嵌套再次解析
print "分页地址从中嵌套再次解析",url
index = indexurl.rfind("/")
baseurl = indexurl[0:index + 1]
pageurl = baseurl + url
if __isexit(pageurl,CrawledURLs):
pass
else:
print "分页地址从中嵌套再次解析", pageurl
CrawListPage(pageurl,filedir,CrawledURLs)
pass
pass

打开每一个分类的首页会发现都有一个相同的结构（点击打开示例）首先解析出包含资源URL的节点，然后将名称和URL提取出来。这一部分有两个需要注意的地方。一是因为最终想要把资源保存到一个txt文件中，但是在命名时不能出现一些特殊符号，所以需要处理掉。二是一定要对分页进行处理，网站中的数据都是通过分页这种形式展示的，所以如何识别并抓取分页也是很重要的。通过观察发现，分页的地址前面没有“/”,所以只需要通过正则表达式找出分页地址链接，然后嵌套调用即可解决分页问题。
③解析资源地址保存到文件中
[py] view plaincopy

#处理资源页面爬取资源地址
def CrawlSourcePage(url,filedir,filename,CrawledURLs):
print url
page = __getpage(url)
if page=="error":
return
CrawledURLs.append(url)
page = page.decode('gbk', 'ignore')
tree = etree.HTML(page)
Nodes = tree.xpath("//div[@align='left']//table//a")
try:
source = filedir + "/" + filename + ".txt"
f = open(source.decode("utf-8"), 'w')
for node in Nodes:
sourceurl = node.xpath("text()")[0]
f.write(sourceurl.encode("utf-8")+"\n")
f.close()
except:
print "!!!!!!!!!!!!!!!!!"

这段就比较简单了，将提取出来的内容写到一个文件中就行了
　　为了能够提高程序的运行效率，使用了多线程进行抓取，在这里我是为每一个分类的主页都开辟了一个线程，这样极大地加快了爬虫的效率。想当初，只是用单线程去跑，结果等了一下午最后因为一个异常没处理到结果一下午都白跑了！！！！心累
[py] view plaincopy

class myThread (threading.Thread): #继承父类threading.Thread
def __init__(self, url, newdir,CrawledURLs):
threading.Thread.__init__(self)
self.url = url
self.newdir = newdir
self.CrawledURLs=CrawledURLs
def run(self): #把要执行的代码写到run函数里面线程在创建后会直接运行run函数
CrawListPage(self.url, self.newdir,self.CrawledURLs)

以上只是部分代码，全部代码可以到GitHub上面去下载（点我跳转）
最后爬取的结果如下。

本文标签：爬虫多线程天堂电影资源

版权声明：本文标题：多线程爬虫爬取电影天堂资源内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1729778789a1212526.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

多线程爬虫爬取电影天堂资源

更多相关文章

应用Python爬虫下载酷狗音乐

python爬取酷狗音乐歌词_Python爬虫：爬取酷狗音乐

python爬虫——爬取酷狗音乐top500(BeautifulSoup使用方法)

【python实现网络爬虫（14）】python爬取酷狗中多类型音乐步骤详解（附全部源代码）

爬虫项目3[爬取酷狗音乐Top500歌名]

酷狗音乐爬虫并生成kugouSpider.exe文件

爬虫爬取酷狗音乐主页歌曲

python爬虫（爬取酷狗排行榜并保存到本地）

Unity 热更 之 【HybirdCLR】+【YooAsset】 [安卓 Android端] [代码 + 资源热更] 功能的 简单实现演示

百度网盘资源怎么分享群链接下载？

把自己的文件上传到百度网盘，成为公开资源的教程

资源：JDK1.8的版本百度网盘自提，并解决配置 java 环境的问题；

android 桌面视频播放器,ZY-Player ，一款跨平台桌面端视频资源播放器

win10中的wsappx进程（开机时，占用过多资源）

python快速开发app_使用Airtest超快速开发App爬虫

十大高性能开发宝石（IO多路复用，多线程，线程池，Redis的实际场景）

被爬虫盯上的50家网站

Tahiti: Voices of Paradise 专辑中文名: 大溪地：天堂之声

天堂2java gm设置_天堂2GM指令中英文对照

解决天堂2单机JAVAL2J源码CMD后台乱码

发表评论

推荐文章

Win10系统更新卡住了怎么办？如何修复？

i711700k和i712700k区别 i7 11700k和i7 12700k对比

简明教程-在WIN7下装Ubuntu 19.04双系统-U盘安装+卸载

搭载英特尔 N100 CPU，LattePanda Mu微型计算模块现已发售！

IT行业都有哪些职位，初学者（0基础，新人）该如何选择，才能够快速进入这个行业？...

热门文章

win10安装steam有损计算机,win10系统steam磁盘写入错误怎么办 steam磁盘写入错误的解决教程...

i5 11300H和i7 10750h 对比哪个好

申请注册码免费激活visual studio 2010 express的方法（以vc++为例）

语音助手——问答型助手架构和设计

路行助手无法使用_路行助手app

java笔试题

Android系统Root与静默安装

怎么在QQ浏览器上使用微信聊天？

u盘linux反应好慢,U盘加载速度缓慢的原因及解决小技巧

计算机睡眠无法锁屏是怎么设置密码,教你电脑待机锁屏怎么设置

最新文章

win7如何重装系统

windows重新安装php,win7系统如何重装

投影仪处理器排行更新：2024年10月最新投影处理器芯片评测

win11无法连接共享打印机的解决办法

Office2021安装包支持Windows和Mac OS系统百度云盘下载

U盘装WIN7系统教程

高通骁龙处理器天梯排行榜2023 高通骁龙处理器排名 骁龙处理器哪个好？

连接共享打印机出错000709

在Windows 10上连接共享打印机

有手机蹭我的随身网怎么办？

安装mysql提示oxc000007b_Win7出现oxc000007b怎么办？解决win7重装系统出现oxc000007b的方法...

重装系统之gpt分区与mbr分区

车机芯片总结

连接共享打印机的 Win11 编程指南

Windows符号包下载地址

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

Unity 热更之【HybirdCLR】+【YooAsset】 [安卓 Android端] [代码 + 资源热更] 功能的简单实现演示

高通骁龙处理器天梯排行榜2023 高通骁龙处理器排名骁龙处理器哪个好？

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载