豆瓣top250电影剧情介绍数据采集

编程入门 行业动态 更新时间:2024-10-12 14:17:44

<a href=https://www.elefans.com/category/jswz/34/1767641.html style=豆瓣top250电影剧情介绍数据采集"/>

豆瓣top250电影剧情介绍数据采集

豆瓣top250电影剧情介绍数据采集

“”"
算法思路:
1.从给定URL中采集网站数据 urloppen()
2.从采集的数据中解析出a标签中href数据,作为新请求的url
3.解析出的新url作为采集请求的url再次发送请求
4.从新请求的数据中解析出电影的剧情介绍
5.保存到外部文档中
“”"

import urllib.request
import re
def getHtml(u):
# 伪装浏览器
h = {
‘User-Agent’: ‘Mozilla / 5.0(Windows NT 6.1;WOW64)’
}
r = urllib.request.Request(url=u, headers=h)
# 向服务器发送请求
request = urllib.request.urlopen®
# 从服务器上下载数据
html = request.read().decode()
#print(html)
# 定义正则表达式
#p = repile(’.?’,re.S|re.M)
#newurl = p.findall(html)
#print(newurl)
a = repile(’

(.?) ’,re.M|re.S|re.I)
a1 = a.findall(html)
#print(a1)
p = repile(’ .?’,re.S|re.M)
p1 = p.findall(str(a1))
#print(p1)
for i in p1:
r = urllib.request.Request(url=i,headers=h)
request = urllib.request.urlopen(i)
html = request.read().decode()
#print(html)
c = repile(’ (.?)’,re.S)
d = repile(’ (.*?)’, re.S)
c1 = c.findall(html)
d1 = d.findall(html)
for i in c1:
c = i.replace("\n","").strip()
print©
#print(c1)

getHtml(‘’)

更多推荐

豆瓣top250电影剧情介绍数据采集

本文发布于:2024-02-14 11:21:09,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1763115.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:豆瓣   剧情介绍   数据采集   电影

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!