豆瓣top250电影剧情介绍数据采集

编程入门行业动态更新时间:2024-10-12 14:17:44

豆瓣top250电影剧情介绍数据采集

“”"
算法思路：
1.从给定URL中采集网站数据 urloppen()
2.从采集的数据中解析出a标签中href数据，作为新请求的url
3.解析出的新url作为采集请求的url再次发送请求
4.从新请求的数据中解析出电影的剧情介绍
5.保存到外部文档中
“”"

import urllib.request
import re
def getHtml(u):
# 伪装浏览器
h = {
‘User-Agent’: ‘Mozilla / 5.0(Windows NT 6.1;WOW64)’
}
r = urllib.request.Request(url=u, headers=h)
# 向服务器发送请求
request = urllib.request.urlopen®
# 从服务器上下载数据
html = request.read().decode()
#print(html)
# 定义正则表达式
#p = repile(’.?’,re.S|re.M)
#newurl = p.findall(html)
#print(newurl)
a = repile(’

(.?) ’,re.M|re.S|re.I)
a1 = a.findall(html)
#print(a1)
p = repile(’ .?’,re.S|re.M)
p1 = p.findall(str(a1))
#print(p1)
for i in p1:
r = urllib.request.Request(url=i,headers=h)
request = urllib.request.urlopen(i)
html = request.read().decode()
#print(html)
c = repile(’ (.?)’,re.S)
d = repile(’ (.*?)’, re.S)
c1 = c.findall(html)
d1 = d.findall(html)
for i in c1:
c = i.replace("\n","").strip()
print©
#print(c1)

getHtml(‘’)

更多推荐

豆瓣top250电影剧情介绍数据采集

本文发布于:2024-02-14 11:21:09，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1763115.html