20,爬取豆瓣电影TOP250,教程为BiliBili IT私塾

编程入门行业动态更新时间:2024-10-15 08:26:54

20,爬取豆瓣电影TOP250,教程为BiliBili IT<a href=https://www.elefans.com/category/jswz/34/1714885.html style= 私塾"/>

20,爬取豆瓣电影TOP250,教程为BiliBili IT私塾

耗时两天,终于将李巍老师的爬虫部分学习完,非常感谢李老师,讲课很生动,课程来源bilibili UP主:IT私塾.

以下为源代码:

#-- codeing= utf-8 --
#author: zoe
#date: 2020/5/15

from bs4 import BeautifulSoup
import urllib
import urllib.request
import re
import openpyxl as ox
#1.爬取网页
#2.逐一解析数据
#3.保存数据
def main():
baseurl = ‘=’
datalist = getData(baseurl)
savepath = “.\豆瓣电影Top250.xlsx”
saveData(datalist,savepath)
# askURL(baseurl)
#影片详情链接的规则
findLink= repile(r’’)
#影片图片
findImgSrc = repile(r’<img alt.src="(.?)"’,re.S) #re.S不包括换行符,S大写
#影片片名
findName = repile(r’(.)’)
#影片评分
findRating = repile(r’(.)’)
#影片评价人数
findPJ = repile(r’(\d*)人评价’)
#影