admin管理员组

文章数量:1564186

爬虫实战爬取豆瓣电影Top250榜单电影

实战内容:直接上代码,重要地方有注释。

from bs4 import BeautifulSoup
import re
import urllib.request,urllib.error
import xlwt
import sqlite3
def main():
    baseurl = "https://movie.douban/top250?start="
   #1.爬取网页
    datalist = getData(baseurl)
    savepath = "豆瓣电影Top250.xls"
   #3.保存数据
    saveData(datalist,savepath)
    #askURL("https://movie.douban/top250?start=")


findlink = re.compile(r'<a href="(.*?)">')#影片详情链接
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)#让换行符包含在字符中 #影片图片链接
findtitle = re.compile(r'<span >(.*)</span>')#影片片名
findRating = re.compile(r'<span  property="v:average">(.*)</span>')#影片评分
findJudge = re.compile(r'<span>(\d*)人评价</span>')
findInq = re.compile(r'<span >(.*)</span>')
findBd = re.compile(r'<p >(.*?)</p>',re.S)

#爬取网页
def getData(baseurl):
    datalist =

本文标签: 爬虫电影豆瓣实战榜单