Python爬取电影排行TOP250(beautifulsoup+requests)

编程入门行业动态更新时间:2024-10-23 03:27:58

Python爬取<a href=https://www.elefans.com/category/jswz/34/1716909.html style= 电影排行TOP250(beautifulsoup+requests)"/>

Python爬取电影排行TOP250(beautifulsoup+requests)

前言:

网络爬虫无疑会为我们生活带来便利，但是过度的恶意爬取也会造成服务器的负担，这里还是请诸位利用好这把爬虫双刃剑。

一、话不多说，先看代码，随后详谈

1.代码如下:

（1）单个网页爬取

(2)多个网页

2.运行结果 (只是一部分)

二、思路流程

1.正所谓巧妇难为无米之炊，我们要爬取信息得要源代码才行。可以用requests解决。

2.分析源代码，找到包含信息的标签，用beautifulsoup遍历找到。

3.利用beautifulsoup通过标签名字和属性遍历标签，查找到信息。

4.观察网址信息，制作出爬取多个网页的循环，比如说网址的后半段的某些数字的间隔是有规律的，如下所示

二、代码解释

1.代码库的解释

2.代码段的解释

(1)requests代码段的解释

(2)beautifulsoup代码段的解释

(3)整个代码段的解释

三、总结

一、话不多说，先看代码，随后详谈

1.代码如下:

（1）单个网页爬取

import requests
from bs4 import BeautifulSoup
kv={'user-agent':'Mozilla/5.0'}
r=requests.get('',headers=kv)
if (r.status_code==200):source=r.textsoup = BeautifulSoup(source,'html.parser')items=soup.find_all('div','item')for i in items:for j in range(len(i.find_all('span','title'))):print(i.find_all('span','title')[j].string,end='')print(i.find_all('span','other')[0].string)print(i.find_all('p')[0].text.replace('\n','').replace(' ',''))if(len(i.find_all('span','inq'))!=0):print('评语:'+i.find_all('span','inq')[0].string)print('评分:'+i.find_all(property="v:average")[0].string)print("\n")
else:print("哦豁~目标网站不给予响应")

(2)多个网页

import requests
from bs4 import BeautifulSoup
kv={'user-agent':'Mozilla/5.0'}
page=0
while (page<=250):r=requests.get('='+str(page)+'&filter=',headers=kv)page=page+25if (r.status_code==200):source=r.textsoup = BeautifulSoup(source,'html.parser')items=soup.find_all('div','item')for i in items:for j in range(len(i.find_all('span','title'))):print(i.find_all('span','title')[j].string,end='')print(i.find_all('span','other')[0].string)print(i.find_all('p')[0].text.replace('\n','').replace(' ',''))if(len(i.find_all('span','inq'))!=0):print('评语:'+i.find_all('span','inq')[0].string)print('评分:'+i.find_all(property="v:average")[0].string)print("\n")else:print("哦豁~目标网站不给予响应")
print('OVER~')

2.运行结果 (只是一部分)

二、思路流程

1.正所谓巧妇难为无米之炊，我们要爬取信息得要源代码才行。可以用requests解决。

2.分析源代码，找到包含信息的标签，用beautifulsoup遍历找到。

比如我们此次要爬取的电影都在items标签中，所有的电影名字都在title标签中，导演在p标签中等等，都是需要我们需要留心的。

3.利用beautifulsoup通过标签名字和属性遍历标签，查找到信息。

这里用到了beautifulsoup的find_all利用标签名字和属性遍历，标签的.string和.text属性进行字符提取输出。这里的string和text有所不同，string只能读取含有一个字标签的标签字符，而text可以读取含有多个字标签的所有字符。

4.观察网址信息，制作出爬取多个网页的循环，比如说网址的后半段的某些数字的间隔是有规律的，如下所示:

=0&filter=

=25&filter=

=50&filter=