admin管理员组

文章数量:1564193

1.首先导入需要的模块

import requests
from bs4 import BeautifulSoup
import csv
2.获取网页,并解析结果

def html_parser(url_start):
#获取html
try:
headers={‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36’} #模拟浏览器登入
r=requests.get(url_start,headers=headers,timeout=10) #获取网页
except:
pass
#print(r.status_code)
else:
html = r.content.decode(‘gb2312’,‘ignore’) #解码gb2312,忽略其中有异常的编码,仅显示有效的编码

    #print(len(html))          

#解析网页
soup = BeautifulSoup(html,'lxml')                                
for li in soup.select('.co_area2 li'):  #选择所有class=co_area2 下的所有的 li 节点
    for a in li.select('a'):            #选择 li 节点下的 a 节点 
        link=url_start+a

本文标签: 电影教你如何用天堂Python