admin管理员组

文章数量:1566678

Python爬虫

爬取腾讯新闻首页的新闻内容

最近学习了爬虫,爬了一些内容,分享一下,方便大家。

#导入模块
import urllib.request
import urllib.error
import re,ssl
import ssl
#针对https ,需要单独处理
#import ssl
#ssl._create_default_https_context = ssl._create_unverified_context
ssl._create_default_https_context = ssl._create_unverified_context
#腾讯新闻首页网址
url="https://xw.qq/"
#该部分通过用户代理(User-Agent)来模拟浏览器请求,但腾讯新闻可直接访问,可不用
#headers=("User-Agent"," Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Mobile Safari/537.36")
#opener=urllib.request.build_opener()
#opener.addhesders=[headers]
#date=opener.open(url).read().decode("utf-8","ignore")
#爬取首页所有信息
#urllib.request.urlopen()函数会报错,所以要进行爬虫异常处理
try:
    date=urllib

本文标签: 爬虫腾讯新闻首页内容