python如何提取网络链接_Python网络爬虫——把一个网页中所有的链接地址提取出来(去重)...

编程知识 更新时间:2023-05-03 01:18:20

# 把一个网页中所有的链接地址提取出来。

运行环境Python3.6.4-实现代码:import urllib.request

import re

#1. 确定好要爬取的入口链接

url = "http://blog."

# 2.根据需求构建好链接提取的正则表达式

pattern1 = '<.>

#3.模拟成浏览器并爬取对应的网页 谷歌浏览器

headers = {'User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}

opener = urllib.request.build_opener()

opener.addheaders = [headers]

data = opener.open(url).read().decode('utf8')

# 4.根据2中规则提取出该网页中包含的链接

content_href = re.findall(pattern1,data,re.I)

# print(content_href)

# 5.过滤掉重复的链接

# # 列表转集合(去重) list1 = [6, 7, 7, 8, 8, 9] set(list1) {6, 7, 8, 9}

set1 = set(content_href)

# 6.后续操作,比如打印出来或者保存到文件中。

file_new = "D:\\爬虫\\href.txt"

with open(file_new,'w') as f:

for i in set1:

f.write(i)

f.write("\n")

# f.close()

print('已经生成文件')

更多推荐

python如何提取网络链接_Python网络爬虫——把一个网页中所有的链接地址提取出来(去重)...

本文发布于:2023-04-29 20:22:00,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/3e3af35680266f9f37e4d967cec7f47d.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:链接   爬虫   网络   地址   网页

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!

  • 112080文章数
  • 28530阅读数
  • 0评论数