python基本网络爬虫代码_Python实现网页爬虫基本实现代码解读

编程知识行业动态更新时间:2024-06-13 00:22:26

Python实现网页爬虫基本实现代码解读

(2012-11-08 14:11:56)

标签：

python

python培训

北京

Python是一款功能强大的计算机程序语言，同时也可以被看做是一款面向对象的通用型语言。它的功能特点比较突出，极大的方便开发人员应用。在这里我们先来一起了解一下有关Python市县网页爬虫的方法。

今天看到一个网页，又因为在家里用电话线上网，一直在线阅读很麻烦。所以就写了个简单的程序把网页抓下来离线阅读，省点电话费：）这个程序因为主页面链接到的页面都在同一个目录下，结构很简单，只有一层。因此写了一些硬编码做链接地址的分析。

Python实现网页爬虫代码如下：

#!/usr/bin/env python 1.# -*- coding: GBK -*-

import urllib

2.from sgmllib import SGMLParser

class URLLister(SGMLParser):

3.def reset(self):

SGMLParser.reset(self)

4.self.urls = []

def start_a(self, attrs):

5.href = [v for k, v in attrs if k == 'href']

if href:

6.self.urls.extend(href)

url =

r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'

7.sock = urllib.urlopen(url)

htmlSource = sock.read()

8.sock.close()

#print htmlSource

9.f = file('jingangjing.html', 'w')

f.write(htmlSource)

10.f.close()

mypath =

r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'

11.parser = URLLister()

parser.feed(htmlSource)

12.for url in parser.urls:

myurl = mypath + url

13.print "get: " + myurl

sock2 = urllib.urlopen(myurl)

14.html2 = sock2.read()

sock2.close()

15.# 保存到文件

print "save as: " + url

16.f2 = file(url, 'w')

f2.write(html2)

17.f2.close()

以上就是我们为大家介绍的有关

喜欢

赠金笔

加载中，请稍候......

评论加载中，请稍候...

发评论

登录名：密码：找回密码注册记住登录状态

昵称：

评论并转载此博文

发评论

以上网友发言只代表其个人观点，不代表新浪网的观点或立场。

更多推荐

python基本网络爬虫代码_Python实现网页爬虫基本实现代码解读

本文发布于:2023-04-02 12:28:00，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/2c8b32d693b751720569da84aa8ceb36.html

爬虫代码网页网络 python

上一篇： vscode 快速生成html模板代码的几种方式
下一篇： html颜色代码大全

发布评论取消回复

评论列表（有 0 条评论）

python基本网络爬虫代码_Python实现网页爬虫基本实现代码解读

发布评论取消回复

最近发表

热门文章

标签列表