Python实现网页爬虫基本实现代码解读
(2012-11-08 14:11:56)
标签:
python
python培训
北京
it
Python是一款功能强大的计算机程序语言,同时也可以被看做是一款面向对象的通用型语言。它的功能特点比较突出,极大的方便开发人员应用。在这里我们先来一起了解一下有关Python市县网页爬虫的方法。
今天看到一个网页,又因为在家里用电话线上网,一直在线阅读很麻烦。所以就写了个简单的程序把网页抓下来离线阅读,省点电话费:)这个程序因为主页面链接到的页面都在同一个目录下,结构很简单,只有一层。因此写了一些硬编码做链接地址的分析。
Python实现网页爬虫代码如下:
#!/usr/bin/env python 1.# -*- coding: GBK -*-
import urllib
2.from sgmllib import SGMLParser
class URLLister(SGMLParser):
3.def reset(self):
SGMLParser.reset(self)
4.self.urls = []
def start_a(self, attrs):
5.href = [v for k, v in attrs if k == 'href']
if href:
6.self.urls.extend(href)
url =
r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'
7.sock = urllib.urlopen(url)
htmlSource = sock.read()
8.sock.close()
#print htmlSource
9.f = file('jingangjing.html', 'w')
f.write(htmlSource)
10.f.close()
mypath =
r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'
11.parser = URLLister()
parser.feed(htmlSource)
12.for url in parser.urls:
myurl = mypath + url
13.print "get: " + myurl
sock2 = urllib.urlopen(myurl)
14.html2 = sock2.read()
sock2.close()
15.# 保存到文件
print "save as: " + url
16.f2 = file(url, 'w')
f2.write(html2)
17.f2.close()
以上就是我们为大家介绍的有关
分享:
喜欢
0
赠金笔
加载中,请稍候......
评论加载中,请稍候...
发评论
登录名: 密码: 找回密码 注册记住登录状态
昵 称:
评论并转载此博文
发评论
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。
更多推荐
python基本网络爬虫代码_Python实现网页爬虫基本实现代码解读
发布评论