爬虫实验2"/>
python爬虫实验2
改进了一下,去掉哪些没用的。
留下的都是些有用的。接着要拔下来,然后放到TXT。。
#coding=utf-8
import urllib2
import re
from sgmllib import SGMLParser;class CatCh(SGMLParser):def reset(self):self.url=[]SGMLParser.reset(self)def start_a(self,attrs):href = [v for k, v in attrs if k == 'href']if href:self.url.extend(href)url=""
content = urllib2.urlopen(url).read()
catch=CatCh()
catch.feed(content)
for item in catch.url:if not re.match("#",item) :if not re.match("^http://",item):print url+item
运行结果:
.php?action=login
.php?action=register
.php
/
/
/
/
.php?action=list
/
.php
.php?action=view&id=27
.php?action=view&id=26
.php?action=view&id=25
.php?action=view&id=23
.php?action=view&id=22
.php?action=view&id=21
(衰仔)
.Yang
@n
/
.Risk
/
/
.
/
、so
[Finished in 5.3s]
转载于:
更多推荐
python爬虫实验2
发布评论