python爬虫实验2

编程入门行业动态更新时间:2024-10-11 07:28:24

python<a href=https://www.elefans.com/category/jswz/34/1770264.html style= 爬虫实验2"/>

python爬虫实验2

改进了一下，去掉哪些没用的。

留下的都是些有用的。接着要拔下来，然后放到TXT。。

#coding=utf-8
import urllib2
import re
from sgmllib import SGMLParser;class CatCh(SGMLParser):def reset(self):self.url=[]SGMLParser.reset(self)def  start_a(self,attrs):href = [v for k, v in attrs if k == 'href']if href:self.url.extend(href)url=""
content = urllib2.urlopen(url).read()
catch=CatCh()
catch.feed(content)
for item in catch.url:if not re.match("#",item) :if not re.match("^http://",item):print url+item

运行结果：

.php?action=login
.php?action=register
.php
/
/
/
/


.php?action=list
/
.php
.php?action=view&id=27
.php?action=view&id=26
.php?action=view&id=25
.php?action=view&id=23
.php?action=view&id=22
.php?action=view&id=21
























(衰仔)



.Yang







@n











/



.Risk















/



















/






.












/












、so










[Finished in 5.3s]

转载于:

更多推荐

python爬虫实验2

本文发布于:2024-03-09 22:07:11，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1726239.html