故事——爬取Luoo的音乐故事"/>
喜欢关于音乐的美文,听听作者的故事——爬取Luoo的音乐故事
朋友推荐过Luoo的音乐,非常喜欢。自己用Python写了爬取文章的代码。#!/usr/bin/env python
# -*- coding: cp936 -*-
from bs4 import BeautifulSoup
import FileUtil
import urllib2;
import urllib
import time
def getEssay():print 'about to get essay'baseurlLoo = '/';for x in range(84,100):print xcontent = urllib2.urlopen(baseurlLoo+str(x)).read();soup = BeautifulSoup(''.join(content));if soup.findAll('div','error-msg'):continue;else : title = soup.find('h1','essay-title').textessayCont = soup.find('div','essay-content').text;FileUtil.mkDir('./'+title)FileUtil.saveFile('./'+title+'/'+title+'.txt',essayCont)Essay = soup.find('div','essay-content');picUrls = Essay.findAll('img')for div in picUrls:picUrl = dict(div.attrs)['src']last = picUrl.rfind('/')picName = picUrl[last+1:]urllib.urlretrieve(picUrl,'./'+title+'/'+title+picName)print 'essay get over'if __name__=="__main__":getEssay()
FileUtil 为个人使用的工具包,需要的话可以自己写。
更多推荐
喜欢关于音乐的美文,听听作者的故事——爬取Luoo的音乐故事
发布评论