淘宝商品分类"/>
BeatifuSoup获取淘宝商品分类
利用Beautiful Soup模块,
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。
Beautiful Soup 的中文文档:
.zh.html#Printing%20a%20Document
程序:
#!/usr/bin/env python #coding=utf-8 import re import urllib2 from BeautifulSoup import BeautifulSoup website = raw_input("请输入网址: ") page = urllib2.urlopen(website).read() html = BeautifulSoup(page,fromEncoding="gbk") h = html.body.findAll(repile('h4|h5')) for i in h:if re.search('h4',str(i)):print '--大类--:',i.stringelif re.search('h5',str(i)):tag = i.contents[0].contents[0]print tag
运行结果:
请输入网址: .htm --大类--: 女装男装 女式上装 女式裤子 女式裙子 其他女装 当季男装 男式裤子 男式上装 其他男装 --大类--: 鞋类箱包 春秋女鞋 夏季女鞋 春秋男鞋 夏季男鞋 特色市场 精品女包 精品男包 功能箱包 --大类--: 内衣配饰 内衣分类 内衣品牌 服装配饰 热门搜索 --大类--: 运动户外 运动鞋 运动服 运动包 户外运动用品 运动/瑜伽/健身/球迷用品 --大类--: 珠宝手表 珠宝钻石 品牌手表 流行饰品 其他配饰 --大类--: 数码 手机 相机/DV 笔记本 平板电脑 电脑周边 办公设备 网络存储 数码配件 --大类--: 家电办公 大家电 厨房电器 生活电器 影音电器 护理按摩 家电配件 --大类--: 护肤彩妆 美容护肤 彩妆香水 美发护发 热门品牌 --大类--: 母婴用品 童装 孕妇用品 新生儿 宝宝食品 宝宝用品 儿童玩具 --大类--: 家居建材 家装主材 住宅家具 家居饰品 家纺布艺 五金电工 装修设计 --大类--: 美食特产 休闲零食 营养品 有机食品 粮油米面 茶/饮料 水果蔬菜 --大类--: 日用百货 收纳整理 居家日用 餐饮用具 洗护清洁 成人用品 --大类--: 汽车摩托 汽车用品 摩托车 --大类--: 文化玩乐 书籍杂志 音像影视 乐器 古董收藏 鲜花园艺 宠物水族 个性定制 成人用品 --大类--: 本地生活 生活超市 生活服务 订餐服务 餐饮美食 卡券消费 电影演出 面包蛋糕 休闲娱乐 --大类--: 虚拟 淘宝网厅 淘宝游戏 淘宝旅行 淘宝保险
转载于:.html
更多推荐
BeatifuSoup获取淘宝商品分类
发布评论