BeatifuSoup获取淘宝商品分类

编程入门 行业动态 更新时间:2024-10-21 09:29:32

BeatifuSoup获取<a href=https://www.elefans.com/category/jswz/34/1768348.html style=淘宝商品分类"/>

BeatifuSoup获取淘宝商品分类

利用Beautiful Soup模块,

Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。

Beautiful Soup 的中文文档:

.zh.html#Printing%20a%20Document

程序:

#!/usr/bin/env python
#coding=utf-8
import re
import urllib2
from BeautifulSoup import BeautifulSoup
website = raw_input("请输入网址: ")
page = urllib2.urlopen(website).read()
html = BeautifulSoup(page,fromEncoding="gbk")
h = html.body.findAll(repile('h4|h5'))
for i in h:if re.search('h4',str(i)):print '--大类--:',i.stringelif re.search('h5',str(i)):tag = i.contents[0].contents[0]print tag

 运行结果:

请输入网址: .htm
--大类--: 女装男装
女式上装
女式裤子
女式裙子
其他女装
当季男装
男式裤子
男式上装
其他男装
--大类--: 鞋类箱包
春秋女鞋
夏季女鞋
春秋男鞋
夏季男鞋
特色市场
精品女包
精品男包
功能箱包
--大类--: 内衣配饰
内衣分类
内衣品牌
服装配饰
热门搜索
--大类--: 运动户外
运动鞋
运动服
运动包
户外运动用品
运动/瑜伽/健身/球迷用品
--大类--: 珠宝手表
珠宝钻石
品牌手表
流行饰品
其他配饰
--大类--: 数码
手机
相机/DV
笔记本
平板电脑
电脑周边
办公设备
网络存储
数码配件
--大类--: 家电办公
大家电
厨房电器
生活电器
影音电器
护理按摩
家电配件
--大类--: 护肤彩妆
美容护肤
彩妆香水
美发护发
热门品牌
--大类--: 母婴用品
童装
孕妇用品
新生儿
宝宝食品
宝宝用品
儿童玩具
--大类--: 家居建材
家装主材
住宅家具
家居饰品
家纺布艺
五金电工
装修设计
--大类--: 美食特产
休闲零食
营养品
有机食品
粮油米面
茶/饮料
水果蔬菜
--大类--: 日用百货
收纳整理
居家日用
餐饮用具
洗护清洁
成人用品
--大类--: 汽车摩托
汽车用品
摩托车
--大类--: 文化玩乐
书籍杂志
音像影视
乐器
古董收藏
鲜花园艺
宠物水族
个性定制
成人用品
--大类--: 本地生活
生活超市
生活服务
订餐服务
餐饮美食
卡券消费
电影演出
面包蛋糕
休闲娱乐
--大类--: 虚拟
淘宝网厅
淘宝游戏
淘宝旅行
淘宝保险

 

转载于:.html

更多推荐

BeatifuSoup获取淘宝商品分类

本文发布于:2024-03-10 05:08:11,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1727078.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:淘宝   商品分类   BeatifuSoup

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!