pyhton爬虫(11)——抓取亚马逊商品类别信息

编程入门 行业动态 更新时间:2024-10-15 14:17:00

pyhton爬虫(11)——抓取<a href=https://www.elefans.com/category/jswz/34/1769528.html style=亚马逊商品类别信息"/>

pyhton爬虫(11)——抓取亚马逊商品类别信息

本文主要提取亚马逊23个大类254个小类类别名称链接,后面会在此基础之上进一步提取各个类别下的商品详情信息

实现代码如下所示:

# -*- coding: utf-8 -*-
"""
Created on Mon Jul 31 15:48:24 2017@author: Administrator
"""import urllib.request
from bs4 import BeautifulSoup
import pymysql.cursorsurl = '=nav_shopall_btn'
#读取网页信息
html1 = urllib.request.urlopen(url).read()
html1 = str(html1)'''
Amazon商品类别列表可分为4大区块、23个大类,每个大类下面又包含若干小类,
在提取信息时,注意分层分步进行
'''
soup1 = BeautifulSoup(html1,'lxml')
result1 = soup1.find_all(attrs={"class":"a-column a-span3 fsdColumn fsdColumn_3"})
k = 1
for i in range(0,4):#print(result1[0])result2 = result1[i]result2 = str(result2)soup21 = BeautifulSoup(result2,'lxml')result21 = soup21.find_all("a")for content in result21:#提取商品小类目名称和链接categoryName = content.stringprint("类别{}为:{}".format(k,categoryName))categoryLink = "" + content['href']print("链接为:{}".format(categoryLink))k = k + 1'''数据库操作'''#获取数据库链接connection  = pymysql.connect(host = 'localhost',user = 'root',password = '123456',db = 'amazon',charset = 'utf8mb4')try:#获取会话指针with connection.cursor() as cursor:#创建sql语句sql = "insert into `categoryinfo` (`categoryName`,`categoryLink`) values (%s,%s)"#执行sql语句cursor.execute(sql,(categoryName,categoryLink))#提交数据库connectionmit()finally:connection.close()

运行结果如下图所示:

更多推荐

pyhton爬虫(11)——抓取亚马逊商品类别信息

本文发布于:2024-02-06 23:48:41,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1751848.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:亚马逊   爬虫   类别   商品   信息

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!