通过Python对各个页面链接的有效爬取

编程入门行业动态更新时间:2024-10-24 21:25:16

通过Python对各个<a href=https://www.elefans.com/category/jswz/34/1771336.html style= 页面链接的有效爬取"/>

通过Python对各个页面链接的有效爬取

前面提到过关于某一页信息的如何爬取，但是我想爬取在下一页面的信息怎么爬取？

我不能通过打开下一页，然后获取下一页的网址在通过python爬取吧，这样就和爬取第一页没有什么区别了。有没有办法直接爬取下一页的链接然后get到你获取的url在爬取信息呢？

刚开始我想到用正则表达式来匹配各个页面的链接地址，但是可能我的idle版本问题或者别的问题（我也没有解决），总之不能通过。

于是我就想先爬取这一部分所有页面的所有链接，然后找出你要的页面链接，所以就用到了列表。

import requests
>>> from bs4 import BeautifulSoup
>>> url ='.html'
>>> res=requests.get(url)
>>> res.encoding='utf-8'
>>> soup = BeautifulSoup(res.text, 'html.parser')
>>> for news in soup.select('.pagination'):
h2=news.select('li')
if len(h2)>0:
a=h2[13].select('a')[0]['href'] #因为下一页的符号‘’》‘’对应的链接在存链接的列表里是第13个。

但是这样爬取下来后的链接不是有效链接：appdingzhikaifa/sq10054601k49.html

它是以这种形式存在的，我们不能直接在网页中打开它，因为它是存在于你首页链接之下的，我们发现，它差了个‘’这样我们就可以加上：

base_url=''
>>> url1=base_url+a

然后我要爬取这新一页的所需要的信息就很OK了。附上我爬.html这个网站第二页所有店家的公司名的完整代码：

.
>>> import requests
>>> from bs4 import BeautifulSoup
>>> url ='.html'
>>> res=requests.get(url)
>>> res.encoding='utf-8'
>>> soup = BeautifulSoup(res.text, 'html.parser')
>>> for news in soup.select('.pagination'):
h2=news.select('li')
if len(h2)>0:
a=h2[13].select('a')[0]['href']

>>> base_url=''
>>> url1=base_url+a
>>> import selenium.webdriver as webdriver
>>> driver=webdriver.Chrome()
>>> driver.get(url1)
>>> results = driver.find_elements_by_xpath("//div[@class='witkey-name j-witkey-name']/a")
>>> count =0
>>> res=[]
>>> for result in results:
if result.text not in res:
res.append(result.text)

>>> for r in res:
s=r.encode("gbk")
print s

下面是结果：

百夫信息技术深圳有限公司
萨孚凯中国
牛星雨互联
拓研网络传媒
广州源众信息科技
新鲜在线
北京三才科技有限公司
千翼科技
腾博营销推广旗舰店
内圈
圣尊科技
德菁科技
山东千度科技
晟轩科技
天迅达科技
品睿科技
杭州盈软科技有限公司
小月科技
尚泽网络旗舰店
北京海博远创
长春市皓烨文化发展有限公...
将军山科技
人马网络
商宇软件
成都喜来达科技
杭州点软网络科技有限公司
北京明创
雷铭智信
言龙科技
旺合盛世科技
亚乐恒技术科技
尚软科技
九零后网络科技
上海汉呈信息科技有限公司
龙投科技
上海优翰信息科技有限公司
速翔网络
青云博美
上海派匠网络
瑞之雪网络科技有限公司
通彩网络科技有限公司
南京燃网络科技有限公司
励承科技-网站建设，微信...
懂企网络