pycharm中python爬取知网论文信息并保存在Excel中(1)

编程入门 行业动态 更新时间:2024-10-09 04:25:22

pycharm中python爬取知网论文信息<a href=https://www.elefans.com/category/jswz/34/1767005.html style=并保存在Excel中(1)"/>

pycharm中python爬取知网论文信息并保存在Excel中(1)

#C:\Users\Dell\PycharmProjects\scratch_one\20200208_paper.xlsx最终输出文件的地址import requests
from bs4 import BeautifulSoup
from openpyxl import workbook  # 写入Excel表所用
#from openpyxl import load_workbook  # 读取Excel表所用if __name__=="__main__":#  创建Excel表并写入数据ws = []  # 全局工作表对象wb = workbook.Workbook()  # 创建Excel对象ws = wb.active  # 获取当前正在操作的表对象ws.append(['标题名', '链接地址', '摘要', '单位—类型—年份—下载次数-被引次数'])     # 往表中写入标题行,以列表形式写入!keywords=input("请输入") #查询的主题 ,引号内容根据需要修改target='.aspx?q='+str(keywords)+'&rank=relevant&cluster=all&val=CJFDTOTAL&p={}'user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'headers = {'User-Agent':user_agent}for i in range(10):i=i*15 #每页有15篇论文target=target.format(i) #翻页,是在p={}中修改页数链接req=requests.get(url=target)html=req.texthtml=html.replace('<br>',' ').replace('<br/>',' ').replace('/>','>')bf=BeautifulSoup(html,"html.parser")texts=bf.find('div',class_='articles')#查看页面对应的审查元素,标签为articlestexts_div=texts.find_all('div',class_='wz_content')#查看页面对应的审查元素for item in texts_div:item_name=item.find('a').text #标题item_href=item.find('a')['href']#链接网址item_abstract = item.find('span', class_='text').text#摘要item_refer = item.find('span', class_='year-count').text#发表单位、发表类型、发表年份、下载次数_引用次数ws.append([item_name,item_href,item_abstract,item_refer]) #向表格中添加需要的信息wb.save('20200208_paper.xlsx')print("ok")

 

更多推荐

pycharm中python爬取知网论文信息并保存在Excel中(1)

本文发布于:2024-02-12 23:54:27,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1689909.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:并保存   论文   信息   知网   pycharm

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!