python爬虫获取腾讯在线文档内容|电子爱好者

admin管理员组
文章数量:1564167

声明

本文讲述使用python爬虫下载腾讯文档中的Excel数据，希望这次经验分享对大家在使用网络爬虫时有所帮助。记住，合理、安全地使用网络爬虫才能更好地获取所需数据，同时也维护了互联网生态的健康发展。让我们共同努力，让网络爬虫成为推动信息获取和知识传播的强大工具！

一、数据准备

一共需要准备三个参数：document_url、document_pad_id、cookie_str

1、文档的URL：document_url

如图所示，获取想要下载的url信息

2、获取document_pad_id

如图获取对应的padid值

3、获取cookie_str

如图获取自己的cookie，选中复制。

二、完整代码

import time
from datetime import datetime
import requests

class getTengXunDoc:

    def __init__(self, document_url, document_pad_id, cookie_str):
        # 腾讯在线文档的地址
        self.document_url = document_url
        # 每个腾讯在线文档有一个唯一的值,需要手动获取（上述步骤中有提及）
        self.document_pad_id = document_pad_id
        self.headers = {
            "content-type": "application/x-www-form-urlencoded",
            "Cookie": cookie_str,
        }

    # 获取操作ID
    def getOperationId(self, export_excel_url):
        body = {"docId": self.document_pad_id, "version": "2"}

        res = requests.post(
            url=export_excel_url, headers=self.headers, data=body, verify=False
        )
        operation_id = res.json()["operationId"]
        return operation_id

    def ExcelDownload(self, check_progress_url, file_name):
        # 拿到下载excel文件的url
        start_time = time.time()
        file_url = ""
        while True:
            res = requests.get(
                url=check_progress_url, headers=self.headers, verify=False
            )
            progress = res.json()["progress"]
            if progress == 100:
                file_url = res.json()["file_url"]
                break
            elif time.time() - start_time > 30:
                print("准备超时,请排查")
                break
        if file_url:
            self.headers["content-type"] = "application/octet-stream"
            res = requests.get(url=file_url, headers=self.headers, verify=False)
            with open(file_name, "wb") as f:
                f.write(res.content)
            print("下载成功,文件名: " + file_name)
        else:
            print("下载文件地址获取失败, 下载excel文件不成功")


if __name__ == '__main__':
    # 数据准备步骤一获取
    document_url = 'https://docs.qq/sheet/DVnN2VFpJYkxmeWtV'
    # 数据准备步骤二获取
    document_pad_id = '300000000$VsvTZIbLfykU'
    # 数据准备步骤三获取
    cookie_str = '自己的cookie'
    tx = getTengXunDoc(document_url, document_pad_id, cookie_str)
    # # 导出文件任务url
    export_excel_url = f'https://docs.qq/v1/export/export_office'
    # 获取导出任务的操作id，
    operation_id = tx.getOperationId(export_excel_url)

    check_progress_url = f'https://docs.qq/v1/export/query_progress?operationId={operation_id}'
    current_datetime = datetime.strftime(datetime.now(), '%Y_%m_%d_%H_%M_%S')
    file_name = f'{current_datetime}.xlsx'
    # 下载文件
    tx.ExcelDownload(check_progress_url, file_name)

如果我的文章对你有帮助，感谢你点的关注~

本文标签：在线爬虫腾讯文档内容

版权声明：本文标题：python爬虫获取腾讯在线文档内容内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1727423844a1113865.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

腾讯企业邮箱、网易企业邮箱、gamail企业邮箱、TOM企业邮箱测评

1天前

这几年用企业邮箱的越来越多了，有一个企业自己的邮箱后缀，有助于企业树立鲜明统一的企业形象，客户觉得你专业会更快的促进成交。常见的企业邮箱品牌如腾讯企业邮箱、网易企业邮箱、ga

html调用腾讯地图定位当前位置,vue web项目中调用腾讯地图API获取当前位置的经纬度...

1天前

vue web项目中调用腾讯地图API获取当前位置的经纬度 vue web项目中调用腾讯地图API获取当前位置的经纬度在main.js 中添加一下代码 import axios from 'axios' axios.d

【php】如何配置自主域名腾讯企业邮箱

1天前

腾讯企业邮配置protocal sslsmtp port 465host smtp.exmail.qquser email accountpasswd email passwd 转载于:https:wwwblogschina-flin

台式计算机电源机箱维修,在线维修站电脑突然开不了机该怎么办

1天前

1电脑突然开不了机该怎么办星期一，办公室的气氛格外低迷，周围的人看起来都没精打采，一个个意兴阑珊。这时，隔壁工位的女神突然抓狂了起来。为何&#

百度蜘蛛最新UA及各大搜索引擎蜘蛛爬虫UA汇总

23小时前

了解各大搜索引擎蜘蛛爬虫的UA，对我们进行某些程序编写十分有用，例如网页判断客户端来源时，UA是常用的标准之一。 -- 模拟蜘蛛访问百度查看请求响应结果curl --h

使用 CloudFlare 后如何才能不影响搜索引擎蜘蛛爬虫

23小时前

今天，明月给大家再次详细讲解一下，明月在使用 CloudFlare 后如何才能不影响搜索引擎蜘蛛爬虫对站点的抓取，因为这是很多首次使用 CloudFlare 的站长们容易忽略和触犯的问题，并不是 CloudFlare 不友好，而是 Clou

威胁情报大会直击 | 企业IT部王森：腾讯企业终端安全管理最佳实践

15小时前

8月29日，2018网络安全分析与情报大会在北京新云南皇冠假日酒店正式开幕，本次大会由国内威胁情报领军企业微步在线主办，十数位来自政府、央企、金融、互联网等一线公司的安全专家

专为安全讯飞输入法联手腾讯御安全提升体验

12小时前

专为安全讯飞输入法联手腾讯御安全提升体验随着移动应用持续爆发式增长，安全问题呈现愈演愈烈的态势。据中国互联网信息中心(CNNIC)发布的第39次《中国互联网络发展状况统计报告》称，我国移动互联网

[MFC]后台获取讯飞语音输入法内容

11小时前

做语音识别项目，不想购买讯飞的语音识别套餐（就是想BAI PIAO）。于是对讯飞输入法的语音部分打起了主意。开始的时候尝试了访问剪切板，发现语音输入不会

附上解决迅雷9及迅雷极速版任何资源下载任务出错、内容违规问题

9小时前

C:WindowsSystem32driversetchosts 用记事本打开屏蔽掉域名127.0.0.1 hub5btmain.sandai127.0.0.1 hub5emu.sandai127.0.0.1 upgrade.xl

如何关闭计算机的wps云文档,怎么把wps云文档关掉

6小时前

1. 怎么把WPS云文档,自动上传给关闭以WPS2019版为例 1、打开文件，选择工具菜单栏中的备份中心。 2、在备份中心界面选择云端备份，关闭「自动备份」即可。 2. 如何关闭wps offi

怎样删除我的电脑里的wps云文档图标？

6小时前

怎样删除我的电脑里的wps云文档图标？ winr输入regedit 打开注册表，找到如下项目 HKEY_CURRENT_USERSoftwareMicrosoftWindowsCur

使用Xshell 6连接腾讯云

6小时前

使用Xshell 6连接控制腾讯云。Xshell其中一个优点在于能够右键进行复制粘贴。 1. 下载安装 XShell 6下载地址：http:xiazai.xshellcntrialXshell-6.0.0086_yy.exe

如何使用腾讯云存储图片

6小时前

一、图片存储方案介绍 1.存到自己公司购买的服务器上优点： 好控制缺点成本高由于图片都存放到自己的服务器上，占据空间很大 2. 存到三方云服务器（阿里云&

游戏盒子系统(源码+mysql+文档)

5小时前

本系统（程序源码）带文档lw万字以上文末可领取本课题的JAVA源码参考系统程序文件列表系统的选题背景和意义选题背景： 在数字媒体和互联网技术飞速发展的今天&a

在线Photoshop ps网页图片处理PHP源码

3小时前

介绍： 设计PS是一款专业精简的在线ps图片处理软件，免下载、免安装，直接在浏览器打开网页版就可随时随地用它修正，调整和美化您的图片。网盘下载地址&

还在一直使用Photoshop吗？在线PS处理图片更简单方便

3小时前

很多人拍照都会想要精修一下，为了更好看的展现在别人面前，所以就有了所谓的“照骗”，一般专业一点的都会使用PS来修图片，但是平时软件有需要下载&#

可以在线ps的网站，相当于在线的photoshop

3小时前

推荐一个免费在线流程图、思维图的网站：ProcessOn思维导图、流程图-思维导图模板_思维导图软件免费下载_在线作图协作工具 ps网站地址：稿定图片编辑网页版_在线制作图片工具_批量改图软件

【python实现网络爬虫（19）】Mac端selemium的使用，谷歌浏览器驱动的下载与安装

1小时前

如果是Windows操作系统，请转到这个链接windows端selenium的使用 Mac端selemium的使用，谷歌浏览器驱动的下载与安装 1. 前期准备2. 安装谷歌浏览器驱动3. 驱动安装

电子爱好者 - 最新技术资讯及电子产品介绍！

python爬虫获取腾讯在线文档内容

目录

声明

一、数据准备

1、文档的URL：document_url

2、获取document_pad_id

3、获取cookie_str

二、 完整代码

更多相关文章

腾讯企业邮箱、网易企业邮箱、gamail企业邮箱、TOM企业邮箱测评

html调用腾讯地图定位当前位置,vue web项目中调用腾讯地图API获取当前位置的经纬度...

【php】如何配置自主域名腾讯企业邮箱

台式计算机电源机箱维修,在线维修站 电脑突然开不了机该怎么办

百度蜘蛛最新UA及各大搜索引擎蜘蛛爬虫UA汇总

使用 CloudFlare 后如何才能不影响搜索引擎蜘蛛爬虫

威胁情报大会直击 | 企业IT部王森：腾讯企业终端安全管理最佳实践

推荐三个快速在线生成微信跳转手机浏览器api接口的平台

专为安全讯飞输入法联手腾讯御安全提升体验

[MFC]后台获取讯飞语音输入法内容

附上解决迅雷9及迅雷极速版任何资源下载任务出错、内容违规问题

如何关闭计算机的wps云文档,怎么把wps云文档关掉

怎样删除我的电脑里的wps云文档图标？

使用Xshell 6连接腾讯云

如何使用腾讯云存储图片

游戏盒子系统(源码+mysql+文档)

在线Photoshop ps网页图片处理PHP源码

还在一直使用Photoshop吗？在线PS处理图片更简单方便

可以在线ps的网站，相当于在线的photoshop

【python实现网络爬虫（19）】Mac端selemium的使用，谷歌浏览器驱动的下载与安装

发表评论

推荐文章

如何看待计算机游戏,借电脑给朋友玩游戏，现在电脑坏了，双方推卸责任，你怎么看？...

Big Data and Cognitive Computing (IF=3.7) 计算机大数据人工智能期刊投稿

office 2013出现的各种问题及解决方法（win10 14393版本）

【Chrome】用户可以手动管理和删除第三方Cookie

win7计算机连接xp计算机,将win7计算机连接到xp共享打印机的教程

热门文章

安卓模拟器突然不支持VT打不开模拟器的解决办法

北理工上网linux版本,北理工路由器上网设置指南

win8打开计算机安全模式,让win8系统在打开计算机后直接进入安全模式的方法

电脑提示丢失d3dx11_43.dll如何修复-一键自动修复

5安卓输入法键盘显示 搜索_手机输入法谁更黑科技？讯飞搜狗百度大PK

win10系统下cuda版本检查、cuda安装以及gpu版本的pytorch安装

爬虫python下载电影_python爬虫--爬取某网站电影下载地址

将Kali Linux安装到优盘并实现文件的持久存储(1)

如何远程连接计算机网络打印机,远程打印机共享怎么设置

电脑无法访问共享打印机和文件夹

最新文章

安卓手机WiFi信号桥，增强版个人热点，wifi中继（第三方软件设置）root权限设置增强版个人热点名称密码

Kali Linux基础-抓包与WIFI密码暴力破解

android wifi热点默认名称,Android 修改WiFi热点的默认SSID和密码

W ndows7怎样查看wF密码,Win7秘笈：如何查看系统储存的WiFi密码？

为什么程序员不缺网？三步教你破解WiFi密码，够简单！

教你如何查看连接过的wifi密码

怎么更改wifi频段_我告诉你wifi频段怎么设置

手机怎么看WiFi的IP地址

家里无线网改密码了怎么重新连接服务器,修改了wifi密码手机怎么重新连接 手机怎么修改保存的wifi密码...

怎么用python破解wifi密码？

Android Wifi热点通信，及Android7.0上修改手机连接wifi方法，和其他大神提供的方法稍作修改

kali系统破解wifi密码

【毕业设计】 stm32单片机的远程WIFI密码锁 - 物联网 嵌入式

教你如何更改wifi密码以及防蹭网

查看 WIFI 密码

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

二、完整代码

台式计算机电源机箱维修,在线维修站电脑突然开不了机该怎么办

5安卓输入法键盘显示搜索_手机输入法谁更黑科技？讯飞搜狗百度大PK

家里无线网改密码了怎么重新连接服务器,修改了wifi密码手机怎么重新连接手机怎么修改保存的wifi密码...

【毕业设计】 stm32单片机的远程WIFI密码锁 - 物联网嵌入式

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载