【笔记】基于TF-IDF 算法的文本相似度以衡量技术革新|电子爱好者

admin管理员组
文章数量:1619183

原文名称：

Kelly, B., Papanikolaou, D., Seru, A., and Taddy, M., “Measuring Technological Innovation over the Long Run”, NBER Working Paper No. 25266, 2018

原文链接：

Measuring Technological Innovation over the Long Run | NBER

原载于：

【MLinEcon文献推送20】文本方法衡量技术革新

01 引言

背景：1.美国的人均实际产出增长超出生产投入的增长，归因于生产率的提高，然而近几十年生产率的增长似乎在放缓。同时，各企业再生产率上也存在很大而持久的差异。2.技术进步的程度难以度量，所以只能构建与之相关的指标，这些指标需要在很长一段时间中可用且可比较。3.专利统计可以是一个很好的切入点。

传统的方法是通过引文数据来确定专利的创新性，但是引文数据并不是持续可用的。所以这篇文章利用文本分析中文本相似性的测量方法，构建每个新发明的专利和与现有和后续专利之间的联系。将重要（高质量）的专利识别为其内容与之前的专利不同（是新颖的），但与未来的专利相似（是有影响的）。

全文中，首先对专利相似性和专利重要性的指标构建进行了介绍，然后对这些指标进行实证检验，包括以下三个方面：首先，确定了一份重要专利清单，并检查它们在质量指标方面的得分情况。其次，将质量衡量指标与专利引证联系起来，这是创新文献中衡量专利质量的常用指标。最后，我们检查我们的质量指标和市场价值之间的相关性。然后还进行了长期创新的衡量，以及创新和测量生产力的联系。

02 数据的来源

1、数据搜集

1976年开始的专利数据来自美国专利商标局，1976年后的数据来自谷歌。

2、文本数据转为数字数据

将专利的文本内容转换为数字数据进行统计分析。使用 NLTK Python工具包将每项专利的 "摘要"、"权利要求 "和 "描述 "部分解析为单个术语。将所有非单词文本元素，如标点符号、数字和 HTML 标签剥离出来，并将所有大写字母转换为小写字母。接下来，删除了947个 "停顿词 "的所有出现，其中包括介词、代词和其他几乎没有语义内容的词。为了减少分析的负担，降低文本数据的稀疏性。他们排除了样本中900多万件专利中出现次数少于20次的术语。这样就排除了33,954,834个术语，最终形成1,685,416个术语的词典。

将文本转换为文件术语矩阵。(DTM)，记为 C。C 的列对应词，行对应专利。C 中的每一个元素，用 Cpw 表示，计算一个给定的单字短语（以 w 为索引）在一个特定的专利（以 p 为索引）中的使用次数。

03 专利相似性的定义

用 TF-IDF 算法，"词频"（TF）和"

本文标签：算法技术革新文本笔记 IDF

版权声明：本文标题：【笔记】基于TF-IDF 算法的文本相似度以衡量技术革新内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1728791864a1173782.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【笔记】基于TF-IDF 算法的文本相似度以衡量技术革新

01 引言

02 数据的来源

03 专利相似性的定义

更多相关文章

笔记1（数据集介绍）-THE TUH EEG CORPUS: A Big Data Resource for Automated EEG Interpretation（论文）

论文笔记：Interpretable Convolutional Neural Networks

安装opensuse的笔记-重庆linux开源组织

雷迪司后备式UPS设置Centos Linux服务器停电自动关机（命令行文本界面）

【火炉炼AI】机器学习034-NLP对文本进行分词

论文笔记 | The Fundamental Matrix: Theory, Algorithms, and Stability Analysis

ML笔记-matrix fundamental, Gradient Descent

推荐开源项目：ERFA —— 基础天文学关键算法库

栋的月结 | 第二回合（定期更新、动态、架构、云技术、算法、后端、前端、收听收看、英文、书籍、影视、好歌、新奇）[含泪总结.. 憋泪分享！]

栋的周评 | 第七回合（定期更新、动态、架构、云技术、算法、后端、前端、收听收看、英文、书籍、影视、好歌、新奇）

文本编辑器Typora软件免费版本下载及其用法

推荐文章：重新定义笔记同步——reMarkable OneNote Addin

探索未来数字笔记新境界：draft-reMarkable项目评测与推荐

探索 Awesome reMarkable：开启你的数字笔记新纪元

EMBER-网络安全恶意软件公开数据集，论文的翻译，自己的笔记

论文笔记 | The Political Dynamics of Corporate Tax Avoidance: The Chinese Experience

论文笔记 | The Life Cycle of Corporate Venture Capital

NGCF代码理解（含图片笔记）

论文阅读笔记 1.《Open Flow: Enabling Innovation in Campus Networks》（2022.12.22）

【笔记】基于TF-IDF 算法的文本相似度以衡量技术革新

发表评论

推荐文章

HDS USPV-VSPHP XP24000 Raid崩溃阵列损坏多盘损坏数据恢复方法思路分享

Windows 10 修复计算机,Win10如何修复系统2017

CMS 触发GC(Allocation Failure)解析之标梵信息

Failure recovering jobs: Lock wait timeout exceeded； try restarting transaction

w ndows无法连接到无线网络,windows无法连接到无线网络,详细教您windows无法连接到无线网络怎么办...

热门文章

计算机数据恢复试题,数据恢复试卷含笔答实操题a

几个特别棒的免费可商用字体

Openwrt固件升级步骤

在mysql官网上下载连接的jar包

HDU - 2328 Corporate Identity

未root手机 ida动态调试安卓so文件—— 学习实践 《教我兄弟学Android逆向09 IDA动态破解登陆验证》

学习计算机技术到电脑店可以吗,可如今组装电脑要还是被电脑店给坑了的话，承担80%的被坑责任...

ubuntu18解决屏幕亮度无法调节问题（绝对有效）

js连接蓝牙打印机打印一维码和二维码

明御运维审计与风险控制系统远程桌面（server2012、2016系统）报错error：NLA or TLS security negotiation failure, Please check...

最新文章

linux deploy安装并ssh连接教程

【手把手教你树莓派3 （二）】 启动wifi模块

使用Fluxion搭建钓鱼热点破解WiFi密码

frp内网穿透教程，ssh远程连接，服务自启动

查看自己手机连接过的wifi密码

图文手把手教程--ESP32 MQTT连接阿里云生活物联网平台

海尔随身WiFi型号F231ZC刷机去控过程分享

【微信小程序控制硬件15 】 开源一个微信小程序，支持蓝牙快速配网+WiFi双控制ESP32-C3应用示范；（附带Demo）

PacketTracer模拟器物联网教程3—家庭设备无线连接方法

ESP32-C3入门教程 蓝牙篇②——基于EspBlufiForAndroid极简的Blufi配网Demo

树莓派4b设置WiFi

【一站式教程】精通ESP32：使用VSCode与PlatformIO构建FreeRTOS项目、WIFI网页智能灯控系统、蓝牙、有趣的小功能 — 从轻松入门到项目实战~

ESP32学习笔记----WiFi使用(网页控制)

使用Arduino开发ESP32:wifi基本功能使用

0. 江协科技江科大-STM32入门教程-各章节详细笔记-查阅传送门-STM32标准库开发

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

未root手机 ida动态调试安卓so文件—— 学习实践《教我兄弟学Android逆向09 IDA动态破解登陆验证》

【手把手教你树莓派3 （二）】启动wifi模块

【微信小程序控制硬件15 】开源一个微信小程序，支持蓝牙快速配网+WiFi双控制ESP32-C3应用示范；（附带Demo）

ESP32-C3入门教程蓝牙篇②——基于EspBlufiForAndroid极简的Blufi配网Demo

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载