admin管理员组

文章数量:1619183

原文名称:

Kelly, B., Papanikolaou, D., Seru, A., and Taddy, M., “Measuring Technological Innovation over the Long Run”, NBER Working Paper No. 25266, 2018

原文链接:

Measuring Technological Innovation over the Long Run | NBER

原载于:

【MLinEcon文献推送20】文本方法衡量技术革新

01 引言

        背景:1.美国的人均实际产出增长超出生产投入的增长,归因于生产率的提高,然而近几十年生产率的增长似乎在放缓。同时,各企业再生产率上也存在很大而持久的差异。2.技术进步的程度难以度量,所以只能构建与之相关的指标,这些指标需要在很长一段时间中可用且可比较。3.专利统计可以是一个很好的切入点。

       传统的方法是通过引文数据来确定专利的创新性,但是引文数据并不是持续可用的。所以这篇文章利用文本分析中文本相似性的测量方法,构建每个新发明的专利和与现有和后续专利之间的联系。将重要(高质量)的专利识别为其内容与之前的专利不同(是新颖的),但与未来的专利相似(是有影响的)。

       全文中,首先对专利相似性和专利重要性的指标构建进行了介绍,然后对这些指标进行实证检验,包括以下三个方面:首先,确定了一份重要专利清单,并检查它们在质量指标方面的得分情况。其次,将质量衡量指标与专利引证联系起来,这是创新文献中衡量专利质量的常用指标。最后,我们检查我们的质量指标和市场价值之间的相关性。然后还进行了长期创新的衡量,以及创新和测量生产力的联系。

02 数据的来源

1、数据搜集

       1976年开始的专利数据来自美国专利商标局,1976年后的数据来自谷歌。

2、文本数据转为数字数据

       将专利的文本内容转换为数字数据进行统计分析。使用 NLTK Python工具包将每项专利的 "摘要"、"权利要求 "和 "描述 "部分解析为单个术语。将所有非单词文本元素,如标点符号、数字和 HTML 标签剥离出来,并将所有大写字母转换为小写字母。接下来,删除了947个 "停顿词 "的所有出现,其中包括介词、代词和其他几乎没有语义内容的词。为了减少分析的负担,降低文本数据的稀疏性。他们排除了样本中900多万件专利中出现次数少于20次的术语。这样就排除了33,954,834个术语,最终形成1,685,416个术语的词典。

        将文本转换为文件术语矩阵。(DTM),记为 C。C 的列对应词,行对应专利。C 中的每一个元素,用 Cpw 表示,计算一个给定的单字短语(以 w 为索引)在一个特定的专利(以 p 为索引)中的使用次数。

03 专利相似性的定义

        用 TF-IDF 算法,"词频"(TF)和"

本文标签: 算法技术革新文本笔记IDF