admin管理员组文章数量:1619183
原文名称:
Kelly, B., Papanikolaou, D., Seru, A., and Taddy, M., “Measuring Technological Innovation over the Long Run”, NBER Working Paper No. 25266, 2018
原文链接:
Measuring Technological Innovation over the Long Run | NBER
原载于:
【MLinEcon文献推送20】文本方法衡量技术革新
01 引言
背景:1.美国的人均实际产出增长超出生产投入的增长,归因于生产率的提高,然而近几十年生产率的增长似乎在放缓。同时,各企业再生产率上也存在很大而持久的差异。2.技术进步的程度难以度量,所以只能构建与之相关的指标,这些指标需要在很长一段时间中可用且可比较。3.专利统计可以是一个很好的切入点。
传统的方法是通过引文数据来确定专利的创新性,但是引文数据并不是持续可用的。所以这篇文章利用文本分析中文本相似性的测量方法,构建每个新发明的专利和与现有和后续专利之间的联系。将重要(高质量)的专利识别为其内容与之前的专利不同(是新颖的),但与未来的专利相似(是有影响的)。
全文中,首先对专利相似性和专利重要性的指标构建进行了介绍,然后对这些指标进行实证检验,包括以下三个方面:首先,确定了一份重要专利清单,并检查它们在质量指标方面的得分情况。其次,将质量衡量指标与专利引证联系起来,这是创新文献中衡量专利质量的常用指标。最后,我们检查我们的质量指标和市场价值之间的相关性。然后还进行了长期创新的衡量,以及创新和测量生产力的联系。
02 数据的来源
1、数据搜集
1976年开始的专利数据来自美国专利商标局,1976年后的数据来自谷歌。
2、文本数据转为数字数据
将专利的文本内容转换为数字数据进行统计分析。使用 NLTK Python工具包将每项专利的 "摘要"、"权利要求 "和 "描述 "部分解析为单个术语。将所有非单词文本元素,如标点符号、数字和 HTML 标签剥离出来,并将所有大写字母转换为小写字母。接下来,删除了947个 "停顿词 "的所有出现,其中包括介词、代词和其他几乎没有语义内容的词。为了减少分析的负担,降低文本数据的稀疏性。他们排除了样本中900多万件专利中出现次数少于20次的术语。这样就排除了33,954,834个术语,最终形成1,685,416个术语的词典。
将文本转换为文件术语矩阵。(DTM),记为 C。C 的列对应词,行对应专利。C 中的每一个元素,用 Cpw 表示,计算一个给定的单字短语(以 w 为索引)在一个特定的专利(以 p 为索引)中的使用次数。
03 专利相似性的定义
用 TF-IDF 算法,"词频"(TF)和"
版权声明:本文标题:【笔记】基于TF-IDF 算法的文本相似度以衡量技术革新 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dianzi/1728791864a1173782.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论