文本摘要(text summarization)五: 统计模型（text

编程入门行业动态更新时间:2024-10-10 03:23:00

文本摘要(text summarization)五: 统计<a href=https://www.elefans.com/category/jswz/34/1771358.html style= 模型（text"/>

文本摘要(text summarization)五: 统计模型（text

一、文本摘要（统计模型)

统计模型（feature base）是深度学习兴起之前，最有效果，应用最广泛的文本摘要技术方案。统计学习方法，即便是在今天，基于统计的文本摘要模型，也是一个重要的baseline，以及高并发复杂条件下的有效算法。

应用比较多的应该是text teaser(Automatic Text Summarization for Indonesian Language Using TextTeaser(2013))，以及早年比较出名的text pronouns(Sentence Extraction Based Single Document Summarization(2005)）等。

github项目地址:

二、文本摘要之text_teaser

text teaser算法，这是一篇2013年的paper提出的。让人诧异的是，作者居然是印度尼西亚和沙特阿拉伯的。不过瞅一瞅文章的标题，也就能明白了，Automatic Text Summarization for Indonesian Language Using TextTeaser，研究的是印尼语。

这篇论文把几种常见的特征用于计算抽取式文本摘要，突出的特点在于其对文章标题的极度重视。论文中这样提及：“通过对文章标题特征、句子长度、句子位置、关键词频率等四个因素的计算，得出了最佳得分句子。”

抽取的特征有：

1. 文章标题特征：(当前句子与文章标题词语的交集) 除以 (文章标题的词语的个数)

2. 句子长度: 以一个标准长度为基准，约大于或者小于该标准长度，得分越低；

3. 句子位置: 用的是别人家的数据标准，句子在句首、句中、句末等不同位置都有不同固定的得分，以比率计算；

4.1 关键词权重：首先取去全文中除停用词后词频最高的10个词作为关键词，关键词频率+出现该词的句子条数；

4.2 句中关键词密度(DBS)：(两个关键词权重乘积) 除以 (两个关键词间的长度距离的平方) 除以 (关键词个数的平方)；

4.3 句中关键词权重(SBS)：[开 (所有关键词权重的x次方相加) x次方] 除以 (句子中词语个数)；

4.句子中关键词重要性: (DBS+SBS) / 20

三、文本摘要之text_pronouns

text pronouns，是2003年发表的一篇paper，Sentence Extraction Based Single Document Summarization(2005)。主要讲的是如何构建一些抽取式但文本摘要特征等，同时给出文本摘要系统的一般构建流程、通用方案等。在github和百度上搜索没有发现实现方案，自己实现了一个。

论文中提出的特征，包括句子级别(sentence)和词语级别(word):

3.1 句子级别：

1. 句子位置；

2. 是否有动词，这是构成摘要句子句式的重要特征；

3. 句子中出现的指代词是专有名词的情况；

4. 句子长度

3.2 词语级别：

1. 字、词，尤其是专有名词的频率，可以考虑n-gram特征；

2. 平均单词(词语)长度；

3. 词语标签，如词性、依存句法等；

4. 词语权重，wordnet等；

5. 命名实体NE;