模型(text"/>
文本摘要(text summarization)五: 统计模型(text
一、文本摘要(统计模型)
统计模型(feature base)是深度学习兴起之前,最有效果,应用最广泛的文本摘要技术方案。统计学习方法,即便是在今天,基于统计的文本摘要模型,也是一个重要的baseline,以及高并发复杂条件下的有效算法。
应用比较多的应该是text teaser(Automatic Text Summarization for Indonesian Language Using TextTeaser(2013)),以及早年比较出名的text pronouns(Sentence Extraction Based Single Document Summarization(2005))等。
github项目地址:
二、文本摘要之text_teaser
text teaser算法,这是一篇2013年的paper提出的。让人诧异的是,作者居然是印度尼西亚和沙特阿拉伯的。不过瞅一瞅文章的标题,也就能明白了,Automatic Text Summarization for Indonesian Language Using TextTeaser,研究的是印尼语。
这篇论文把几种常见的特征用于计算抽取式文本摘要,突出的特点在于其对文章标题的极度重视。论文中这样提及:“通过对文章标题特征、句子长度、句子位置、关键词频率等四个因素的计算,得出了最佳得分句子。”
抽取的特征有:
1. 文章标题特征:(当前句子与文章标题词语的交集) 除以 (文章标题的词语的个数)
2. 句子长度: 以一个标准长度为基准,约大于或者小于该标准长度,得分越低;
3. 句子位置: 用的是别人家的数据标准,句子在句首、句中、句末等不同位置都有不同固定的得分,以比率计算;
4.1 关键词权重:首先取去全文中除停用词后词频最高的10个词作为关键词,关键词频率+出现该词的句子条数;
4.2 句中关键词密度(DBS):(两个关键词权重乘积) 除以 (两个关键词间的长度距离的平方) 除以 (关键词个数的平方);
4.3 句中关键词权重(SBS):[开 (所有关键词权重的x次方相加) x次方] 除以 (句子中词语个数);
4.句子中关键词重要性: (DBS+SBS) / 20
三、文本摘要之text_pronouns
text pronouns,是2003年发表的一篇paper,Sentence Extraction Based Single Document Summarization(2005)。主要讲的是如何构建一些抽取式但文本摘要特征等,同时给出文本摘要系统的一般构建流程、通用方案等。在github和百度上搜索没有发现实现方案,自己实现了一个。
论文中提出的特征,包括句子级别(sentence)和词语级别(word):
3.1 句子级别:
1. 句子位置;
2. 是否有动词,这是构成摘要句子句式的重要特征;
3. 句子中出现的指代词是专有名词的情况;
4. 句子长度
3.2 词语级别:
1. 字、词,尤其是专有名词的频率,可以考虑n-gram特征;
2. 平均单词(词语)长度;
3. 词语标签,如词性、依存句法等;
4. 词语权重,wordnet等;
5. 命名实体NE;
6. 出现在标题、副标题的词语;
7. 词语印刷格式,大小写等。
希望对你有所帮助!
更多推荐
文本摘要(text summarization)五: 统计模型(text
发布评论