文本摘要(text summarization)五: 统计模型(text

编程入门 行业动态 更新时间:2024-10-10 03:23:00

文本摘要(text summarization)五: 统计<a href=https://www.elefans.com/category/jswz/34/1771358.html style=模型(text"/>

文本摘要(text summarization)五: 统计模型(text

一、文本摘要(统计模型)

        统计模型(feature base)是深度学习兴起之前,最有效果,应用最广泛的文本摘要技术方案。统计学习方法,即便是在今天,基于统计的文本摘要模型,也是一个重要的baseline,以及高并发复杂条件下的有效算法。

        应用比较多的应该是text teaser(Automatic Text Summarization for Indonesian Language Using TextTeaser(2013)),以及早年比较出名的text pronouns(Sentence Extraction Based Single Document Summarization(2005))等。

        github项目地址:

二、文本摘要之text_teaser

        text teaser算法,这是一篇2013年的paper提出的。让人诧异的是,作者居然是印度尼西亚和沙特阿拉伯的。不过瞅一瞅文章的标题,也就能明白了,Automatic Text Summarization for Indonesian Language Using TextTeaser,研究的是印尼语。

        这篇论文把几种常见的特征用于计算抽取式文本摘要,突出的特点在于其对文章标题的极度重视。论文中这样提及:“通过对文章标题特征、句子长度、句子位置、关键词频率等四个因素的计算,得出了最佳得分句子。”

        抽取的特征有:

                1.  文章标题特征:(当前句子与文章标题词语的交集) 除以 (文章标题的词语的个数)

                2.  句子长度: 以一个标准长度为基准,约大于或者小于该标准长度,得分越低;

                3.  句子位置: 用的是别人家的数据标准,句子在句首、句中、句末等不同位置都有不同固定的得分,以比率计算;

                4.1  关键词权重:首先取去全文中除停用词后词频最高的10个词作为关键词,关键词频率+出现该词的句子条数;

                4.2  句中关键词密度(DBS):(两个关键词权重乘积) 除以 (两个关键词间的长度距离的平方) 除以 (关键词个数的平方);

                4.3  句中关键词权重(SBS):[开 (所有关键词权重的x次方相加) x次方] 除以 (句子中词语个数);

                4.句子中关键词重要性: (DBS+SBS) / 20

 

三、文本摘要之text_pronouns

        text pronouns,是2003年发表的一篇paper,Sentence Extraction Based Single Document Summarization(2005)。主要讲的是如何构建一些抽取式但文本摘要特征等,同时给出文本摘要系统的一般构建流程、通用方案等。在github和百度上搜索没有发现实现方案,自己实现了一个。

        论文中提出的特征,包括句子级别(sentence)和词语级别(word):

        3.1  句子级别:

                1.  句子位置;

                2.  是否有动词,这是构成摘要句子句式的重要特征;

                3.  句子中出现的指代词是专有名词的情况;

                4.  句子长度

        3.2  词语级别:

                1.  字、词,尤其是专有名词的频率,可以考虑n-gram特征

                2.  平均单词(词语)长度;

                3.  词语标签,如词性、依存句法等;

                4.  词语权重,wordnet等;

                5.  命名实体NE;

                6.  出现在标题、副标题的词语;

                7.  词语印刷格式,大小写等。

 

希望对你有所帮助!

更多推荐

文本摘要(text summarization)五: 统计模型(text

本文发布于:2024-03-05 09:40:58,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1711945.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:模型   摘要   文本   text   summarization

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!