特征提取方法

编程入门 行业动态 更新时间:2024-10-09 09:14:08

<a href=https://www.elefans.com/category/jswz/34/1769701.html style=特征提取方法"/>

特征提取方法

Model

优点

不足

Weighted Words

·易于计算

·易于计算文档间相似度

·提取说明性词汇的basic metric

·可以处理未知词

·不能捕获词语位置信息(句法)

·不能捕获词语意义(语义)

·常用词影响结果(am, is)

TF-IDF

·易于计算

·易于计算文档间相似度

·提取说明性词汇的basic metric

·常用词不影响结果

·不能捕获词语位置信息(句法)

·不能捕获词语意义(语义)

Word2Vec

(Google, 2013)

·可以捕获词语位置信息(句法)

·可以捕获词语意义

·不能捕获词语多义性

·不能捕获语料库外的词汇

GloVe(Pre-Trained)

·可以捕获词语位置信息(句法)

·可以捕获词语意义

·在大规模语料库上训练

·不能捕获词语多义性

·不能捕获语料库外的词汇

·内存开销大

GloVe(Trained)

(stanford, 2014)

·词向量可快速捕获向量空间中的次线性关系(性能优于Word2vec)

·常用词权重低

·不能捕获词语多义性

·不能捕获语料库外的词汇

·内存开销大

·需要大规模语料库用语训练

FastText

(facebook, 2016)

·可以处理稀有词

·利用字符级别n-gram处理语料库外的词语

·不能捕获词语多义性

·内存开销大

·相比GloVe和Word2Vec,计算成本高

Contextualized

Word

Representations

(ELMo, NAACL18 Best Paper, 2018)

·可以捕获单词在文中的含义(结合上下文,处理一词多义)

·内存开销大

·显著提高下游任务性能,但计算成本高

·LSTM和feedforward layers需要额外word embedding

·不能捕获语料库外的词汇

·只处理句子或文本级别

更多推荐

特征提取方法

本文发布于:2024-02-14 09:17:04,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1762608.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:特征   方法

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!