集数据处理 gensim corpora.Dictionary"/>
文档集数据处理 gensim corpora.Dictionary
gensim是一个python的自然语言处理库,能够将文档根据TF-IDF, LDA, LSI 等模型转化成向量模式,以便进行进一步的处理。此外,gensim还实现了word2vec功能,能够将单词转化为词向量。
1. corpora 和 dictionary
-
基本概念和用法:
corpora是gensim中的一个基本概念,是文档集的表现形式,也是后续进一步处理的基础。从本质上来说,corpora其实是一种格式或者说约定,其实就是一个二维矩阵。在实际运行中,因为单词数量极多(上万甚至10万级别),而一篇文档的单词数是有限的,所以如果还是采用密集矩阵来表示的话,会造成极大的内存浪费,所以gensim内部是用稀疏矩阵的形式来表示的。
- 包名
from gensim import corpora from collections import defaultdict
2. 词典操作
将文档分割成词语之后,使用dictionary = corpora.Diction
更多推荐
文档集数据处理 gensim corpora.Dictionary
发布评论