文档集数据处理 gensim corpora.Dictionary

编程入门 行业动态 更新时间:2024-10-27 22:33:05

文档<a href=https://www.elefans.com/category/jswz/34/1760048.html style=集数据处理 gensim corpora.Dictionary"/>

文档集数据处理 gensim corpora.Dictionary

gensim是一个python的自然语言处理库,能够将文档根据TF-IDF, LDA, LSI 等模型转化成向量模式,以便进行进一步的处理。此外,gensim还实现了word2vec功能,能够将单词转化为词向量。


1. corpora 和 dictionary

  • 基本概念和用法:

   corpora是gensim中的一个基本概念,是文档集的表现形式,也是后续进一步处理的基础。从本质上来说,corpora其实是一种格式或者说约定,其实就是一个二维矩阵。在实际运行中,因为单词数量极多(上万甚至10万级别),而一篇文档的单词数是有限的,所以如果还是采用密集矩阵来表示的话,会造成极大的内存浪费,所以gensim内部是用稀疏矩阵的形式来表示的。 

  • 包名
from gensim import corpora
from collections import defaultdict

2. 词典操作

  将文档分割成词语之后,使用dictionary = corpora.Diction

更多推荐

文档集数据处理 gensim corpora.Dictionary

本文发布于:2023-06-13 04:33:03,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/674174.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:集数   文档   gensim   corpora   Dictionary

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!