Dictionary 去除某个词 gensim.corpora.dictionary.Dictionary"/>
gensim Dictionary 去除某个词 gensim.corpora.dictionary.Dictionary
背景问题:
lda数据处理过程中,分词后的list需要去除停用词list,不想用set,这样会损失词反复出现的次数,也不想用循环,效率太慢。发现如果dictionary没有停用词,就不会对停用词做记录… …
dictionary = corpora.Dictionary(title['去除停用词'].to_list()) # 给每个词一个编号
dictionary.doc2bow(title['分词'])
换个思路,不要添加某个词。
用去除停用词后的词来预测,然后用刚分词的list来 dictionary.doc2bow
更多推荐
gensim Dictionary 去除某个词 gensim.corpora.dictionary.Dictionary
发布评论