朴素贝叶斯中文文本分类python代码|电子爱好者

admin管理员组
文章数量:1629929

'''创建数据集和类标签'''
def loadDataSet():
    docList = [];classList = [] # 文档列表、类别列表
    dirlist = ['C3-Art','C4-Literature','C5-Education','C6-Philosophy','C7-History']
    for j in range(5):
        for i in range(1, 11): # 总共10个文档
            # 切分，解析数据，并归类为 1 类别
            wordList = textParse(open('./fudan/%s/%d.txt' % (dirlist[j],i),encoding='UTF-8').read())
            docList.append(wordList)
            classList.append(j)
            # print(i,'\t','./fudan/%s/%d.txt' % (dirlist[j],i),'\t',j)
    return docList,classList

''' 利用jieba对文本进行分词，返回切词后的list '''
def textParse(str_doc):
    # 正则过滤掉特殊符号、标点、英文、数字等。
    import re
    r1 = '[a-zA-Z0-9’!"#$%&\'()*+,-./:;<=>?@，。?★、…【】《》？“”‘’！[\\]^_`{|}~]+'
    str_doc=re.sub(r1, '', str_doc)

    # 创建停用词列表
    stwlist = set([line.strip() for line in open('./stopwords.txt', 'r', encoding='utf-8').readlines()])
    sent_list = str_doc.split('\n')
    # word_2dlist = [rm_tokens(jieba.cut(part), stwlist) for part in sent_list]  # 分词并去停用词
    word_2dlist = [rm_tokens([word+"/"+flag+" " for word, flag in pseg.cut(part) if flag in ['n','v','a','ns','nr','nt']], stwlist) for part in sent_list] # 带词性分词并去停用词
    word_list = list(itertools.chain(*word_2dlist)) # 合并列表
    return word_list



''' 去掉一些停用词、数字、特殊符号 '''
def rm_tokens(words, stwlist):
    words_list = list(words)
    for i in range(words_list.__len__())[::-1]:
        word = words_list[i]
        if word in stwlist:  # 去除停用词
            words_list.pop(i)
        elif len(word) == 1:  # 去除单个字符
            words_list.pop(i)
        elif word == " ":  # 去除空字符
            words_list.pop(i)
    return words_list

'''获取所有文档单词的集合'''
def createVocabList(dataSet):
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document)  # 操作符 | 用于求两个集合的并集
    # print(len(vocabSet),len(set(vocabSet)))
    return list(vocabSet)

'''文档词袋模型，创建矩阵数据'''
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec

'''朴素贝叶斯模型训练数据优化'''
def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix) # 总文件数
    numWords = len(trainMatrix[0]) # 总单词数

    p1Num=p2Num=p3Num=p4Num=p5Num = ones(numWords) # 各类为1的矩阵
    p1Denom=p2Denom=p3Denom=p4Denom=p5Denom = 2.0 # 各类特征和
    num1=num2=num3=num4=num5 = 0 # 各类文档数目

    pNumlist=[p1Num,p2Num,p3Num,p4Num,p5Num]
    pDenomlist =[p1Denom,p2Denom,p3Denom,p4Denom,p5Denom]
    Numlist = [num1,num2,num3,num4,num5]

    for i in range(numTrainDocs): # 遍历每篇训练文档
        for j in range(5): # 遍历每个类别
            if trainCategory[i] == j: # 如果在类别下的文档
                pNumlist[j] += trainMatrix[i] # 增加词条计数值
                pDenomlist[j] += sum(trainMatrix[i]) # 增加该类下所有词条计数值
                Numlist[j] +=1 # 该类文档数目加1

    pVect,pi = [],[]
    for index in range(5):
        pVect.append(log(pNumlist[index] / pDenomlist[index]))
        pi.append(Numlist[index] / float(numTrainDocs))
    return pVect, pi

'''朴素贝叶斯分类函数,将乘法转换为加法'''
def classifyNB(vec2Classify, pVect,pi):
    # 计算公式  log(P(F1|C))+log(P(F2|C))+....+log(P(Fn|C))+log(P(C))
    bnpi = [] # 文档分类到各类的概率值列表
    for x in range(5):
        bnpi.append(sum(vec2Classify * pVect[x]) + log(pi[x]))
    # print([bnp for bnp in bnpi])
    # 分类集合
    reslist = ['Art','Literature','Education','Philosophy','History']
    # 根据最大概率，选择索引值
    index = [bnpi.index(res) for res in bnpi if res==max(bnpi)]
    return reslist[index[0]] # 返回分类值

'''朴素贝叶斯新闻分类应用'''
def testingNB():
    # 1. 加载数据集
    dataSet,Classlabels = loadDataSet()
    # 2. 创建单词集合
    myVocabList = createVocabList(dataSet)

    # 3. 计算单词是否出现并创建数据矩阵
    trainMat = []
    for postinDoc in dataSet:
        trainMat.append(bagOfWords2VecMN(myVocabList, postinDoc))
    with open('./word-bag.txt','w') as f:
        for i in trainMat:
            f.write(str(i)+'\r\n')
    # 4. 训练数据
    pVect,pi= trainNB0(array(trainMat), array(Classlabels))
    # 5. 测试数据
    testEntry = textParse(open('./fudan/test/C5-1.txt',encoding='UTF-8').read())
    thisDoc = array(bagOfWords2VecMN(myVocabList, testEntry))
    print(testEntry[:10], '分类结果是: ', classifyNB(thisDoc, pVect,pi))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.892 seconds.
Prefix dict has been built succesfully.
['全国/n ', '举办/v ', '电影/n ', '新华社/nt ', '北京/ns ', '国家教委/nt ', '广播电影电视部/nt ', '文化部/n ', '联合/v ', '决定/v '] 分类结果是: Literature
耗时：29.4882 s

结果分析：我们运行分类器得出结果易知，预测结果是文化类，且运行时间为29s。首先分析为什么预测错误，这里面主要是训练集样本比较少和特征选择的原因。运行时间是由于将特征矩阵存储本地后，后面直接读取文本，相当于加载缓存，大大缩短运行时间。但是这里还有值得优化的地方，比如每次运行都会加载训练模型，大大消耗时间，我们能不能训练模型加载一次，多次调用呢？当然是可以的，这个问题下文继续优化。我们重点关注下特征选择问题

特征选择问题讨论

做文本分类的时候，遇到特征矩阵1.5w。在测试篇幅小的文章总是分类错误？这个时候如何做特征选择？是不是说去掉特征集中频率极高和极低的一部分，对结果有所提升？
答：你说的这个情况是很普遍的现象，篇幅小的文章，特征小，所以模型更容易判断出错！去掉高频和低频通常是可以使得训练的模型泛化能力变强
比如：艺术，文化，历史，教育。界限本来就不明显，比如测试数据“我爱艺术，艺术是我的全部”。结果会分类为文化。其实这个里面还有就是不同特征词的权重问题，采用tf-idf优化下应该会好一些？

答：我个人觉得做文本特征提取，还是需要自己去分析文本本身内容的文字特点，你可以把每一类的文本的实体提取出来，然后统计一下每个词在每一类上的数量，看看数量分布，也许可以发现一些数据特点
我就是按照这个思路做的，还有改进时候的停用词，其实可以分析特征文本，针对不同业务，使用自定义的停用词要比通用的好
还有提前各类见最具表征性的词汇加权，凸显本类的权重是吧？
答：比如，艺术类文章中，哪些词出现较多，哪些词出现少，再观察这些词的词性主要是哪些，这样可能会对你制定提取特征规则方式的时候提供一定的思路参考，我可以告诉你的是，有些词绝对会某一类文章出出现多，然后在其他类文章出现很少，这一类的词就是文章的特征词
那样的思路可以是：对某类文章单独构建类内的词汇表再进行选择。最后对类间词汇表叠加就ok了。
答：词汇表有个缺点就是，不能很好的适应新词
改进思路呢
答：我给你一个改进思路：你只提取每个文本中的名词、动词、形容词、地名，用这些词的作为文本的特征来训练试一试，用文本分类用主题模型（LDA）来向量化文本，再训练模型试一试。如果效果还是不够好，再将文本向量用PCA进行一次特征降维，然后再训练模型试一试，按常理来说，效果应该会有提高
还有我之前个人写的程序分类效果不理想，后来改用sklearn内置BN运行依旧不理想。适当改进了特征提取，还是不理想。估计每类10篇文章的训练数据太少了
答：文本本身特征提取就相对难一些，再加上训练数据少，训练出来的模型效果可想而已，正常的

本文标签：中文朴素文本代码贝叶斯

版权声明：本文标题：朴素贝叶斯中文文本分类python代码内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1729056919a1184073.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

朴素贝叶斯中文文本分类python代码

特征选择问题讨论

更多相关文章

Gitlab：GitLab Community Edition 13.7.1中文设置

vscode中文支持xp_在Win10下利用vscode调试32位、16位汇编方法(masm-code + debugger)

界面控件DevExpress WinForm中文教程 - 如何使用模板库构建类Office UI？

[office] 中文Excel 2000建立与使用电子报表的教程 #其他#媒体#笔记

解决word、excel、ppt无法激活问题，Office for Mac最新中文版本安装教程，可用

WIFI密码 两行代码可以找回

计算机蓝屏 代码0000a,win7电脑蓝屏代码显示0x0000001A的解决方法

常见计算机蓝屏代码,老司机教你常见电脑蓝屏代码大全

rhino7.0破解版下载|Rhinoceros 7中文破解版下载(附注册机)

嘿ChatGPT，来帮我写代码

Android Studio快捷键Ctrl + Alt + L 格式化代码Reformat Code不起作用

深度 | 朴素贝叶斯模型算法研究与实例分析

CORD-19数据集以及相关分析代码介绍

朴素贝叶斯中文文本分类python代码

COLING 2022 | CSL-大规模中文科学文献数据集

GAN系列：论文阅读 &amp; 代码阅读——Conditional Generative Adversarial Nets（CGANConditional GAN）

Android应用代码中获取鸿蒙系统信息

鸿蒙系统用没有安卓的代码,如何评价华为高管说10月份鸿蒙几乎不会使用Android和谷歌代码？...

HarmonyOS实战：改造Android项目代码使其可以在鸿蒙项目上运行

鸿蒙系统套用安卓系统,网图暗讽鸿蒙系统是安卓套皮，网友：键盘侠请弄清代码关系...

发表评论

推荐文章

【VScode】vscode中用community server connecttor配置并部署基于Tomcat的Javaweb项目

The GPG keys listed for the “MySQL 8.0 Community Server“ repository are already installed but they a

SEO常用辅助工具整合

Apache Infrastructure Testapp 项目教程

【HarmonyOS NEXT】如何获取手机系统版本和系统名称

热门文章

Linux系统问题记录-开机失败，图形界面打开失败，循环登录错误，数据恢复问题（待解决）

Centos 7 安装MySQL报错：The GPG keys listed for the “MySQL 5.7 Community Server“ repository are

解决linux安装mysql-community-client-5.7.37-1.el7.x86_64的依赖检测失败问题

微信中推广域名被屏蔽（被封、被拦截）了要怎么搞，详谈微信域名防封的注意细节

赛博朋克2077配置要求2022

Infrastructure as Code (IaC)

网络通讯协议术语释义

2024年最全一文彻底了解鸿蒙系统、澎湃系统和安卓系统的区别？_鸿蒙架构图，字节跳动 算法面试题

电视盒子刷鸿蒙系统,家里的智能电视能装鸿蒙系统吗？鸿蒙系统有哪些优势？...

Ubuntu22.04系统安装及开发环境配置

最新文章

为什么ps不能用计算机,电脑ps软件的填充功能无法使用怎么处理

ps软件怎么测试性能,PS运行卡顿怎么办？如何提高PS软件性能？

Linux连接阿里云服务器的一系列命令教程

制作Ubuntu镜像并在虚拟机上安装

黑客初学者入门第一步：有目的第一天｜面向新手教程

PS被禁用——解决PS跳出弹窗提示软件未经授权将被禁用方法

ps手柄震动测试软件,PS3 可实现震动 用PS3手柄连接电脑图文教程 - 电玩巴士

第一次的BLOG

红帽linux系统

Ubuntu 18.04 共享文件夹 与其他系统互传文件

使用ps ai功能电脑配置要求是什么？ps ai beta爱国版最低配置

【CanMV K230】安装使用

linux的系统

centos磁盘安装与磁盘分区方案详解

【学习番外篇2】Ubuntu系统降内核无法联网+双内核切换

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

WIFI密码两行代码可以找回

计算机蓝屏代码0000a,win7电脑蓝屏代码显示0x0000001A的解决方法

GAN系列：论文阅读 & 代码阅读——Conditional Generative Adversarial Nets（CGANConditional GAN）

2024年最全一文彻底了解鸿蒙系统、澎湃系统和安卓系统的区别？_鸿蒙架构图，字节跳动算法面试题

ps手柄震动测试软件,PS3 可实现震动用PS3手柄连接电脑图文教程 - 电玩巴士

Ubuntu 18.04 共享文件夹与其他系统互传文件

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载