admin管理员组文章数量:1566358
2024年6月14日发(作者:)
目录
1 背景与挖掘目标........................................................................................................ 2
2朴素贝叶斯分类算法................................................................................................. 2
2.1贝叶斯公式....................................................................................................... 2
2.2 朴素贝叶斯分类过程...................................................................................... 4
3 实验过程.................................................................................................................... 4
3.1实验数据........................................................................................................... 4
3.2实验源代码....................................................................................................... 5
3.3测试结果分析................................................................................................... 9
4 实验总结.................................................................................................................. 11
4.1 开发环境与软件配置.................................................................................... 11
4.2 小组分工........................................................................................................ 11
4.3 个人小结........................................................................................................ 11
参考文献...................................................................................................................... 12
1 背景与挖掘目标
近年来,手机短信因其资费低廉、方便快捷的特点很快为人们所接受,成为
最流行的通信方式之一,但是大量不良与垃圾信息的出现,干扰了广大手机用户
的正常交流,影响了通信行业的良性发展,引起了社会各界的广泛关注。垃圾短
信严重的泛滥不仅仅严重影响人们的正常生活,而且严重影响社会稳定和公共安
全。垃圾短信的过滤成为了当前人们生活急需解决的一个重要任务,因此垃圾短
信分类的研究具有重要的意义。
本文从短信文本内容角度出发,将垃圾短信过滤看作短信文本的两类识别问
题(即识别短信是否属于垃圾短信的过程)。现在的垃圾短信过滤技术主要有:黑
白名单过滤、关键词过滤和基于内容的过滤。然而这种单一功能的过滤技术的过
滤能力比较有限,很多垃圾短信都过滤不了。本文设计并通过python编程朴素
贝叶斯分类,将统计的短信进行分类挖掘,提取垃圾短信特征,将垃圾短信过滤
出来。
2朴素贝叶斯分类算法
目前著名的文本分类方法有Bayes、LLSF、SVM、KNN、决策树等贝叶斯(Bayes)
分类方法是一种最常用的有指导的方法"以贝叶斯定理为理论基础"是一种在已
知先验概率与条件概率的情况下的模式识别方法) 贝叶斯分类器分两种:一种是
朴素贝叶斯分类器"它假设一个属性对给定类的影响独立于其他属性"即特征独
立性假设) 当假设成立时"与其他分类算法相比"朴素贝叶斯分类器是最精确的)
但是"文本属性之间的依赖关系是可能存在的) 另一种是贝叶斯网络分类器) 可
以考虑属性之间的依赖程度"其计算复杂度比朴素贝叶斯高得多"更能反映真实
文本的情况) 贝叶斯网络分类器实现十分复杂"目前还停留在理论的研究阶段)
因此本系统采用朴素贝叶斯分类算法解决短信内容检测+分类问题).朴素贝叶斯
分类器假设特征对于给定类的影响独立于其它特征"即特征独立性假设)
2.1贝叶斯公式
•
条件概率就是事件 A 在另外一个事件 B 已经发生条件下的发生概率。条件
概率表示为 P ( A | B) ,读作“在 B 条件下 A 的概率”。•
比如,在同一个样本空间Ω中的事件或者子集 A 与 B ,如果随机从Ω中选出
版权声明:本文标题:基于文本内容的垃圾短信识别论文 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/shuma/1718346756a669472.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论