邮件数据"/>
利用python分析邮件数据
最近在学习python编程,按照笨方法学python的方法一步一步抄代码,算是入了门。
后来公司想让我从海量邮件数据中提取出关键字段进行分析,主要是从邮件中统计关键字段来查看用户的分布。
对一封邮件的关键字提取思路应该是比较简单的,先把邮件拆分解析成可以进行正则表达式计算的字符串形式,然后从邮件的正文中提取出需要的关键字段。比如,Time Zone:+08:00,我们就可以利用正则表达式把+08:00写入excel文档,最后统计分析有几个+08:00的邮件反馈到公司。
比较麻烦的点在于公司一天能收到几千封类似的邮件,利用网上博客里面流行的imaplib的方法进行分析的话会受到很多外部因素的限制。比如无法保证几千封邮件都精确遍历过,比如imaplib方法里面的文件夹属性等定义比较复杂等问题。为了简化此过程,我利用foxmail的邮件导出功能,把上千封邮件导出到本地,利用遍历本地文件夹下的.eml格式文件的方法进行了统计分析。
图片是相关代码,处理邮件的mime模块的代码可以在其他博客中搜索得到,是比较通用的方法。
更多推荐
利用python分析邮件数据
发布评论