教你一步步如何搭建一个电影评论分类系统,本篇文章是这系列的第二篇
对电影评论进行情感分析之文本数据的准备(一)
情感分析之词袋模型TF-IDF算法(三)
logistic实现评论的分类(四)
使用flask将机器学习模型嵌入到web系统中(五)
这篇文章主要介绍如何将文本转换为特征向量前的一些准备工作,主要内容包括:
1、清洗文本数据
2、标记文档
3、词袋模型
一、清洗文本数据
清洗文本需要将文本中所包含的一些不必要的字符删除。
1、删除不必要的字符
print(data["review"][0][-50:])
is seven.<br /><br />Title (Brazil): Not Available
发现评论中含有一些HTML标记符、
更多推荐
对电影评论做情感分析之词干提取和停用词的移除(二)
发布评论