admin管理员组

文章数量:1660696

数据分析:

  1. 数据分布情况:占比例多少
  2. 文本 :一句话多长。截断处理。 平均50个字<=110词。(分完词的长度)

多分类: (代码可复现)

方法一:6个二分类器。一条句子分别跑6个模型,分最高,选哪个。(效果好)
方法二:一个模型直接预测出属于哪类。

决策树,SVM,

TNEWS’ 今日头条中文新闻(短文本)分类 Short Text Classificaiton for News

数据集

数据集来自今日头条的新闻版块,共提取了15个类别的新闻,包括旅游,教育,金融,军事等。
数据量:训练集(53,360),验证集(10,000),测试集(10,000)

  • 训练集

Train.json:
<label分类,label_desc分类名称,sentence新闻字符串>
例子:
{“label”: “108”, “label_desc”: “news_edu”, “sentence”: “上课时学生手机响个不停,老师一怒之下把手机摔了,家长拿发票让老师赔,大家怎么看待这种事?”, “keywords”: “”}
labels.json:
<label分类,label_desc分类名称>

label分类label_desc分类名称(15分类)
100news_story
101news_culture文化
102news_entertainment娱乐
103news_sports体育
104news_finance财经
106news_house
107news_car
108news_edu教育
109news_tech科技
110news_military军事
112news_travel旅行
113news_world世界
114news_stock股票
115news_agriculture
116news_game游戏
  • 验证集

dev.json
<label,label_desc,sentence,keywords关键词>
例子:
{“label”: “102”, “label_desc”: “news_entertainment”, “sentence”: “江疏影甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物”, “keywords”: “江疏影,美少女,经纪人,甜甜圈”}

  • 测试集

Test.json:
<id,sentence新闻字符串,keywords关键词>
例子:
{“id”: 0, “sentence”: “在设计史上,每当相对稳定的发展时期,这种设计思想就会成为主导”, “keywords”: “民族性,设计思想,继承型设计,复古主义,服装史”}

本文标签: 中文头条文本今日新闻