Ref
- Neural Responding Machine for Short-Text Conversation,Lifeng Shang, Zhengdong Lu, Hang Li,2015
Introduction
- 李航老师团队的成果
- 基于seq2seq + attention 建模
- 贡献了包含440w条多轮对话的语料,数据来自微博
problem
沿用 seq2seq+attention 模型对 post-response pair 建模。由于post-response pair 并是不严格的平行语料,同一个word 在不同的context 中可能具有不同的meanings, 考虑将 context information 加入到经典的seq2seq+attention 模型中作为补充。
model
- 一轮对话
- end2end framework,RNN with GRU
- global scheme: 将 RNN 中的last hidden state hgT 作为整个句子的全局信息
- local scheme:采用经典的seq2seq+attention, 将 注解 hj 称为局部信息
- 将 hgT 与 hj 拼接,作为具有上下文信息的 attention signal
- global encode 和 local encode 分开训练
- 最大似然估计
- decode 采用beam search, beam size = 10
- 评估:设计评分规则,人工评测
模型架构图如下
comment
发布了一个对话系统数据集;模型在attention的基础上加入context information 思路可取,但是方法的创新性不足。
更多推荐
[dialog system] 阅读笔记 - 2015__Neural Responding Machine for Short-Text Conversati
发布评论