摘要:
为了发现对话历史是否真的被有效的利用了,本文介绍了10种干扰来评测对话历史是否真正被利用。发现transformer-seq2seq 和rnn seq2seq并没有很好地利用这些信息
主要工作:
首先有一个前提:如果模型对于对话历史的改变不敏感的话,那么他基本上没有利用多少对话历史。
在之前的工作中已经发现:
- 1.lstm的作用范围只被周围的大约150个词所影响
- 2.无论是生成摘要还是机器翻译,生成并没有利用好前面所携带的信息
- 3.rnn长距离依赖要比transformer好,transformer适用于词义消歧
本文要测试transformer,rnn,以及是否加attention对于对话历史的利用
实验:
其中x1,x2,...xn是对话历史,如果是A,B两个人对话的话,相当于A的所有话,yi表示B之前说的话,现在要利用A说的所有话和B在第i句之前的所有话来预测第i句的概率。通过这个loss函数来优化。
扰动类型分别对于句子和词语有:1.随机打乱句子顺序 2. 将对话翻转顺序 3.随机删掉某些句子 4.保留最近的K个句子
实验结果:
结论:
- 在大多数情况下模型在困惑度上只有很小的改变,甚至当改变非常明显时也变化不大,这意味着模型使用的信息只是提供给他们的信息中很少一部分。
- transformer 对词序的变化不敏感,这意味着他们能学习词袋表示
- 注意力机制的使用使得模型使用更多的来自于对话早期的信息(当只使用一句话时困惑度增加的非常剧烈)
- 尽管 transformer 模型收敛更快且有着更低的困惑度,但是他们似乎不能捕捉到对话历史中的动态变化且对扰动不是很敏感
一句话总结:
用一系列实验证明了,当前的模型对于dialogue history的利用并不多。可以利用这些实验作为对NLG生成的一个eval。
更多推荐
[NLG]Do Neural Dialog Systems Use the Conversation History Effectively? An Empir
发布评论