A Persona-Based Neural Conversation Model论文学习零散记录

编程知识 更新时间:2023-05-02 21:08:13

A Persona-Based Neural Conversation Model

这篇文章用来解决conversation model中的speaker consistency的问题。比方说,问chatbot“where does jone live?”& “where does sam live?”chatbot可能因为u.s.出现频率最高,而对所有这类问题的回答都是U.S. 而不去考虑人物的身份。
作者提出了两种模型,Speaker Model 和 Speaker-Addressee Model。

Speaker Model比较简单。
选取LSTM为Seq2Seq模型的基本单元,LSTM主要的公式如下:
[it ft ot lt]=δδδtanhW[ht1est] [ i t   f t   o t   l t ] = [ δ δ δ t a n h ] W ⋅ [ h t − 1 e t s ]
作者给增加了一个向量,可以看做是把 est e t s 变成了 [est,vi] [ e t s , v i ] ,如下所示:
[it ft ot lt]=δδδtanhWht1estvi [ i t   f t   o t   l t ] = [ δ δ δ t a n h ] W ⋅ [ h t − 1 e t s v i ]
其中, vi v i 是user-level的representation,狭义上可当做是Speaker的向量,作者在Encoder的每一步都引入这样一个代表说话者身份的向量,来达到speaker consistency。

Speaker-Addressee Model
这个模型不单单考虑当前说话者的身份,考虑到了说话的双方的身份即Speaker和Addressee。
[it ft ot lt]=δδδtanhWht1estVi,j [ i t   f t   o t   l t ] = [ δ δ δ t a n h ] W ⋅ [ h t − 1 e t s V i , j ]
其中
Vi,j=tanh(W1vi+W2v2) V i , j = t a n h ( W 1 ⋅ v i + W 2 ⋅ v 2 )
vi,v2 v i , v 2 代表说话的双方。

文章的Decoding and Reranking这一部分其实描述的就是作者另一篇文章中提到的MMI-bidi方法(我的另一篇博客写了作者这一篇文章的学习笔记)。

作者使用的数据集是
Twitter Persona Dataset
Twitter Sordoni Dataset
Television Series Transcripts
三个

实验部分,我不太感兴趣。就不写了。
本文完

更多推荐

A Persona-Based Neural Conversation Model论文学习零散记录

本文发布于:2023-04-28 16:30:00,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/3a1ecb3c509bcccda912ab94a1160fe9.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:零散   论文   Based   Persona   Neural

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!

  • 109098文章数
  • 27701阅读数
  • 0评论数