论文精度Control Globally, Understand Locally: A Global

编程入门行业动态更新时间:2024-10-21 19:09:13

论文<a href=https://www.elefans.com/category/jswz/34/1769184.html style= 精度Control Globally, Understand Locally: A Global"/>

论文精度Control Globally, Understand Locally: A Global

论文精度Control Globally, Understand Locally: A Global-to-Local Hierarchical Graph Network for Emotional Support Conversation
全局控制，局部理解:情感支持对话的全局到局部层次图网络
数据集ESConv
作者给了GITHUB链接但是里面代码未发布
2204-12749 （未演示）
翻译如下

全局控制，局部理解:情感支持对话的全局到局部层次图网络
情感支持对话旨在减轻求助者的情绪困扰，是一项富有挑战性的新课题。它要求系统探究求助者情绪困扰的原因，了解他们提供支持性反应的心理意图。然而，现有的研究方法主要关注顺序的语境信息，忽略了与对话背后的整体原因和局部心理意图的层次关系，导致情感支持能力较弱。在本文中，我们提出了一个全局到局部的层次图网络来捕获多源信息(全局原因、局部意图和对话历史)并建模它们之间的层次关系，该网络由一个多源编码器、一个层次图推理器和一个全局引导译码器组成。此外，设计了一种新的训练目标来监测全局原因的语义信息。在情感支持对话数据集ESConv上的实验结果证实，所提出的GLHG在自动和人工评估方面都达到了最先进的性能。代码将在这里发布1。
情感支持对话(ESConv)任务，侧重于有效地为寻求帮助的人提供支持[Burleson et al, 2006;?;Slov´ak等人，2015]，是一项新的具有挑战性的任务[Liu等人，2021]。与情感对话任务不同，在情感对话任务中，对话主体根据给定的情绪产生情绪反应[Zhou et al, 2018]， ESConv任务期望对话系统具有更高级和更复杂的能力，目标是减少求助者的情绪困扰并提供支持性反应。构建这样的情感支持对话系统具有重要意义[Zhou et al, 2020;van der Zwaan等人，2012]，尤其是在社会互动方面(陪伴和鼓励用户)，心理健康支持(安慰沮丧的寻求帮助者并帮助确定问题)，客户服务聊天(安抚愤怒的客户并提供解决方案)等[Liu et al, 2021]。
在情感支持对话中，系统被要求探索求助者情绪问题的原因，并理解他们的心理意图，以提供更多的支持性反应[Rains et al, 2020]。一方面，原因描述了求助者压力问题产生的原因[Liu et al, 2021]，这种压力问题可以全面控制情感支持对话的整个流程。
另一方面，求助者含蓄地表达了心理意图，可以帮助系统局部理解求助者当前回合的心理状态。
然而，上述因素不会被寻求帮助的人明确提及。和现有的方法[Liu等，2021]
主要关注顺序语境信息，忽视整体原因、局部心理意图和对话历史之间的层次关系，导致情感支持能力较弱。图1中的一个示例说明了上述过程。从全局来看，系统需要捕捉全局原因(求助者因为信用卡账单而焦虑，需要一份第二份工作)，以增强整个对话的语义信息。
在局部，系统应响应捕获的意图，以了解求助者在不同回合的心理状态。例如，在第二轮中，寻求帮助的人表示他/她想做更多的工作来赚更多的钱。这需要奉献精神和辛勤工作，但你可以得到更多的钱。因此，1)如何捕捉整体原因和局部心理意图，2)如何建立它们之间的关系是情感支持对话中的两个重要挑战。
为了解决这些问题，我们提出了一种新的全局-局部层次图网络(GLHG)用于情感支持建模。对于第一个问题，提出了一个多源编码器来捕获全局原因和局部心理意图(使用COMET，预训练的生成式常识推理模型[Bosselut等人，2019])。针对第二个问题，设计了一个层次图推理器，对全局原因(对话层面)、局部心理意图(句子层面)和对话历史之间的层次关系进行建模。此外，在全局导向译码器中设计了一种新的训练目标来监控全局原因的语义信息，使全局原因不受局部意图的影响。
•我们从全球到本地的角度提出了一个用于情感支持对话的全球到本地层次图网络(GLHG)。
•为了捕捉全局原因和局部意图，多源编码器利用情境信息，并将心理意图与COMET结合。
•为了模拟不同层次的关系，层次图推理器在全局原因、局部心理意图和对话历史之间进行交互。
•数据集上的实验表明，GLHG在自动评估指标和人工评估方面都达到了最先进的性能。
近年来，关于情感对话的研究在对话系统中蓬勃发展[Zhou et al, 2018;Huang等，2020;彭等，2022]。[Zhou等人，2018]提出了情感聊天机，可以在手动指定的标签上准确地生成情绪反应。与情感聊天对话的任务不同，同理心对话生成的任务[Lin等人，2019;Rashkin等人，2019]的目标是以一种同理心的方式对说话者的情绪情况做出相应的回应。与上述任务不同的是，情感支持对话[Liu et al, 2021]
专注于探索求助者的问题，并产生更多支持性的反应。
2.2对话中的图形建模受到GCN令人印象深刻的进步和结构化建模的激励[Guo等人，2021;Sun等人，2021年]，在对话系统上出现了利用GCNs实现更好性能和构建的努力[Ghosal等人，2019;秦等，2021;徐等，2021]。dialguegcn [Ghosal等人，2019]利用GCN的自我和说话者之间的依赖关系来建模会话上下文。[Qin等人，2021]提出了一种用于对话行为识别和情感分类任务的协同交互图注意网络。DVAE-GNN [Xu et al, 2021]专注于发现外域对话中的对话结构，EGAE [Qin et al, 2021]利用图网络捕获面向任务的对话中的对话模式。与之前的工作不同，我们提出了一个层次图推理器来建模全局原因、局部心理意图和对话历史之间的关系，并促进信息在图上的流动。
2.3常识A TOMIC [Sap et al, 2019]是常识[Y u et al, 2020;Xing等人，2020]图表，重点关注推理知识组织为输入的与变量的if-then关系(例如，如果“PersonX喝咖啡”，那么“PersonX需要煮咖啡”)。关系的类型包括第五次事件-然后是精神状态、如果事件-然后是事件和如果事件-然后是角色。在本文中，为了捕捉寻求帮助者的心理状态，我们将重点放在If-Event-Then-Mental-State上，它推断出三个常识关系:PersonX对事件的反应(xReact)， PersonX在事件发生前的意图(xIntent)和PersonY对事件的反应(oReact)。由于oReact指的是另一个人(例如系统)，我们没有考虑到这一点，所以在本文中我们忽略了它。为了获得求助者的心理意图(xIntent)，我们使用COMET [Bosselut等人，2019]，这是一种预训练的生成式常识推理模型，以自然语言生成丰富的常识描述(例如，输入“我需要另一份工作来支付更多账单”，然后输出“为了财务稳定”)。
如图2所示，本文提出的GLHG由三部分组成。首先，多源编码器捕获全局原因信息和局部心理意图，并对对话历史进行编码。其次，分层图推理器从全局到局部的角度整合了图推理的不同级别表示。
最后，全局导向译码器根据新设计的训练目标生成支持响应并监测全局原因的语义信息。
3.1问题的提法我们的任务的问题提法可以表述如下。给定一个对话框历史记录C = (u1, u2，…， uN−1)，N−1个话语的集合，其中uN = (xn1, xn2，…， xnM)，由M个单词组成，s = (s1, s2，…， sP)为求助者对应的全局原因信息
(描述情绪问题的原因)，一串P字。GLHG产生的支持性反应取决于求助者的整体原因、局部心理意图和对话历史。
多源编码器多源编码器考虑三个源信息，包括对话历史、全局原因和局部意图。上下文编码器、全局编码器和本地编码器与BlenderBot [Roller et al, 2021]的编码器具有相同的架构，后者是一种在大规模对话语料库上预训练的开放域对话代理。
首先，获取对话历史的表示形式。
继之前的工作[Liu et al, 2021;Roller等人，2021]，我们将每个带有[SEP]的话语分开，并在对话历史的开始处预先添加一个特殊的标记[CLS]，以重建上下文输入C = ([CLS]， u1， [SEP]，…， uN−1，[SEP])。为了获得上下文表示，上下文编码器Encctx被用于对每个单词x进行编码，从而导致一系列上下文隐藏状态(h1, h2，…， hT)， as: hT = Encctx([CLS]， x11，…， x1M， [SEP]，…， [SEP])(1)，其中T是输入序列的最大长度，ht∈Rd是C中的第T个令牌，d是
编码器的隐藏大小。
然后，全局编码器Encglo获得全局原因和情况信息，执行max-pooling操作输出整个序列的表示:g = max-pooling (Encglo(s1，…(2)最后，为了捕捉求助者的心理意图，COMET利用求助者的最后一句话和额外的特殊关系符号(例如，“h头i我需要另一份工作来支付更多的账单h /头i h关系i xIntent h /关系i [GEN]”)，并生成相应的心理状态推断(ms1，…， msL)表示XIntent关系，其中L为推断序列的长度。类似地，模块Encloc通过以下方式获得局部意图的表示:l = Max-pooling(Encloc(ms1，…， msL))(3)，其中l∈Rd.(注意，本文只使用XIntent)。
图推理器用于组织多源信息，对全局原因、局部意图和对话历史之间的交互进行建模，使模型能够更好地构建会话的情景理解。
继[Scarselli et al, 2009]之后，在获得全局原因、局部心理意图和对话历史的表征后，通过边连接节点构建图网络[Scarselli et al, 2009]。然后，我们将每个图节点的相关信息与图注意网络(GA T) [V elickovic et al, 2017]集成在一起，该网络将其他邻域信息中的特征传播到当前节点，具有确定节点之间重要性和相关性的优势。在本节中，我们首先定义图G = (V, E)的分量，然后介绍推理过程。
V ertices。全局原因g、对话历史中的每个标记ht和局部意图l的表示表示为图g中的顶点，这些顶点用相应的编码特征向量进行初始化。我们将顶点特征表示为V = {g, h1，…， hT, l} ={v1, v2，…， vT +1, vT +2}∈R(T +2)×d。顶点/节点vi∈V包括全局原因嵌入、标记嵌入和局部心理意图嵌入三种类型。
边缘。图中有三种类型的边。
全局连接是为了控制会话的整个语义信息而构建的，其中节点g与所有其他节点连接，进行全局交互。
本地连接仅根据上一个求助者的状态来选择最相关的上下文。这样，节点l应该只连接到最后一个语句和全局特征中的令牌。
上下文连接是为了维护对话之间的信息流而构建的，其中节点i被链接到上下文标记，以其邻域传播特征。
图形建模。通过这样做，我们描述了使用具有全局连接、局部连接和上下文连接的图注意网络转换顺序编码特征的方法。更具体地说，我们需要更新g(k)、h(k) t和l(k)三种类型的节点，分别呈现给图的第k层的全局节点、令牌节点和局部节点。首先，v(k+1) 1 = g(k+1)，通过聚集邻域信息计算得到:v(k+1) 1 = σ?xj∈Ng αkj W kb vj (k)?(4)其中Ng为图中全局节点的邻域，k ={1，····，k}， W kb∈Rd×d为可训练权值矩阵，σ为非线性激活函数。
式(4)中的权重αkj = H(v(k) 1, v(k) j)是用注意机制计算的，该机制模拟了每个v(k) j对v(k) 1的重要性:αkj = exp(F(v(k) 1, v(k) j)) P j0∈Ng exp(F(v(k) 1, v(k) j0))(5)其中F为注意函数。
根据[V elickovic et al, 2017]，注意函数可以表示为:F(V (k) 1, V (k) j) = LeakyReLU ?a>[W kb v(k) 1kw kb v(k) j] ?(6)其中a∈R2d为可训练权值矩阵，LeakyReLU为非线性激活函数，·T为转置，k为拼接运算。
类似地，对于令牌节点和本地节点，图交互更新过程可以表述为:v(k+1) i = σ?xj∈Nt βkj W kdvj (k)?(7) v(k+1) T +2 = σ?xj∈Nl γkj W kdvj (k)?(8)其中Nt和Nl分别是图中令牌节点和本地节点的邻居。我= {2 , · · · , ( T + 1)},βkj = H (v (k), v (k) j)和γkj = H (v (k) (T + 2), v (k) j)。3.4全局导向译码器全局导向译码器根据节点更新后的特征生成支持响应。此外，还提出了一种新的训练目标来监测全局原因的语义信息。
反应生成。输出Y = (y1, y2，…， yZ)由Z个单词组成。继之前的工作[Roller et al, 2021;Liu等，2021]，解码器的目标是预测单词概率分布。在每个解码时间步z，它读取嵌入词W y
P (yz|{y1，…， yz−1}，v(K)) =解码器(W y
全球语义信息监督。考虑到全局原因控制整个会话流，我们设计了一个新颖的任务来监视具有类别的全局语义信息(例如，此会话的问题类型)。
类别的概率可以通过利用全局节点的表示来计算，如下:p(o) = Softmax(MLP(v1(K)))(10) 3.5联合训练两个任务的标准负对数似然损失和交叉熵损失优化为:L1 =−ZX z=1 log p(yz|{y1，…， yz−1}，v(K)) (11) L2 =−o.o. log p(o)(12)其中o.o.是对话的真实标签(问题类型)。
我们将上述两个损失函数结合为多任务学习方式下的训练损失[Peng et al, 2021]: L(θ) = λ1L1 + λ2L2(13)，其中θ为所有可学习参数，λ1和λ2为两个超参数，用于控制其余任务的权重。
情感支持对话数据集包含1053个多回合对话，31410个话语。每个对话包含原因信息，对话上下文，问题类型。我们在ESConv中对问题类型进行统计，共包括12类。我们保持训练/测试分区不变[Liu et al, 2021]。
自动评估。自动指标包括困惑度(PPL)、BLEU-n (B-n)、ROUGE-L (R-L)、Distinct-1 (D-1)和Distinct-2 (D-2) [Li等人，2016]。Perplexity度量生成模型的高级一般质量。
D-1 / D-2为所有生成结果中不同的单字母/双字母所占的比例，表示多样性。
人类A/B评估。在我们的案例中，给出两个模型A和B，分别为GLHG和基线。系统提示三名工作人员为128次抽样测试实例中的每一个选择更好的(Win)。如果来自两个模型的响应被认为是相等的，注释者可以选择一个Tie。我们采用了与[Liu等人，2021]相同的人类评估:1)流畅性(流感):哪个模型的反应更流畅?2)识别(Ide.):哪种模型更有助于识别问题?3)安慰(Com.):哪种模式更善于安慰你?4)建议(Sug.):哪种模型能给你更有用的建议?5)总体(Ove.):总体来说，你更喜欢哪个模特的情感支持?GLHG的实现基于COMET [Bosselut et al, 2019] 2和Blenderbot [Roller et al, 2021]。使用β1 = 0.9， β2 = 0.99的AdamW优化器[Loshchilov and Hutter, 2017]进行训练，初始学习率为3e−5，线性热身为100步。用于训练的小批大小设置为16，我们在推理过程中使用批大小为1和最多40个解码步骤。输入序列的最大长度设置为128。epoch设置为5。λ1和λ2设为0.5。所有模型都在Tesla V -100 GPU和PyTorch上进行训练。为了进行公平的比较，我们将情境、提取的意图和语境作为所有基线的输入。
在下面，我们提供了一些强对话模型:(1)Transformer [V aswani et al, 2017]，标准Transformer模型。(2) dialguegcn [Ghosal et al, 2019]，使用解码器修改dialguegcn的输出层以生成响应。(3) MoEL [Lin等人，2019]，一种基于变压器的模型，它软地结合了来自不同变压器解码器的响应表示。(4) MIME [Majumder et al, 2020]， Transformer模型的另一个扩展，它模拟说话者的情绪。(5) DialoGPT [Zhang et al, 2020]，这是一个基于gpt -2的模型，在大规模对话语料库上进行预训练。(6) BlenderBot-Joint [Roller et al, 2021]，这是一种预先训练过沟通技能的开放域会话代理。在[Liu等人，2021]之后，我们使用了小型版本的BlenderBot。
4.3实验结果自动评价。如表1所示，与最先进的模型BlenderBot-Joint和其他基线相比，我们的GLHG在几乎所有自动指标上都取得了令人满意的结果。GLHG的困惑度最低，说明生成的响应总体质量高于基线。在Distinct-n方面，我们的模型可以比其他模型产生不同的响应。在所有指标上都有显著的改善，这些指标表明了全局原因和局部心理意图的有效性，以及层次图建模。
人类A/B评估。表2的结果表明，在与全球原因和局部意图的层次关系下，GLHG的响应比人类法官的基线响应更受欢迎。
与Transformer相比，我们的模型在各个方面都有很大的提高，特别是在Com方面。和关爱。指标，这表明我们的模型更善于安慰他人和提供建议。与MIME和BlenderBot相比，我们的GLHG也取得了显著的进步，显示了我们的模型在情感支持方面的强大能力。
流畅度度量方面，GLHG虽然没有明显优于BlenderBot，但仍有不错的表现，体现了GLHG在表达能力上的优势。此外，我们抽取了300个样本，发现80.67%以上的提取意图在逻辑上是一致的。
4.4消融研究为了更好地了解我们的GLHG，我们进行了消融研究。具体来说，我们设计了四种GLHG的变体:1)在没有局部意图的情况下，心理意图被去除式(3)中局部节点不涉及式(8);2)当没有全局原因时，忽略全局信息，这与配置(1)相似;3) w/o L2 Loss，在式(12)中去除了L2 Loss;4)没有图推理器，我们用线性和串联操作代替图。表4的结果表明，每个组成部分都有利于最终的表现，这表明关于全局原因和局部意图的信息对于理解求助者的情绪困扰问题和精神状态是必要的。此外，图推理者对整体表现做出了贡献，这表明分层关系建模具有提供情绪支持响应的潜力。
在定性上，我们从SOTA模型和GLHG中观察到了有趣的例子，如表3所示。在第一种情况下，可以观察到寻求帮助的人对失去工作感到焦虑。根据上下文，当地的意图含蓄地表达在句子中，任何方式都可以帮助我说服我的老板……，我们的模型提取了他的意图描述，以便能够说服他的老板。在构建了全球原因和地方意图之间的关系之后，GLHG输出了一个适当的和同理心的回应。BlenderBot给出了流畅的回答，但它并没有回答求助者的问题。与基本事实相比，有趣的是，我们的模型可以生成我知道这很难(安慰)，但你可以根据捕获的原因和寻求帮助者的隐含感受与你的老板(建议)交谈。同样，在第二种情况下，GLHG产生，最好呆在家里提供建议的意图是安全的。整个对话都是关于大流行(起因)的。此外，我们还从生成的反应中发现了一些特殊的模式，比如我曾经处于类似的情况，或者我认为最好是。这一现象表明，GLHG在谈话过程中会给予安慰和同理心，并提供建议，这与情感支持的目的是一致的。
本文着重于将全局原因和局部心理意图整合到对话历史中，以产生支持性反应。我们提出了一个全局到局部的层次图网络(GLHG)来捕获多源信息，并从全局到局部的角度对层次关系进行建模。此外，设计了新的训练目标来监控全局原因的语义信息。实验和分析表明，GLHG取得了良好的性能，显著改善了人工评价。对于未来的工作，采用其他心理状态进行情感支持对话仍值得研究。