【Acl 2023】WeCheck:Strong Factual Consistency Checker via Weakly Supervised Learning

编程入门行业动态更新时间:2024-10-18 10:21:50

【Acl 2023】WeCheck:<a href=https://www.elefans.com/category/jswz/34/1770460.html style= Strong Factual Consistency Checker via Weakly Supervised Learning"/>

【Acl 2023】WeCheck:Strong Factual Consistency Checker via Weakly Supervised Learning

WeCheck:Strong Factual Consistency Checker via Weakly Supervised Learning 通过弱监督学习的强事实一致性检查器

摘要
1. 介绍
2. WeCheck框架
- 2.1 问题定义
- 2.2 弱注释
- 2.3 噪声感知微调

通过弱监督学习的强事实一致性检查器)

摘要

当前文本生成模型的一个关键问题是它们经常无法控制地生成与输入实际上不一致的文本。
由于缺乏注释数据，现有的事实一致性指标通常在合成文本上训练评估模型或直接从其他相关任务转移，例如问答（QA）和自然语言推理（NLI）。合成文本或上游任务中的偏差使得它们在语言模型实际生成的文本上表现不佳，特别是对于各种任务的一般评估。为了缓解这个问题，提出了一个名为 WeCheck 的弱监督框架，该框架直接对带有弱注释标签的语言模型实际生成的样本进行训练。
WeCheck 首先利用生成模型通过聚合来自多个资源的弱标签来推断生成样本的事实标签。接下来，我们使用推断的弱监督信息训练一个简单的噪声感知分类模型作为目标度量。对各种任务的综合实验证明了 WeCheck 的强大性能，仅使用 4.35 亿个参数，在 TRUE 基准上比 11B 个最先进的方法平均绝对提高了 3.3%。此外，它比以前的评估方法快30倍，大大提高了事实一致性评估的准确性和效率。

1. 介绍

代码：
       现有的事实指标可以分为两种类型：一种基于合成数据，另一种基于任务转移。
       基于合成数据的指标（Kryscinski 等人，2020；Mishra 等人，2021）应用数据增强技术将事实和非事实文本分别构建为正样本和负样本。由于实际生成的文本和合成文本的特征之间存在显着不匹配（例如事实错误的分布），从这些合成样本训练的指标通常表现不佳（Goyal 和 Durrett，2021）。
       基于任务转移的指标利用在相关上游任务上训练的模型的推理能力，例如自然语言推理（NLI）（Falke等人，2019；Laban等人，2022）和问题回答（QA）（Wang等人，2020） ;法布里等人，2022）并直接应用它们来评估事实一致性，无需任何调整。
提出的问题：
       先前的度量是从其他相关资源间接学习的，但没有看到实际生成的文本。在这种情况下，它们可能会过度适应上游任务，并且无法泛化到具有显着不同数据特征的实际生成的样本。
       下图展示了三个指标的概率密度，其中横轴是指标得分，纵轴是得分密度。尽管这些指标在性能上具有可比性，但它们的概率分布差异很大，特别是在 XSUM 数据集中，其中样本特征与这些指标的上游任务有很大不同2，NLI-warmup 在预测非常高和低分数方面非常有信心，而 SUMMAC和 QAFact 仅对预测低分有信心3。此外，在测试过程中，通过简单平均来整合不同的指标分数将进一步提高其性能（Honovich 等人，2022）。这也意味着从不同资源中学到的评估指标也是互补的

为了弥合训练和测试之间的差距并缓解标记数据的稀缺性，提出了 WeCheck，一种基于弱监督学习的事实一致性检查框架。具体来说，WeCheck 基于一种学习范式，该范式通过对多个标签源进行建模而无需获取基本事实，从而提供弱监督。与以前的指标不同，WeCheck 直接利用从目标下游任务训练的模型中引导而来的丰富的实际生成样本，例如BART 关于文本摘要。然后，WeCheck 遵循由弱注释和噪声感知微调组成的两步管道来获得目标度量模型。
(补充)弱监督学习是指在训练过程中使用标签不完全或不准确的数据进行学习的一种方法。弱监督资源是指在弱监督学习中使用的可用于辅助标注的资源或信息。

在弱标注步骤中，通过聚合多个弱监督资源，我们推断出样本的未知真实标签。为了实现这一目标，我们首先为每个样本提供一组根据各种其他指标计算得出的弱监督信号。这些指标是从各种资源或任务中学习的，例如基于 QA 的指标和基于 NLI 的指标。在统一和过滤这些信号后，我们训练了一个生成标签模型，对一致和分歧进行建模2在XSum中，每个文档的摘要都是抽象的，而现有的NLI和QA数据集不具备此功能。

3 有关这些指标的更多详细信息，请参阅第 2.3 节和第 3.2 节。

在它们之间推断其潜在的真实标签的可能性。然后推断出的真实可能性被视为概率标签以提供弱监督。在第二步中，我们应用噪声感知微调来训练目标度量模型。这里需要注意的是，弱标注也给监督信号带来了噪声，给模型优化过程带来了新的挑战。作为解决方案，我们首先使用 NLI 数据预热目标度量模型，以便在弱监督训练之前进行更好的初始化。然后，在过滤掉可能有噪声的样本后，我们用弱注释微调我们的目标度量模型。综上所述，WeCheck 可以学习如何利用多种资源进行弱标注，同时识别和过滤弱监督带来的潜在噪音。
实验结果表明，WeCheck 不仅实现了最先进的性能，而且计算效率很高。在当前最全面的事实一致性评估基准 TRUE 基准（Honovich et al, 2022）上，WeCheck 获得的平均 ROC AUC 为 84.8，比之前仅使用大小的 11B 预训练任务转移指标绝对提升了 3.3% 435M参数。此外，它对于各种生成任务更加稳定，不同任务上的方差要低得多。
因此，WeCheck 是一种简单但更有效且高效的事实一致性评估指标。

提出了一种基于弱监督学习的新颖的事实一致性评估指标，即WeCheck，它直接对带有弱注释标签的语言模型实际生成的样本进行训练。
WeCheck 既有效又高效，实现了 3.3% 的绝对改进，与以前的最先进指标相比，速度提高了 30 倍。
WeCheck 是一种通用指标，在各种生成任务和数据集上也比以前的方法更稳定。

2. WeCheck框架

上图说明了 WeCheck 框架的两步流程。在图的上半部分，在弱注释步骤中，首先为从目标生成任务引导的每个样本计算一组弱监督信号。然后，使用映射函数来统一弱监督信号并推断出每个样本的真实标签。注释后，应用噪声感知微调来训练我们的目标度量模型，如图下半部分所示。使用 NLI 数据进行噪声感知微调第一个预热目标度量模型，并使用过滤后的概率标签对其进行训练。

2.1 问题定义

事实一致性评估 WeCheck框架将假设和前提的串联x作为输入，并将评估问题统一为二元分类问题。具体地，框架的目标是训练目标度量模型 f θ f_θ fθ，使其能够有效地度量假设和前提的事实一致性。模型的输出fθ(x)属于区间[0, 1]，其中预测的logit表示x与事实一致的概率。
【补充】logit是指模型输出的未经归一化的预测结果，通常表示为一个实数值。Logit通常用于二分类问题，表示一个样本属于某个类别的概率。
弱监督训练 首先从生成任务中引导一组样本，例如文本摘要和对话生成。使用从多个资源训练的各种事实指标，我们为每个样本 x 提供一组弱信号 λ = ( λ 1 , … , λ k ) \boldsymbol{\lambda}=(\lambda_1,\ldots,\lambda_k) λ=(λ1,…,λk)，其中每个 λi 是由指标单独计算的 logit。我们将 x 的真实标签 y 视为隐藏变量，可以通过聚合 λ \boldsymbol{\lambda} λ来估计。为了实现这一目标，我们训练一个标签模型 p ϕ p_\phi pϕ来模拟 λ \boldsymbol{\lambda} λ中弱信号之间的一致和分歧关系，并估计真值标签的概率分布 p ϕ ( y ~ ∣ λ ) p_\phi(\widetilde{y}|\boldsymbol{\lambda}) pϕ(y ∣λ)。然后，我们应用 p ϕ ( y ~ ∣ λ ) p_\phi(\widetilde{y}|\boldsymbol{\lambda}) pϕ(y ∣λ)来监督度量模型 fθ。

2.2 弱注释

为了为训练提供弱监督，我们遵循数据编程（Ratner et al, 2017; Bach et al, 2017），一种基于对多个标签源建模的弱监督学习范式。
然而，在数据编程中，弱监督信号通常是由各种检查子句产生的，例如句子中是否出现“原因”一词？并产生一个离散的弱信号 λi ∈ {0, 1, −1}，其中 0/1 代表对正/负标签的投票，-1 代表弃权票。然而，在我们的场景中，由于度量框架的多样性，不同度量的输出通常不共享统一的输出格式并且通常是连续的。例如，基于 QA 的度量通常会产生 [0, 1] 中的连续 logits，而基于 NLI 的度量通常会产生蕴含或矛盾的离散标签。因此，训练标记模型之前的第一件事是通过映射函数 m (λi) → {0, 1, −1} 来统一弱监督信号。这样，我们就可以通过基于数据编程的标签模型来对转换后的 λ 进行建模。
弱信号统一       我们首先将来自不同度量的所有弱监督信号统一为相同的格式，logit值λi ∈ [0, 1]。对于只有一个logit输出的度量，我们直接使用其输出作为λi。对于多标签分类输出，我们选择预测蕴涵的概率作为λi。
【补充】"预测蕴含的概率"指的是判断一个文本中的前提是否蕴含或暗示着一个假设，进而表示这种蕴含关系的概率。
      需要注意的是，由于不完美度量的预测，所有的信号都会引入一定程度的噪声。为了得到更可靠的信号，设计映射函数m的核心思想是将度量具有高置信度的信号映射到{0, 1}，并通过将低置信度信号映射为-1来避免不确定性信号。选择动态确定阈值，通过设置包含最高置信度的恒定概率质量来实现。具体地，我们选择将信号分数中最低的p-百分比和最高的p+百分比分别映射为标签0和1，将剩余的低置信度分数映射为-1。
给定第 i 个信号 Fi 的逆累积分布函数，我们可以通过以下方式计算其正负阈值 γ + i 和 γ − i：

然后映射函数定义为：

      通过度量的逆累积分布函数Fi，可以计算出其正阈值γ+i和负阈值γ-i。这些阈值确定了信号分数到标签的映射方式。【补充】度量的逆累积分布函数是指给定一个度量输出的分数值，它返回对应于该分数值的累积分布函数的反函数。累积分布函数（Cumulative Distribution Function，CDF）是指对于一个随机变量，它的累积分布函数描述了该变量的取值小于或等于给定值的概率。逆累积分布函数（Inverse Cumulative Distribution Function，ICDF）是累积分布函数的反函数，它将概率作为输入，并返回相应的分数值。逆累积分布函数的使用可以帮助解决在度量和数据集之间信号分布差异较大时，固定阈值选择困难的问题。通过根据信号分数的累积分布进行动态阈值计算，可以更好地适应不同度量和数据的情况，提高模型的鲁棒性和性能。
      弱信号统一的目的是将不同的弱监督信号转化为一致的格式，以便进行进一步处理和训练。通过设计映射函数和动态确定阈值，WeCheck旨在为训练目标度量模型创建更可靠的弱信号。
      标签模型: 我们将 x 的真实标签 y ~ \widetilde{y} y 视为隐藏变量，并训练标签模型 p ϕ p_\phi pϕ通过聚合 λ 来估计 y ~ \widetilde{y} y 。生成模型 p ϕ p_\phi pϕ通过 λ 和 y ~ \widetilde{y} y 的联合概率对它们的生成过程进行建模。由于所有弱监督信号都是从不同的资源推断出来的，因此我们将它们视为自变量。然后，给定先验 p(y 酪) 5 ，通过以下贝叶斯规则制定联合概率。
其中 p ( y ~ ) p(\widetilde{y}) p(y )取决于数据集中的类分布，为简单起见，这里设置均匀分布。
       接下来，我们需要对基于潜在标签 y ~ \widetilde{y} y 的可能性 p ( λ i ∣ y ~ ) p\left(\lambda_i|\widetilde{y}\right) p(λi∣y )进行建模，用 λ i \lambda_i λi标记样本。按照（Ratner et al, 2017），我们将 λi 的标记过程定义为伯努利过程的序列。具体来说，第 i 个度量的不放弃样本的概率为 βi，正确标记样本的概率为 αi。
然后，我们通过以下方式计算可能性
其中 αi 、 βi 是可学习的超参数。给定所有样本，我们通过优化来训练标签模型：

2.3 噪声感知微调

NLI Warmup        在我们得到标签模型 p ϕ p_\phi pϕ之后，下一步就是用它推断出的弱监督来训练我们的度量模型fθ。但是在实践中，我们发现弱监督的直接训练会导致模型容易收敛于局部极小值。这可能是因为在大范围的背景下进行推理是有挑战性的，而薄弱的监督也可能是嘈杂的。这些问题给优化带来很大困难。受课程学习理念的启发(Bengio等人，2009年)，我们首先在NLI上预热我们的度量模型，这是一个更容易且密切相关的任务。我们使用四个NLI数据集的混合物，MultiNLI (Williams等人，2018年)，Fever-NLI (Thorne等人，2018年)，LingNLI (Parrish等人，2021年)和Adversarial-NLI (Nie等人，2020年)。基于预热的检查点，我们的度量模型在弱监管下获得了更好的结果，我们将在稍后的实验中展示这一点。
噪声过滤和预热 热身之后，我们用弱监督来训练我们的度量模型。因为估计的潜在标签 y ~ \widetilde{y} y 由于不完善的标签模型和弱的监督信号仍然可能是有噪声的，所以我们应用包含预测的确定性的 y ~ \widetilde{y} y 的可能性作为软概率标签，而不是用于训练的离散标签。基于等式中联合概率的定义。我们通过以下方式预测每个样本的可能性

       为了方便起见，我们将 p ϕ ( y ~ = 1 ∣ λ ) p_\phi(\widetilde{y} = 1|λ) pϕ(y =1∣λ)缩写为p(y+)。在用p(y +)训练之前，我们首先通过在弱信号统一中应用类似的过程来过滤掉具有低置信度的估计样本。通过重用映射函数m，我们过滤掉低置信度的概率标签，得到最终的训练集

       其中p(y+)是x的相应概率标签。然后，预热后给定fθ，我们通过以下方式对其进行微调

其中p(y +)在训练期间保持固定，没有到 p ϕ p_\phi pϕ的梯度反向传播。在推理过程中，模型只需要将文本序列x作为输入，输出logit预测fθ(x)。