admin管理员组

文章数量:1633029

deepl translate:

1. 管理训练数据,除去不包含任何攻击性或有偏见的词或短语

对于毒性和公平性,仔细管理训练数据可以提供一些改进。毕竟,如果数据不包含任何攻击性或有偏见的词或短语,LLM 根本无法生成它们。但这种方法要求我们提前识别那些冒犯性的短语,并确定在输出中绝对没有我们想要它们的上下文。特定于用例的测试还可以帮助解决公平性问题——例如,在将生成人工智能用于消费贷款等高风险领域之前,可以测试该模型针对该特定应用程序的公平性,就像我们可能为更多应用程序所做的那样狭窄的预测模型。

对于针对性较差的毒性概念,一种自然的方法是训练我们所谓的护栏模型,这些模型检测并过滤掉训练数据、输入提示和生成的输出中不需要的内容。此类模型需要人工注释的训练数据,其中识别出不同类型和程度的毒性或偏差,模型可以从中进行概括。一般来说,考虑到我们打算解决的任务的极端普遍性,控制生成模型的输出比管理训练数据和提示更容易。

2. 免责声明或给出注释

对于制作没有幻觉的高保真内容的挑战,重要的第一步是让用户了解生成式 AI 的实际工作原理,因此不要期望生成的引文或类似新闻的故事总是真实的或事实正确的。事实上,当前的一些 LLM 在被逼迫无法引用实际引文时,会告诉用户它们只是语言模型,不会使用外部资源验证其内容。此类免责声明应更加频繁和明确。并且可以通过使用检索增强生成等方法,使用独立的、经过验证的引文数据库和类似来源来增强 LLM,从而减轻幻觉引用的具体情况. 另一种新兴但有趣的方法是开发将生成的输出归因于特定训练数据的方法,允许用户评估这些来源的有效性。这也有助于解释。

随着时间的推移,技术、政策和法律机制的结合可能会解决对知识产权的担忧。在短期内,科学开始围绕各种模型吐出的概念出现,其中受保护的内容或其对生成输出的影响被减少或删除。一项可能最终证明相关的技术是差分隐私,其中模型的训练方式可确保任何特定的训练数据片段对模型随后产生的输出的影响可以忽略不计。

3. 分片方法-消除特定数据项对整个模型的影响

另一种方法是所谓的分片方法,它将训练数据分成更小的部分,在这些部分上训练单独的子模型;然后组合子模型以形成整体模型。为了消除任何特定数据项对整个模型的影响,我们只需要将其从分片中移除并重新训练该子模型,而不是重新训练整个模型(对于生成 AI 来说,这将非常昂贵以至于令人望而却步) .

4. 水印或指纹识别防作弊

一些使用生成人工智能来阻止作弊的有趣方法已经在开发中。一种是简单地训练一个模型来检测给定的(比如说)文本是由人类还是生成模型生成的。一个潜在的缺点是,这会在检测模型和生成式 AI 之间造成军备竞赛,并且由于生成式 AI 的目的是产生可能由人类生成的高质量内容,因此从长远来看,检测方法是否会成功尚不清楚。

一个有趣的替代方案是水印或指纹识别方法,它们将由生成模型的开发人员自己实施。例如,由于在每一步 LLM 都从给定文本的下一个单词的分布中抽取,我们可以将候选单词分为“红色”和“绿色”列表,每个列表的概率大约为 50%;然后我们可以让 LLM 只从绿名单中抽签。由于用户不知道绿色列表中的单词,因此人类生成同样仅从绿色列表中提取的 10 个单词的句子的可能性提高了 ½ 到第 10个功率,仅为 0.0009 左右。通过这种方式,我们可以将全绿色内容视为提供 LLM 生成的虚拟证明。请注意,LLM 开发人员需要提供此类证明或证书作为其服务产品的一部分。

参考链接:
Responsible AI in the generative era - Amazon Science

本文标签: 负责任方法AIresponsible