使用RAGAs + LlamaIndex进行RAG评估|电子爱好者

admin管理员组
文章数量:1590359

原文地址：Using RAGAs + LlamaIndex for RAG evaluation

2024 年 2 月 5 日

如果您已经为实际的业务系统开发了检索增强生成（Retrieval Augmented Generation, RAG）应用程序，那么您可能会关心它的有效性。换句话说，您想要评估RAG的性能。

此外，如果您发现您现有的RAG不够有效，您可能需要验证先进的RAG改进方法的有效性。换句话说，您需要进行评估，看看这些改进方法是否有效。

在本文中，我们首先介绍了由RAGAs(检索增强生成评估)提出的RAG的评估指标，这是一个用于评估RAG管道的框架。然后，我们解释了如何使用RAGAs + LlamaIndex实现整个评估过程。

RAG评价指标

简单地说，RAG的过程包括三个主要部分：输入查询、检索上下文和LLM生成的响应。这三个要素构成了RAG过程中最重要的三位一体，并且是相互依存的。

因此，可以通过测量这些三元组之间的相关性来评估RAG的有效性，如图1所示。

图1：RAG的有效性可以通过测量这些三元组之间的相关性来评估。

论文总共提到了3个指标：忠实度、答案相关性和上下文相关性，这些指标不需要访问人工注释的数据集或参考答案。

此外，RAGAs网站引入了另外两个指标：上下文精度和上下文召回。

Faithfulness/Groundedness

Faithfulness指的是确保答案是基于给定的上下文。这对于避免错觉和确保检索到的上下文可以用作生成答案的理由非常重要。

如果分数低，则表明LLM的回答不符合检索到的知识，提供幻觉答案的可能性增加。例如:

图2：高Faithfulness答案和低Faithfulness答案。来源:https://docs.ragas.io/en/latest/concepts/metrics/faithfulness.html。

为了估计信度，我们首先使用LLM提取一组语句，**S(a(q))**。方法是使用以下prompt:

1
2
3

Given a question and answer, create one or more statements from each sentence in the given answer.
question: [question]
answer: [answer]

在生成**S(a(q))之后，LLM确定是否可以从c(q)**中推断出每个语句si。此验证步骤使用以下prompt执行:

Consider the given context and following statements, then determine whether they are supported by the information present in the context. Provide a brief explan ation for each statement before arriving at the verdict (Yes/No). Provide a final verdict for each statement in order at the end in the given format. Do not deviate from the specified format.

statement: [statement 1]
...
statement: [statement n]

最终的忠实度得分**F计算为 F = |V|/|S|** &

本文标签： RAGAs LlamaIndex RAG

版权声明：本文标题：使用RAGAs + LlamaIndex进行RAG评估内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1728085296a1144895.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

【使用 langchain 创建RAG知识库完整教程】

1月前

RAG Let’s look at adding in a retrieval step to a prompt and LLM, which adds up to a “retrieval-augmented generation” c

【大模型系列——解读RAG】

29天前

RAG 是2023年最流行的基于 LLM 的应用系统架构。有许多产品几乎完全建立在 RAG 之上，覆盖了结合网络搜索引擎和 LLM 的问答服务，到成千上万个数据聊天的应用程序。很多人将RAG和Ag

【大模型系列——解读RAG】_大模型rag是什么意思

29天前

文末有福利！ RAG 是2023年最流行的基于 LLM 的应用系统架构。有许多产品几乎完全建立在 RAG 之上，覆盖了结合网络搜索引擎和 LLM 的问答服务，到成千上万个数

【LLM-RAG】BGE M3-embedding模型（模型篇|混合检索、多阶段训练）

25天前

note M3-Embedding联合了3种常用的检索方式，对应三种不同的文本相似度计算方法。可以基于这三种检索方式进行多路召回相关文档，然后基于三种相似度得分平均求和对召回结果做进一步重排。

Retrieval Augmented Generation (RAG): A Comprehensive Visual Walkthrough

25天前

Retrieval Augmented Generation (RAG): A Comprehensive Visual Walkthrough

检索增强生成RAG系列3--RAG优化之文档处理

22天前

在上一章中罗列了对RAG准确度的几个重要关键点，主要包括2方面，这一章就针对其中第一个方面，来做详细的讲解以及其解决方案。目录 1 文档解析1.1 文档解析工具1.2 实

RAG 革命：NVIDIA 工作站如何成为企业 AI 的秘密武器

20天前

在深圳的一家科技初创公司，首席技术官李梅正在向她的团队展示一个令人兴奋的新项目。“看这个，” 她指着屏幕上的实时演示说，“我们刚刚用公司的技术文档训练了一个 AI 助手&am

向量数据库路在何方？结合RAG的发展谈谈它的未来

17天前

数据库网红教授 Andy Pavlo 于 2024 年 1 月 4 日他的博客发表了 2023 年度数据库报告，正文开始就是向量数据库的兴起。对于所有数据库从业人员来说，都知道 2023 年是向量

基于Neo4j将知识图谱用于检索增强生成：Knowledge Graphs for RAG

17天前

Knowledge Graphs for RAG 本文是学习https:www.deeplearning.aishort-coursesknowledge-graphs-rag这门课的学习笔记。 What you’ll lear

学习笔记 | 茴香豆：搭建你的RAG智能助理

3天前

一、RAG技术简述 RAG (Retrieval Augmented Generation) 是一种结合了检索和生成的技术，旨在通过利用外部知识库来增强LLMs的性能，通过检索与用户输入相关

[书生浦语] 大模型实战：搭建你的RAG智能助理

3天前

0 RAG 概述 RAG 效果比对 1 环境配置 1.1 配置基础环境1.2 下载基础文件1.3 下载安装茴香豆 2 使用茴香豆搭建 RAG 助手 2.1 修改配置文件2.2 创建知识库2.3 运行茴香豆知识助手 3 茴香豆进阶&#

实训营第三课RAG

3天前

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录茴香豆：搭建你的 RAG 智能助理一、课程简介二、RAG1.RAG技术概述2

三、“茴香豆”：搭建你的 RAG 智能助理

3天前

文章目录 RAG 概述环境配置配置基础环境下载基础文件下载安装茴香豆使用茴香豆搭建 RAG 助手修改配置文件创建知识库运行茴香豆知识助手茴香豆进阶加入网络搜索使用远程模型利用 Gradio 搭建网页 Demo配置文件解析文件结构 htt

LLM之RAG实战（三十二）| 使用RAGAs和LlamaIndex评估RAG

2小时前

在之前的文章中，我们介绍了RAG的基本流程和各种优化方法（query重写，语义分块策略以及重排序等）。那么，如果发现现有的RAG不