Evaluating Large Language Models: A Comprehensive Survey|电子爱好者

admin管理员组
文章数量:1564171

本文是LLM系列文章，针对《Evaluating Large Language Models: A Comprehensive Survey》的翻译。

评估大型语言模型：一项综合调查

摘要
1 引言
2 分类和路线图
3 知识和能力评估
4 对齐评估
5 安全评估
6 专业LLM评估
7 评估组织
8 未来方向
9 结论

摘要

大型语言模型（LLM）在广泛的任务范围内表现出了非凡的能力。它们引起了人们的极大关注，并被部署在许多下游应用程序中。然而，类似于一把双刃剑，LLM也存在潜在风险。他们可能会遭受私人数据泄露或产生不恰当、有害或误导性的内容。此外，LLM的快速发展引发了人们对在没有足够保障的情况下可能出现的超级智能系统的担忧。
为了有效利用LLM能力并确保其安全和有益的发展，对LLM进行严格和全面的评估至关重要。本次调查旨在为LLM的评估提供一个全景视角。我们将LLM的评估分为三大类：知识和能力评估、对齐评估和安全评估。除了对这三个方面的评估方法和基准进行全面审查外，我们还整理了与LLM在专业领域的表现有关的评估简编，并讨论了涵盖LLM能力、一致性、安全性和适用性评估的综合评估平台的构建。
我们希望这一全面的概述将激发对LLM评估的进一步研究兴趣，最终目标是使评估成为指导LLM负责任发展的基石。我们设想，这将引导他们朝着最大限度地提高社会效益同时最大限度地降低潜在风险的方向发展。相关论文的策划列表已在GitHub存储库中公开。

1

本文标签： language Large Evaluating Survey Comprehensive

版权声明：本文标题：Evaluating Large Language Models: A Comprehensive Survey 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1725897408a1047817.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Evaluating Large Language Models: A Comprehensive Survey

评估大型语言模型：一项综合调查

摘要

1

更多相关文章

Comprehensive Rust—— 走进Rust语言的深海探索之旅

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

【OCP学习1Z0-053记录21】【11g】STA Limited（有限制）”选项Comprehensive（综合）”选项

慢慢记录一下关于《A Comprehensive Survey on Graph Neural Networks》论文的研究吧

a comprehensive guide for linear ridge and lasso regression

How to Bridge the Gap between Modalities: A Comprehensive Survey on Multi-modal Large Language Model

Comprehensive tempdb blog post series

[paper] 00033 Distance Metric Learning：A Comprehensive Survey

The TCPIP Guide: A Comprehensive, Illustrated Internet Protocols Reference [ILLUSTRATED]

DOM EventListener: A Comprehensive Guide

Ionic Toggle: A Comprehensive Guide

PHP Timezones: A Comprehensive Guide

GOT-10k: A Large High-Diversity Benchmark forGeneric Object Tracking in the Wild（论文翻译）

【IEEE】Multimodal Machine Learning: A Survey and Taxonomy

【Chain-of-Thought 专题】Self-consistency Improves Chain Of Thought Reasoning in Language Models

chain of thought prompting elicits reasoning in large language models

RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for TTS

【论文阅读】Evaluating Mixed-initiative Conversational Search Systems via User Simulation

Cognitive Architectures for Language Agents

Lecture #4:How to Conduct and Write Literature Survey(I)

发表评论

推荐文章

手机浏览器User_Agent乱象

一步到位——Node版本管理神器nvm安装教程（2024最新）

Linux_Shell脚本学习第三章-以文件之名(下)

win10共享打印机怎么设置_win10和win7共享打印机设置方法

Kali Linux基础-抓包与WIFI密码暴力破解

热门文章

腾达n318虚拟服务器,腾达N318无线路由器的设置教程

小学计算机基础知识汇总,电脑基础知识：内存条知识大全，看完小学生都了解...

小白也能看懂的网络基础 | 02 什么是连接设备？

服务器处理蜘蛛抓取网页的过程,搜索引擎蜘蛛抓取页面过程图解

Linux 系统编程从入门到进阶 学习指南

零门槛微调大模型：基于 Ludwig 低代码框架使用 LoRA 技术微调实践

还在用夸克？这3款能安装插件的手机浏览器不香吗

新版vue-cli，部分手机浏览器访问白屏

linux 命令行 迅雷替代,linux下迅雷的替代

云手机和模拟器有什么区别？

最新文章

记一次老手机连接Wifi显示已保存，却不真正连接

安卓手机WiFi信号桥，增强版个人热点，wifi中继（第三方软件设置）root权限设置增强版个人热点名称密码

Kali Linux基础-抓包与WIFI密码暴力破解

android wifi热点默认名称,Android 修改WiFi热点的默认SSID和密码

W ndows7怎样查看wF密码,Win7秘笈：如何查看系统储存的WiFi密码？

android 手机wifi重启,android – 如何通过重启来记住wifi配置和连接网络

android wifi名称修改器,360随身WIFI(SSID)名称修改工具v1.5.0

教你如何查看连接过的wifi密码

怎么更改wifi频段_我告诉你wifi频段怎么设置

手机怎么看WiFi的IP地址

MAC系统下破解WIFI密码

Android Wifi热点通信，及Android7.0上修改手机连接wifi方法，和其他大神提供的方法稍作修改

kali系统破解wifi密码

【毕业设计】 stm32单片机的远程WIFI密码锁 - 物联网 嵌入式

教你如何更改wifi密码以及防蹭网

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

Linux 系统编程从入门到进阶学习指南

linux 命令行迅雷替代,linux下迅雷的替代

【毕业设计】 stm32单片机的远程WIFI密码锁 - 物联网嵌入式

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载