LLM大模型中文开源数据集集锦（三）|电子爱好者

admin管理员组
文章数量:1620934

文章目录

1 ChatGLM-Med: 基于中文医学知识的ChatGLM模型微调
- 1.1 数据集
- 1.2 ChatGLM+P-tuning V2微调
- 1.3 Llama + Alpaca的Lora微调版本
2 LawGPT_zh：中文法律大模型（獬豸）
- 2.1 数据集
- - 2.1.1 利用ChatGPT清洗CrimeKgAssitant数据集得到52k单轮问答：
  - 2.1.2 带有法律依据的情景问答92k:
  - 2.1.3 法律知识问答
- 2.2 模型
3 ChatGLM+哈利波特剧本：ChatHarryPotter
- 3.1 数据构造过程
- 3.2 LLM微调模型的一些通病
4 Lawyer LLaMA
- 4.1 数据集
- - 4.1.1 通用指令微调数据
  - 4.1.2 法律指令微调数据
  - 4.1.3 法律咨询微调数据
- 4.2 LLaMA 7B微调模型
5 法律：Legal-ChatGLM
- 5.1 数据集
- - 5.1.1 基于在线法律知识问答构造的指令集
  - 5.1.2 基于已有司法任务数据集构建的指令集合(未公开)
- 5.2 模型
6 医疗：MedQA-ChatGLM
- 6.1 数据集
- - 6.1.1 中文医学问答数据集
  - 6.1.2 人设指令
  - 6.1.3 华佗、本草数据集
  - 6.1.4 CMD整合版本数据集：wangrongsheng/CMD-merged
  - 6.1.5 MedDialog-1.1M
- 6.2 模型
7 三国演义:ChatGLM微调
8 MedicalGPT-zh：中文医疗对话语言模型
- 8.1 数据集
- - 8.1.1 情景对话
  - 8.1.2 知识问答
- 8.2 模型效果
9 alpaca_chinese_dataset 翻译数据集
10 BELLE：1.5M中文数据集
- 10.1 数据集
- - 10.1.1 175个种子任务
  - 10.1.2 参考Stanford Alpaca 生成的中文数据集1M + 0.5M
  - 10.1.3 10M中文数据集
11 Firefly(流萤): 中文对话式大语言模型
12 中文对话模型 Linly-ChatFlow
- 12.1 预训练语料
- 12.2 指令精调数据
13 pCLUE
14 中文科学文献数据集（CSL）
9 其他项目

头两篇在写【悟乙己：LangChain:通过LLM实现QA问答中的一些细节笔记（二）】和【悟乙己：LangChain:万能的非结构化文档载入详解（一）】
然后笔者自己也测试了一把ChatGLM的P-Tuning V2在【悟乙己：ChatGLM的P-Tuning v2微调笔记】感觉
LangChain+ChatGLM这一套知识库的打法有几种：

LLM基础模型 + 知识库（向量化搜索）
LLM微调模型 + 知识库（向量化搜索）

其中，笔者自己测试下来，如果你的数据集符合微调的标准，最好就是走第二种路线，效果会好些，这里我们从几个开源项目入手，来了解一下：

数据准备的经过
训练效果与开源模型

本文标签：中文开源集锦模型数据

版权声明：本文标题：LLM大模型中文开源数据集集锦（三）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1728828836a1175563.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

【python爬虫】爬取《英雄联盟》英雄及皮肤图片数据

12小时前

还记得那些年一起网吧开黑通宵的日子吗？《英雄联盟》绝对是大学时期的风靡游戏，即使毕业多年的大学同学相聚，难免不怀念一番当时一起玩《英雄联盟》的日子。今天就给大家分享一下英

LPL比赛数据可视化，完成这个项目，用尽了我的所有Python知识

11小时前

LPL比赛数据可视化效果图完成这个项目，我感觉我已经被掏空了，我几乎用尽了我会的所有知识 htmlcssjavascriptjQuerypythonrequestsnumpymysqlpym

Arduino--ESP8266物联网WIFI模块（贝壳物联）--数据上传服务器（单数据接口）

10小时前

一、简介随着移动物联网的发展，各场景下对于物联控制、数据上传、远程控制的诉求也越来越多，基于此乐鑫科技推出了便宜好用性价比极高的wifi物联模块——ESP8266，话不多

UiBot无法抓取Google Chrome元素和数据抓取工具无法使用的解决方案

7小时前

UiBot RPA抓取 Google Chrome 元素建议使用 Google Chrome 原版浏览器，不建议使用二次修改的浏览器版本，以确保兼容性最佳、操作流程符合本教程。如果无法抓取

Google Chrome谷歌浏览器中安装JsonView插件实现json数据转码、缩进、格式化的方法

7小时前

详细教程：Google Chrome谷歌浏览器中安装JsonView插件实现json数据转码、缩进、格式化的方法（含插件压缩包） 目录写在前面的话软件安装包分享具体安装

谷歌浏览器GOOGLE CHROME备份收藏夹数据

7小时前

谷歌浏览器 Google Chrome 收藏夹由于没有插件支持，数据不能灵活备份，在一台电脑上使用，再到另外一台电脑使用，新的数据并没有同步&#

Mac苹果电脑安装软件显示：映像数据已损坏的解决办法

5小时前

刚安装的mac系统，Mac苹果电脑安装软件显示：打不开以下磁盘映像~映像数据已损坏，如下图所示。有两种情况， 映像数据已损坏的情况一&#xff

Scapy 中文文档：二、下载和安装

5小时前

下载和安装译者：飞龙原文：Download and Installation 协议：CC BY-NC-SA 4.0 概览安装 Python 2.5。下载并安装 Sca

让Android WiFi支持中文

4小时前

让Android WiFi支持中文先要弄清楚以下几点：一、 Android显示的WiFi名字，计算机都是以二进制处理的数据的，所以接受到的这个名字一定是一个二进制数

树莓派重启WiFi、创建超级管理员、安装Vim编辑器、中文拼音输入法等常用命令与复制粘贴快捷方式

4小时前

树莓派常用命令常用命令重启网络： sudo service networking restart设置管理员密码： sudo passwd root普通用户下输入安装Vim&#

IDM下载器 Internet Download Manager v6.42.20 多语言中文破解版

4小时前

Internet Download Manager (IDM) 是一款功能强大的下载加速器，能够将下载速度提高最多8倍。其独特的动态文件分割技术可以在下载过程中实时分割文件，并重复利用已有的连接&

数据中台，概念炒作还是另有奇效？ | TVP思享

3小时前

导语 | 数据中台被誉为大数据的下一站，成为了人们谈论的焦点，2019年也被称为数据中台元年。但是数据中台是什么？它和数据仓库、商业智能、大数据平台有什么区别&#xf

卖旧手机时恢复出厂设置就能不泄露数据？微信官方辟谣了！

2小时前

👇👇关注后回复 “进群” ，拉你进程序员交流群👇👇 来源丨扩展迷Extfans https:mp.weixin.qq

神器EasyRecovery2024中文电脑版下载！让数据恢复不再难

2小时前

在数字化时代，数据就是我们的财富。无论是重要的工作报告，还是那些珍贵的生活瞬间照片，或是我们与朋友间的聊天记录，都储存在我们的电脑或手机中。然而&

手机恢复出厂设置还能找回数据吗

2小时前

手机恢复出厂设置还能找回数据吗之前都是用的iphone手机，俄然一换到安卓手机还真的不习惯。但是这款安卓手机的像素要比我的4s高多了，那就变身成安卓党吧。但是，两套系统确实

Easyrecovery 及时高效恢复误删数据

2小时前

摘要：数据对用户的重要性不言而喻，当数据丢失后，easyrecovery能够快速有效的找回丢失数据，免除用户的后顾之忧。 Easyrecovery数据恢

如何引导企业数据“价值变现”，看能源化工业的数据化管理

2小时前

核心内容：供应链管理，阿米巴管理，能源化工行业四大业务特点，六大管理现状，管理经营数据化五大问题，能源化工行

备份和恢复数据的4个最佳实践

1小时前

保护和访问企业数据，对于每个或大或小的现代企业来说，都是需要优先考虑一个问题。根据调查机构的研究，2016年的数据泄露事件与2015年同期相比增长了16%。这一上升趋势一直在

PaddleOCR本地部署（安装，使用，模型优化加速）

58分钟前

文章目录 1. 安装1.1 还是需要paddle1.2 确认各种包和环境1.3 可能不需要paddle？ 2. 使用2.1 配置摄像头，读取，识别，显示

android-pdf阅读器（Android开源项目）

1分钟前

这只是我从github上面下载下来改动一下而已。毕竟github上面是studio运行的，而我用的是eclipse我的代码地址：http:download.csdndetaillxj1

电子爱好者 - 最新技术资讯及电子产品介绍！

LLM大模型中文开源数据集集锦（三）

文章目录

更多相关文章

【python爬虫】爬取《英雄联盟》英雄及皮肤图片数据

LPL比赛数据可视化，完成这个项目，用尽了我的所有Python知识

Arduino--ESP8266物联网WIFI模块（贝壳物联）--数据上传服务器（单数据接口）

UiBot无法抓取Google Chrome元素和数据抓取工具无法使用的解决方案

Google Chrome谷歌浏览器中安装JsonView插件实现json数据转码、缩进、格式化的方法

谷歌浏览器GOOGLE CHROME备份收藏夹数据

Mac苹果电脑安装软件显示：映像数据已损坏的解决办法

Scapy 中文文档：二、下载和安装

让Android WiFi支持中文

树莓派重启WiFi、创建超级管理员、安装Vim编辑器、中文拼音输入法等常用命令与复制粘贴快捷方式

IDM下载器 Internet Download Manager v6.42.20 多语言中文破解版

数据中台，概念炒作还是另有奇效？ | TVP思享

卖旧手机时恢复出厂设置就能不泄露数据？微信官方辟谣了！

神器EasyRecovery2024中文电脑版下载！让数据恢复不再难

手机恢复出厂设置还能找回数据吗

Easyrecovery 及时高效恢复误删数据

如何引导企业数据“价值变现”，看能源化工业的数据化管理

备份和恢复数据的4个最佳实践

PaddleOCR本地部署（安装，使用，模型优化加速）

android-pdf阅读器（Android开源项目）

发表评论

推荐文章

情人节福利，用JAVA做个QQ机器人，帮我提醒女神按时喝水和陪她聊天～(开源)

尝试释放C盘空间

计算机无法打印图片,Win7电脑连接打印机可以打印文档不能打印图片怎么办

傲骨贤妻第一季全集The Good Wife迅雷下载

Flink核心篇，四大基石、容错机制、广播、反压、序列化、内存管理、资源管理...

热门文章

怎样才能跳过实名认证_和平精英qq怎么跳过实名认证!老司机告诉你仅需5步

在电脑的网络中看不到计算机,在网上邻居中看不到自己的电脑也看不到别人的解决方法...

计算机显示屏对比度怎么调整,如何调节电脑屏幕亮度（电脑如何调节显示器亮度和对比度？）...

CentOS8 su: Authentication failure但SSH可以

Unity发布WebGL，如何调用浏览器打开其他网页链接

JS判断是否在微信浏览器打开

编程干货 五年工作经历的程序员，叫你们如何破解WiFi。

华为无线WiFi配置802.1x认证

vscode修改插件的安装的位置，从c盘转移到其他盘

【电赛最全备赛资源】电赛历年赛题源码+老学长挥泪经验之谈（文章较长全网最全）+电赛论文写作模板及评分标准【19电磁炮、17板球、15风力摆、13倒立摆、94-21全国大学生电子设计竞赛历年真题】

最新文章

adobe pdf 阅读器提示“文档证书的有效性未知。无法验证作者”

万能pdf阅读器卸载

编译MuPdf----实现PDF阅读器（1）

Foxit Mobile PDF SDK---让你分分钟实现一个自己的PDF阅读器

android-pdf阅读器（Android开源项目）

flutter的PDF阅读器

Ubuntu-可以编辑的PDF阅读器Master

前端pdf-阅读器-3d版

PDF阅读器的这些功能，你一定要知道

推荐一个好用的PDF阅读器

Adobe Reader PDF阅读器背景设置为护眼豆沙色

可以记录阅读进度的 pdf 电脑阅读器

bookxnote手机版_BookxNote(PDF阅读器)下载_BookxNote最新版下载1.0.0.9-游迅网

Ubuntu 下最好用的pdf阅读器okular

iOS 中使用Mupdf教程 pdf阅读器

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

编程干货五年工作经历的程序员，叫你们如何破解WiFi。

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载