admin管理员组

文章数量:1620934

文章目录

  • 1 ChatGLM-Med: 基于中文医学知识的ChatGLM模型微调
    • 1.1 数据集
    • 1.2 ChatGLM+P-tuning V2微调
    • 1.3 Llama + Alpaca的Lora微调版本
  • 2 LawGPT_zh:中文法律大模型(獬豸)
    • 2.1 数据集
      • 2.1.1 利用ChatGPT清洗CrimeKgAssitant数据集得到52k单轮问答:
      • 2.1.2 带有法律依据的情景问答92k:
      • 2.1.3 法律知识问答
    • 2.2 模型
  • 3 ChatGLM+哈利波特剧本:ChatHarryPotter
    • 3.1 数据构造过程
    • 3.2 LLM微调模型的一些通病
  • 4 Lawyer LLaMA
    • 4.1 数据集
      • 4.1.1 通用指令微调数据
      • 4.1.2 法律指令微调数据
      • 4.1.3 法律咨询微调数据
    • 4.2 LLaMA 7B微调模型
  • 5 法律:Legal-ChatGLM
    • 5.1 数据集
      • 5.1.1 基于在线法律知识问答构造的指令集
      • 5.1.2 基于已有司法任务数据集构建的指令集合(未公开)
    • 5.2 模型
  • 6 医疗:MedQA-ChatGLM
    • 6.1 数据集
      • 6.1.1 中文医学问答数据集
      • 6.1.2 人设指令
      • 6.1.3 华佗、本草数据集
      • 6.1.4 CMD整合版本数据集:wangrongsheng/CMD-merged
      • 6.1.5 MedDialog-1.1M
    • 6.2 模型
  • 7 三国演义:ChatGLM微调
  • 8 MedicalGPT-zh:中文医疗对话语言模型
    • 8.1 数据集
      • 8.1.1 情景对话
      • 8.1.2 知识问答
    • 8.2 模型效果
  • 9 alpaca_chinese_dataset 翻译数据集
  • 10 BELLE:1.5M中文数据集
    • 10.1 数据集
      • 10.1.1 175个种子任务
      • 10.1.2 参考Stanford Alpaca 生成的中文数据集1M + 0.5M
      • 10.1.3 10M中文数据集
  • 11 Firefly(流萤): 中文对话式大语言模型
  • 12 中文对话模型 Linly-ChatFlow
    • 12.1 预训练语料
    • 12.2 指令精调数据
  • 13 pCLUE
  • 14 中文科学文献数据集(CSL)
  • 9 其他项目


头两篇在写【悟乙己:LangChain:通过LLM实现QA问答中的一些细节笔记(二)】和【悟乙己:LangChain:万能的非结构化文档载入详解(一)】
然后笔者自己也测试了一把ChatGLM的P-Tuning V2在【悟乙己:ChatGLM的P-Tuning v2微调笔记】感觉
LangChain+ChatGLM这一套知识库的打法有几种:

  • LLM基础模型 + 知识库(向量化搜索)
  • LLM微调模型 + 知识库(向量化搜索)

其中,笔者自己测试下来,如果你的数据集符合微调的标准,最好就是走第二种路线,效果会好些,这里我们从几个开源项目入手,来了解一下:

  • 数据准备的经过
  • 训练效果与开源模型

本文标签: 中文开源集锦模型数据