admin管理员组

文章数量:1606760

本文是LLM系列文章,针对《LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education》的翻译。

LLaVA-Docent:多模态大语言模式的指令调整支持艺术欣赏教育

  • 摘要
  • 1 引言
  • 2 文献综述
  • 3 方法
  • 4 结果
  • 5 讨论
  • 6 结论

摘要

艺术欣赏对于培养学习者的批判性思维和情商至关重要。然而,传统的艺术欣赏教育往往受到阻碍,因为获得艺术资源的机会有限,尤其是弱势学生,以及主流教育对STEM科目的不平衡重视。为了应对这些挑战,最近的技术进步为创新解决方案铺平了道路。本研究探讨了多模态大语言模型(MLLMs)在艺术欣赏教育中的应用,重点是开发LLaVA Docent,一个利用这些进步的模型。我们的方法包括全面的文献综述和与该领域专家的协商,从而开发出一个强大的数据框架。利用这个框架,我们生成了一个虚拟对话数据集,GPT-4利用了这个数据集。该数据集有助于训练名为LLaVA Docent的MLLM。六名研究人员对LLaVA Docent进行了定量和定性评估,以评估其有效性,并在小样本设置中将其与GPT-4模型进行了比较。评估过程揭示了LLaVA Docent模型的明显优势和劣势。我们的研究结果强调了LLaVA Docent在提高艺术欣赏教育的可及性和参与度方面的有效性。通过利用MLLMs的潜力,本研究对艺术教育领域做出了重大贡献,提出了一种新颖的方法,重新构想了艺术欣赏的教学和体验方式。

本文标签: LargelanguageMultimodalInstructiontuning