admin管理员组文章数量:1650764
对比语言图像预训练(CLIP)
虽然prompt-tuning用于textual inputs,但是建议CLIP Adapter在视觉或语言分支上使用功能适配器进行fine-tune
CLIPAdapter采用了一个额外的瓶颈层来学习新的特征,并将剩余的特征与原始的预训练特征进行混合。
为了更好地适应vision语言模型,使用功能适配器,而不是快速调整
1. Classifier Weight Generation for Few-Shot Learning
Co0P方法
a classifier weight matrix W(D,K),D维度,K类别分类,得到K-维度 logit
hard-prompt,pre-defined hard prompt template H.
soft-prompt,random-initialized learnable soft tokens
2. CLIP Adapter
只在CLIP的语言和图像分支上附加少量可学习的瓶颈线性层,在few-shot , fine-tuning期间,保持原始clip主干冻结。
然而,使用附加层进行简单的微调在few-shot中仍然可能会陷入过度拟合。为了解决过拟合问题,提高CLIP-Adapter的鲁棒性,进一步采用残差连接,将微调后的知识与CLIP主干中的原始知识动态融合。
image feature f , classifier weight W
本文标签: VisionAdapterCLIPlanguageAdapters
版权声明:本文标题:CLIP-Adapter: Better Vision-Language Models with Feature Adapters 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dianzi/1729532428a1204976.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论