LLaMA|电子爱好者

admin管理员组
文章数量:1631718

LLaMA

LLaMA-Adapter源码解析

伪代码

def transformer_block_with_llama_adapter(x, gating_factor, soft_prompt):residual =xy= zero_init_attention(soft_prompt, x) # llama-adapter: prepend prefixx= self_attention(x)x = x+ gating_factor * y  # llama-adapter: apply zero_init_attentionx = LayerNorm(x+residual)residual = xx = FullyConnectedLayers(x)x = AdapterLayers(x)x = LayerNorm(x + residual)return x

源码

class Attention(nn.Module):def __init__(self, args: ModelArgs):super().__init__()self.n_local_heads = args.n_heads // fs_init.get_model_parallel_world_size()self.head_dim = args.dim // args.n_headsself.wq = ColumnParallelLinear(args.dim,args.n_heads * self.head_dim,bias=False,gather_output=False,init_method=lambda x: x,)self.wk = ColumnParallelLinear(args.dim,args.n_heads * self.head_dim,bias=False,gather_output=False,init_method=lambda x: x,)self.wv = ColumnParallelLinear(args.dim,args.n_heads * self.head_dim,bias=False,gather_output=False,init_method=lambda x: x,)self.wo = RowParallelLinear(args.n_heads * self.head_dim,args.dim,bias=False,input_is_parallel=True,init_method=lambda x: x,)self.cache_k = torch.zeros((args.max_batch_size, args.max_seq_len, self.n_local_heads, self.head_dim)).cuda()self.cache_v = torch.zeros((args.max_batch_size, args.max_seq_len, self.n_local_heads, self.head_dim)).cuda()self.gate = torch.nn.Parameter(torch.zeros(1))def forward(self, x: torch.Tensor, start_pos: int, freqs_cis: torch.Tensor, mask: Optional[torch.Tensor], adapter=None):bsz, seqlen, _ = x.shapexq, xk, xv = self.wq(x), self.wk(x), self.wv(x)xq = xq.view(bsz, seqlen, self.n_local_heads, self.head_dim)xk = xk.view(bsz, seqlen, self.n_local_heads, self.head_dim)xv = xv.view(bsz, seqlen, self.n_local_heads, self.head_dim)xq, xk = apply_rotary_emb(xq, xk, freqs_cis=freqs_cis)self.cache_k = self.cache_k.to(xq)self.cache_v = self.cache_v.to(xq)self.cache_k[:bsz, start_pos : start_pos + seqlen] = xkself.cache_v[:bsz, start_pos : start_pos + seqlen] = xvkeys = self.cache_k[:bsz, : start_pos + seqlen]values = self.cache_v[:bsz, : start_pos + seqlen]if adapter is not None:adapter_len = adapter.shape[1]adapter_k = self.wk(adapter).view(1, adapter_len, self.n_local_heads, self.head_dim).repeat(bsz, 1, 1, 1)adapter_v = self.wv(adapter).view(1, adapter_len, self.n_local_heads, self.head_dim).repeat(bsz, 1, 1, 1)adapter_k = adapter_k.transpose(1, 2)adapter_v = adapter_v.transpose(1, 2)xq = xq.transpose(1, 2)keys = keys.transpose(1, 2)values = values.transpose(1, 2)scores = torch.matmul(xq, keys.transpose(2, 3)) / math.sqrt(self.head_dim)if mask is not None:scores = scores + mask  # (bs, n_local_heads, slen, cache_len + slen)scores = F.softmax(scores.float(), dim=-1).type_as(xq)output = torch.matmul(scores, values)  # (bs, n_local_heads, slen, head_dim)if adapter is not None:adapter_scores = torch.matmul(xq, adapter_k.transpose(2, 3)) / math.sqrt(self.head_dim)adapter_scores = self.gate * F.softmax(adapter_scores.float(), dim=-1).type_as(xq)output = output + torch.matmul(adapter_scores, adapter_v)output = output.transpose(1, 2).contiguous().view(bsz, seqlen, -1)return self.wo(output)

本文标签： LLaMA

版权声明：本文标题：LLaMA 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1716842968a522717.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

LLaMA

4月前

五一假期Llama 3之魔改不完全攻略（Part 2)

1月前

2024年4月18日，Meta AI 正式宣布推出 Llama 3，这标志着开源大型语言模型（LLM）领域的又一重大进步。如同一颗重磅炸弹&#x

Llama-factory源码详细解读

1月前

微调采用逐行调试的方法，细节来看SFT代码 #mermaid-svg-ygujiVh1wygmSv74 {font-family:"trebuchet ms",verdana,arial,san

LLaMA的解读与其微调(含LLaMA 2)：Alpaca-LoRAVicunaBELLE中文LLaMA姜子牙

29天前

前言近期，除了研究ChatGPT背后的各种技术细节不断看论文(至少100篇，100篇目录见此：ChatGPT相关技术必读论文100篇)，还开始研究

LLaMA Factory单机微调的实战教程

29天前

大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若

羊驼2:开放的基础和微调聊天模型--Llama 2论文阅读

26天前

论文地址：https:arxivpdf2307.09288.pdfd 代码地址：GitHub - facebookresearchllama-recipes: Examples and recipes for Llama 2 m

【AIGC调研系列】llama 3与GPT4相比的优劣点

26天前

Llama 3与GPT-4相比，各有其优劣点。以下是基于我搜索到的资料的详细分析： Llama 3的优点： 更大的数据集和参数规模：Llama 3基

【LLM大模型】Llama 3 8B模型微调实战

23天前

大多数人工智能领域的工具都会使用到Python，这个需要提前安装，同时推荐使用虚拟环境进行环境的隔离，比如用Anaconda（conda create

LLMs之LLaMA：《LLaMA: Open and Efficient Foundation Language Models》翻译与解读

10天前

LLMs之LLaMA：《LLaMA: Open and Efficient Foundation Language Models》翻译与解读导读：2023年2月24日，Me

Llama 3.1 技术研究报告-2

6天前

3.3 基础设施、扩展性和效率我们描述了⽀持Llama 3 405B⼤规模预训练的硬件和基础设施，并讨论了⼏项优化措施，这些措施提⾼了训练效率。 3.3.1 训练基础设施 Llama 1和

LLama 405B 技术报告解读

6天前

LLama 405B 技术报告解读果然传的消息都是真的，meta在24号凌晨发布了llama 3的405B版本，这次还是做一个技术报告解读。值得一提的是，在技术报告的

The Llama 3 Herd of Models.Llama 3 模型第1,2,3部分全文

6天前

现代人工智能(AI)系统是由基础模型驱动的。本文提出了一套新的基础模型，称为Llama 3。它是一组语言模型，支持多语言、编码、推理和工具使用。我们最大的模型是一个密集的Transformer，具有405

Llama2通过llama.cpp模型量化 Windows&Linux本地部署

5天前

Llama2通过llama.cpp模型量化 Windows&Linux本地部署什么是LLaMA 1 and 2 LLaMA，它是一组基础语言模型，参数范围从7B到65B。在数万亿的t

只要8G显卡！本地运行最强Llama 3.1大模型！

6小时前

前几天，Meta发布了他们迄今为止体量最大的开源AI模型——Llama 3.1。这个模型在多项基准测试中表现卓越，甚至优于GPT-4o和Anthropic的Claude 3.5 Sonnet。这

LLaMa 3或将推迟到7月发布，剑指GPT-4，从Gemini吸取教训

5小时前

LLaMa 3 正寻找安全与可用性的新平衡点。过去的图像生成模型常被人们诟病人物主要以「白人」为主，而谷歌 Gemini 正在因为它的矫枉过正而深陷翻车风波。它「过度谨慎」的文生图结果会与历史事实出现极大偏差&

叫板李彦宏、Llama 3 发布，大模型的开源闭源到底在争什么？

5小时前

最近两周，有关开源 PK 闭源的讨论吸引了许多人的关注。事情是这样的： 在不久前的百度 create 大会上，李彦宏放出观点：开源模型的能力会被闭

【ai大模型】关于Llama 3 AI大模型的几点总结

5小时前

Meta最近终于发布了Llama3大模型，OpenAI和CloseAI又要“开战了”，以下是关于Llama3的几点总结： 1、发布时间 Llama3的发布时间是北京时间4

电子爱好者 - 最新技术资讯及电子产品介绍！

LLaMA

LLaMA

LLaMA-Adapter源码解析

伪代码

源码

更多相关文章

LLaMA

五一假期Llama 3之魔改不完全攻略（Part 2)

Llama-factory源码详细解读

LLaMA的解读与其微调(含LLaMA 2)：Alpaca-LoRAVicunaBELLE中文LLaMA姜子牙

LLaMA Factory单机微调的实战教程

羊驼2:开放的基础和微调聊天模型--Llama 2论文阅读

【AIGC调研系列】llama 3与GPT4相比的优劣点

【LLM大模型】Llama 3 8B模型微调实战

LLMs之LLaMA：《LLaMA: Open and Efficient Foundation Language Models》翻译与解读

Llama 3.1 技术研究报告-2

LLama 405B 技术报告解读

The Llama 3 Herd of Models.Llama 3 模型第1,2,3部分全文

Llama2通过llama.cpp模型量化 Windows&amp;Linux本地部署

只要8G显卡！本地运行最强Llama 3.1大模型！

LLaMa 3或将推迟到7月发布，剑指GPT-4，从Gemini吸取教训

叫板李彦宏、Llama 3 发布，大模型的开源闭源到底在争什么？

【ai大模型】关于Llama 3 AI大模型的几点总结

发表评论

推荐文章

基础总结：计算机网络、操作系统、Java基础、JVM、JUC、SSM框架、数据结构和算法、MySQL、Redis技术栈、Linux常用命令

Dr.COM宽带认证客户端网络环境使用路由器上网

不能升级鸿蒙系统还可以用吗,华为推出鸿蒙系统后，鸿蒙系统在原android系统上是选择升级还是强制升级...

ubuntu 极点五笔万能五笔 for ibus

计算机网络 实验二 主机系统网络参数配置与测试

热门文章

城市百晓生用户隐私政策

Qt商业组件QtitanRibbon：致力于现代化Office界面开发

安卓：打包apk时出现Execution failed for task ‘:app:lintVitalRelease 或 Lint infrastructure error

Windows2008系统克隆——GHOST备份还原系统

excel换行快捷键_超实用的16个Excel快捷键，一定要收藏！

鸿蒙HarmonyOS教程-开发准备和HelloWorld【入门篇】

磨刀室－文本编辑之全面接触PDF:最好用的PDF软件汇总（转）

缺氧游戏计算机,缺氧PC最低什么配置一览 你觉得高吗

【技术选型】时序数据库选型

java调用chatGpt API接口代码实操

最新文章

c盘多大 学计算机,电脑win7系统C盘多大最为合适？

随着时间推移虚拟机C盘空间不够，如何在原有C盘基础上进行扩容！

在win11 迁移 WSL 到其他盘 - 解决C盘空间不足

前端开发的小伙伴们，win10系统经常遇到C盘空间不够，三步操作C盘瞬间多了10G以上

如何把电脑D盘空闲的内存分给C盘

PyCharm缓存将C盘挤爆？一招帮你从根本上解决(超详细)

C盘已满完美解决方案

C盘扩容好帮手——傲梅分区助手

c盘扩容提示簇被标记_技能+ | C盘空间满了怎么办？无需格式化、不用重装系统，教你如何轻松搞定扩容...

昨天刚扩容80G，今天C盘就爆满了？C盘莫名其妙少了60G，使用Spacesniff也扫描不出来

电脑C盘爆满问题

VSCode(Visual Studio Code)扩展及缓存占用C盘空间问题的解决

pycharm使用时C盘内存暴涨几个方案

windows 10 C盘扩容记（含删除状态良好分区）

C盘满了怎么办?

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

Llama2通过llama.cpp模型量化 Windows&Linux本地部署

计算机网络实验二主机系统网络参数配置与测试

缺氧游戏计算机,缺氧PC最低什么配置一览你觉得高吗

c盘多大学计算机,电脑win7系统C盘多大最为合适？

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载