admin管理员组

文章数量:1631670

常见大模型

国家对话产品大模型链接
美国OpenAI ChatGPTGPT-3.5、GPT-4https://chat.openai/
美国Microsoft CopilotGPT-4 和未知https://copilot.microsoft/
美国Google BardGeminihttps://bard.google/
中国百度文心一言文心 4.0https://yiyan.baidu/
中国讯飞星火星火 3.5https://xinghuo.xfyun/
中国智谱清言GLM-4https://chatglm/
中国月之暗面 Kimi ChatMoonshothttps://kimi.moonshot/
中国MiniMax 星野abab6https://www.xingyeai/
中国阿里通义千问
中国字节跳动:豆包
中国昆仑万维:天工
中国百川智能
中国腾讯:混元

画图模型
midjourney Discord、stable Diffusion
文生视频模型:runWay pika

常见编码大模型

  • 阿里巴巴:通义灵码
  • GitHub、微软:copilot
  • Amazon:codewhisperer
  • 百度:comate
  • 智谱AI:CodeGeeX
  • 科大讯飞:iFlyCode

比肩Sora,免费试用!国外惊讶,中国文生视频模型超高质量!

20240904
中国知名大模型平台MiniMax旗下的海螺AI,最新上线的文生视频产品,受到了国外的盛赞,多数人表示一点也不比Sora、Runway、luma等国际顶级产品差。

生成视频的质量、推理效率、动作一致性/多样性、文本语义还原、色彩搭配、景深、光影效果等非常优秀,是既快手发布的可灵视频模型之后,咱们村出来的第二位“大学生”成绩是相当的亮眼。

免费体验地址:https://hailuoai/video

https://mp.weixin.qq/s/Ft09XeZj3JAMS9JHHlQa_g

专用于理解游戏场景的开源大模型-VideoGameBunny

20240903
大模型在游戏开发领域扮演了重要角色,从AI机器人生成到场景搭建覆盖各个领域。但在游戏场景理解、图像识别、内容描述方面很差。

为了解决这些难题,加拿大阿尔伯塔的研究人员专门开源了一款针对游戏领域的大模型VideoGameBunny(以下简称“VGB”)。

开源地址:https://huggingface.co/VideoGameBunny/VideoGameBunny-V1/tree/main

https://mp.weixin.qq/s/gS_8LZShO2eaSbJdvgV0HA

商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型

20240831
商汤科技、清华大学、上海AI实验室、哈尔滨工业大学、香港中文大学、复旦大学和南京大学的研究人员联合开源了百亿级图文交错数据集——OmniCorpus。

与现有的MMC4、OBELICS等数据集相比,OmniCorpus在规模上扩大了15倍,包含86 亿张图像和16,960亿个文本标记。在数据质量上同样出色,不仅涵盖了英语网站,还包含了非英语网站及视频为中心的平台,确保了内容的广泛性和丰富性。

此外,OmniCorpus还可以从图像文本交织格式轻松降级为纯文本语料库或图像文本对,以满足不同领域研究需求。

开源地址:https://github/OpenGVLab/OmniCorpus
论文地址:https://arxiv/abs/2406.08418

https://mp.weixin.qq/s/Yk2wJ8hS8zJO8OnMe_TqLw

阿里重磅开源Qwen2-VL:能理解超20分钟视频,媲美GPT-4o!

20240830
阿里巴巴开源了最新视觉多模态模型Qwen2-VL,根据测试数据显示,其72B模型在大部分指标超过了OpenAI的GPT-4o,Anthropic的Claude3.5-Sonnet等著名闭源模型,成为目前最强多模态模型之一。

Qwen2-VL支持中文、英文、日文、韩文等众多语言,可以在 Apache 2.0 协议下进行商业化使用。同时阿里发布了 Qwen2-VL-72B的API,帮助开发者增强或开发多模态功能的生成式AI应用。

开源地址:https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

Github:https://github/QwenLM/Qwen2-VL

在线demo:https://huggingface.co/spaces/Qwen/Qwen2-VL

API:https://help.aliyun/zh/model-studio/developer-reference/qwen-vl-api

https://mp.weixin.qq/s/4uiC1uuH1Noej_dCzql4FQ

Agent Q:具备自我学习、评估的智能体

GPT-4、Gemini等大模型在自然语言处理任务中取得了进步,但在交互式、多步骤环境中的泛化能力仍有欠缺。例如,当我们在网上购买一件特定的商品时,需要在众多网页中进行搜索、比较和选择。

AGI平台MultiOn和斯坦福的研究人员联合开发了一种智能体Agent Q,能自主规划、推理一些任务。Agent Q与其他智能体最大差别的是,它能从失败和成功的任务中自动学习、评估,从而提高在复杂多步骤推理任务中的泛化能力。

论文地址:https://multion-research.s3.us-east-2.amazonaws/AgentQ.pdf

https://mp.weixin.qq/s/Ku7OOWCzEXq8fA_y8M5KcQ

MUMU:用文本、图像引导,多模态图像生成模型

传统的文生图模型仅使用文本提示有时无法完美还原用户的提示词,例如,生成一个穿着红色披风的超级英雄在城市中飞翔的图像,传统的文本到图像生成模型可能会根据文本描述生成一个大致符合要求的图像,但可能无法准确呈现出用户想要的超级英雄的具体形象或披风的颜色和样式。

为了提升图片的生成准确度,Sutter Hill的研究人员开发了可基于文本和图像引导的多模态图像生成模型MUMU。用户不仅可以使用文本提示,还能使用要生成目标图像的参考图,进一步提升生成准确率。

论文地址:https://arxiv/abs/2406.18790

https://mp.weixin.qq/s/P3vuRhWrRMEggYes2Ts-Sw

微软开源Phi-3.5:支持手机、平板电脑,性能超Llama 3.1

微软开源了最新Phi-3.5系列模型,共有mini指令微调、专家混合和视觉微调三种模型。

Phi-3.5系列的参数非常小,但性能却超过了Meta最新开源的Llama 3.1 8B和Mistral 7B等知名开源模型,也是目前开源大模型排行榜中唯一入选前10名的小参数模型。

所以,微软开源的Phi-3.5系列是专门面向那些算力、硬件有限的中小企业和个人开发者,同时可以部署在手机、平板电脑等移动设备中使用。

Mini开源地址:https://huggingface.co/microsoft/Phi-3.5-mini-instruct

专家混合:https://huggingface.co/microsoft/Phi-3.5-MoE-instruct

视觉:https://huggingface.co/microsoft/Phi-3.5-vision-instruct

微软其他模型开源地址:https://huggingface.co/microsoft

https://mp.weixin.qq/s/IiJI4rq5rZuoVPCz88LACQ

Luma 1.5正式发布,视频质量、文本语义还原大幅度提升

20240820
昨天,Luma刚宣布即将发布1.5版本,没想到今天就正式上线了,这速度真可以啊。

根据「AIGC开放社区」实际使用体验来看,与1.0相比,1.5最大提升就是生成视频的质量,尤其是清晰度、光影、饱和度、构图、运镜等方面,基本可以媲美OpenAI的Sora。

文本语义还原则是另外一个亮点,过去即便用很精准的提示词还是会出现“驴唇不对马嘴”的情况。刚才试了几个视频基本都能根据提示词生成完整的视频。

https://mp.weixin.qq/s/nmTbD_0yjV0mbfrSBkNyTg

Gen-3 Turbo新增图像生视频:免费试用,效率提升7倍!

20240819
著名文生视频平台Runway发布了Gen-3 Alpha Turbo的图像转视频功能,其生成效率比之前模型快7倍,价格却少一半。

值得一提的是,尽管生成效率发生了巨大变化,但在众多的使用场景中,依然能够保持与之前相当的性能。
1)登录到https://app.runwayml/video-tools/随便注册一个账号,然后选择图片生视频功能,并点击“Get Started”。

https://mp.weixin.qq/s/MuE0xnUYd_lWpMtCLhQLmg

谷歌发布Gemini Live:对标GPT-4o,让每一个人都有贾维斯

20240814
谷歌在今天凌晨举办的“Made by Google 2024”大会上,正式发布了智能语音助手Gemini Live。

Gemini Live的功能与OpenAI在5月推出的GPT-4o语音模式类似,支持自然语言提问,能识别图像、视频和语音是一个多模态智能助手。

https://mp.weixin.qq/s/O8sqcKDFtSRnK9L5wVx_ZA

LG开源韩语大模型Exaone 3.0,8万亿token训练数据

20240814
LG的AI研究机构开源了首个开放权重的大模型——EXAONE 3.0。

EXAONE 3.0是一个指令微调模型有78亿参数,经过了8万亿token高质量数据进行了综合训练。支持韩语和英文两种语言,尤其是对韩语的支持非常出色。

在KMMLU、KoBEST - BoolQ、KoBEST – COPA等基准测试中,高于Llama 3.1-8B、Gemma 2-9B等知名开源模型。

开源地址:https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct

论文地址:https://arxiv/abs/2408.03541

https://mp.weixin.qq/s/bYnmrJMjfptlraaLmkIFEA

超9000颗星,优于GPT-4V!国内开源多模态大模型

20240811

国内著名开源社区OpenBMB发布了最新开源多模态大模型——MiniCPM-V 2.6。
据悉,MiniCPM-V 2.6一共有80亿参数,在单图像、多图像和视频理解方面超越了GPT-4V;在单图像理解方面优于GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet。
值得一提的是,MiniCPM-V 2.6显著减少了模型的内存占用并提高了推理效率,首次支持iPad等端侧设备进行实时视频理解的模型。
开源地址:https://github/OpenBMB/MiniCPM-V
在线demo:https://huggingface.co/spaces/openbmb/MiniCPM-V-2_6

https://mp.weixin.qq/s/CKWzz3OVV9BMWNBevP5cNQ

阿里开源新语音模型,比OpenAI的Whisper更好!

20240810
阿里巴巴在Qwen-Audio基础之上,开源了最新语音模型Qwen2-Audio。

Qwen2-Audio一共有基础和指令微调两个版本,支持使用语音向音频模型进行提问并识别内容以及语音分析。

例如,让一位女生说一段话,然后识别她的年纪或解读她的心情;发布一段吵闹的声音,分析有哪些声音组成等。

目前,Qwen2-Audio支持中文、粤语、法语、英语、日语等主流语言和方言,这对于开发翻译、情感分析等应用非常方便。

开源地址:https://github/QwenLM/Qwen2-Audio

https://mp.weixin.qq/s/MOY7nLVtTaE1rJ4MnsrrNQ

OpenAI掀桌子!免费提供GPT-4o mini微调,每天200万tokens

20240725
OpenAI宣布从今天开始到9月23日,免费为4级、5级用户提供GPT-4o mini微调服务,帮助开发者打造特定业务用例的生成式AI应用。

在这期间,每天限制200万tokens数据,超过的部分将按照每10万tokens 3美元收取。从9月24日开始,每100万tokens微调服务收取3美元,即便是这个价格也是相当相当便宜,接近于无限使用。

也就是说,OpenAI从现在开始要打价格战了,这对于其他大模型平台来说是一个不小的挑战。

https://mp.weixin.qq/s/WrGV_ECV7JvBV2_08IdgAw

媲美GPT-4o、支持中文,超Llama 3.1

20240725
昨天Meta刚开源Llama 3.1系列,今天法国著名开源大模型平台Mistral.ai就开源了Mistral Large 2,开源大模型实在是太卷了。

Mistral Large 2有1230亿参数,支持英语、中文、法语、德语、日文和韩文等十几种主流语言,这一点比Meta的Llama 3.1强很多,因为它是不支持中文的。

Mistral Large 2能生成文本、摘要、代码等,尤其是128K上下文窗口,在代码和数学推理方面进行了极大增强,支持Python、Java、C、 C++、JavaScript等几十种编程语言。

开源地址:https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

https://mp.weixin.qq/s/7d_KqQrMpd1GReDlVqe6_Q

首个超GPT-4o开源大模型,最强Llama 3.1正式发布

20240724
Meta正式发布目前最强开源大模型之一Llama 3.1系列,一共有405B、70B、8B三种模型。

其中405B更是期待已久的重磅开源模型,经过15万亿tokens高质量数据以及超过1.6万块H100进行了几个月的预训练,支持128K上下文长度,英语、法语、德语等8种语言,能生成代码、文本、文本摘要等。

根据Llama 3.1的技术论文,405B是具备文本、图像、视频和音频多模态推理能力的,但本次没有开放还在继续开发中。
Github地址:https://github/meta-llama/llama-models

huggingface地址:https://huggingface.co/meta-llama/Meta-Llama-3.1-8B/tree/main

https://mp.weixin.qq/s/9UILmr_eDWAFB_z_JqEpyw?poc_token=HLrXoWajl-OOaPYtKx5ajoi1Hx4ib1mPsw3wKxYX

马斯克用10万块H100,搭建全球最强AI训练集群!

20240723
7月22日,马斯克在社交平台宣布,在美国孟菲斯凌晨4点20,在单个RDMA结构(远程直接内存访问)上搭建10 万块液冷H100 GPU,这也是目前全球最强的AI训练集群。
要知道OpenAI的GPT-4也只用了25,000块,马斯克最新搭建的训练平台可能会用于训练Grok3,所以,如果OpenAI不继续加码硬件设施,其未来发布的GPT-5可能不会超过Grok3。

https://mp.weixin.qq/s/XlbLRhNioT4LddvPgDOGcQ

提升5.69倍,高效RAG上下文压缩方法COCOM

20240720
GPT-4、Llama等开闭大模型通过预训练的方式将海量数据积累成一个庞大的知识库,再通过文本问答的形式为用户生成各种内容。但这种方法仅局限于训练数据集,为了扩大输出范围允许模型通过检索额外的数据来丰富生成内容,RAG(知识检索增强)成为了必备功能之一。

RAG也有一个明显的缺点,就是随着上下文信息量的增加,模型的解码时间显著延长,严重影响用户获取答案的效率。

所以,阿姆斯特丹大学、昆士兰大学和NAVER实验室的研究人员联合发布了创新压缩方法COCOM(Context COmpression Model)。

论文地址:https://arxiv/abs/2407.09252

https://mp.weixin.qq/s/C2r3GYpcK-B8RZevC1ejEw

OpenAI发布GPT-4o mini,免费为ChatGPT提供

20240719
7月19日凌晨,OpenAI在官网发布了最新大模型GPT-4o mini,具备文本、图像、音频、视频的多模态推理能力。

根据测试性能显示,GPT-4o mini的性能比GPT-4更好,大约有GPT-4o的80%能力。但API的价格却大幅度下降了60%,每100万tokens的输入为15美分,每100万tokens的输出为60美分。

值得一提的是,从今天开始GPT-4o mini已经取代了GPT-3.5 Turbo,免费为注册的ChatGPT用户提供服务,同时这也是OpenAI发布的第一个基于指令层级结构的模型。

https://mp.weixin.qq/s/y-0ysIjz30HuMcwPsFH-QA

微软退出OpenAI董事会,苹果也不加入了

20240711
7月10日晚,abc消息,微软已经退出了OpenAI董事会,而宣布即将加入董事会的苹果也放弃了。
主要原因就是,美国联邦贸易委员会和欧盟委员会等,对科技巨头的垄断行为审核越来越严格,火爆全球的OpenAI成为了主要调查目标之一。
微软在一封公开信中表示,将辞去OpenAI董事会观察员的职务,立即生效。在过去8个月我们见证了OpenAI全新董事会的成立,在治理方面也更加完善、可靠,对其未来发展充满信心。

https://mp.weixin.qq/s/fq6_5a8VfiAP1X_pm8Usog

性能超Llama 3,可商用!开源大模型Falcon 2

20240711
阿联酋-阿布扎比技术创新研究所(TII)在官网宣布,开源全新大模型Falcon 2。

Falcon 2有110亿参数共有两个版本,一个是高效、易于部署的基础模型,使用了5.5万亿tokens数据进行预训练,可以生成文本、代码、总结内容等。

另外一个是带有视觉转换功能的VLM模型,可以将图片的信息转换成文本数据,也是极少数支持视觉转换的开源大模型。

开源地址:https://huggingface.co/tiiuae/falcon-11B

https://mp.weixin.qq/s/-pq65e_6lRZFoGlIeRnk9w

谷歌推出全新模型,将Transformer与NAR相结合

20240708
Transformer架构的出现极大推动了大模型的技术创新,诞生出了ChatGPT、Coplit、讯飞星火、文心一言等一系列生成式AI产品。

虽然Transformer在自然语言理解任务上表现很好,但在算法推理方面有严重的缺陷。例如,当面临超出训练数据分布的输入时,其泛化能力会急剧下降。这主要是因为它们的自回归性质和掩蔽注意力机制,不符合算法输出的逻辑顺序。

而神经算法推理(NAR) 在结构化输入上表现好,能够处理各种算法任务,并且在面对训练集之外的更大输入时仍能保持完美的泛化能力。因此,谷歌DeepMind的研究人员将Transformer与NAR相结合推出了——TransNAR。

NAR是一种专门处理图结构数据的神经网络,其算法的计算步骤被表示为图的节点和边,而节点之间的信息通过边进行传递和更新。这种巧妙设计使得NAR能够自然地表达算法的逻辑流程,包括条件判断、循环迭代等编程结构。

在TransNAR架构中,研究人员并没有简单地将Transformer和NAR串联或并联,而是通过一种称为跨注意力的机制进行深度融合。

https://mp.weixin.qq/s/7Bu4On7yorBUf3QFvTeJDw

Stable Diffusion 3允许商业化,很快开源更大版本模型

20240708
7月6日凌晨,著名开源大模型平台Stability AI修改了社区许可协议,最新发布的文生图模型Stable Diffusion 3 Medium允许商业化(以下简称“SD3-M”)。

如果企业、个人开发者每年收入低于100万美元(大约726万元人民币),只需向Stability AI填写一份申请,就可以免费将SD3-M用于商业化,包括数据微调、开发生成式AI应用等。

这个消息对于个人开发者和初创企业来说是相当好的,可以免费商用目前最强的文生图片模型之一,可与闭源模型Midjourney、DALL·E 3相媲美,同时学术研究机构仍然不受限制地使用SD3-M那个协议不变。

开源地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium

填写申请地址:https://stability.ai/community-license

https://mp.weixin.qq/s/kO7mOb9wgGnyK5WctRBfaA

微软开源GraphRAG:极大增强大模型问答、摘要、推理

20240703
7月3日,微软在官网开源了基于图的RAG(检索增强生成)——GraphRAG。

为了增强大模型的搜索、问答、摘要、推理等能力,RAG已经成为GPT-4、Qwen-2、文心一言、讯飞星火、Gemini等国内外知名大模型标配功能。

传统的RAG系统在处理外部数据源时,只是简单地将文档转换为文本,将其分割为片段,然后嵌入到向量空间中,使得相似的语义对应相近的位置。

但这种方法在处理需要全局理解的海量数据查询时存在局限,因为它过度依赖局部文本片段的检索,无法捕捉到整个数据集的全貌。

所以,微软在RAG基础之上通过“Graph”图的方式,例如,文本中的实体,人物、地点、概念等,构建了超大的知识图谱,帮助大模型更好地捕捉文本中的复杂联系和交互,来增强其生成、检索等能力。

开源地址:https://github/microsoft/graphrag?tab=readme-ov-file

https://mp.weixin.qq/s/TYIBSFGsowmZT3oabL0kkg

突发!Runway的Gen-3向所有人开放,媲美Sora!

20240702
7月2日凌晨,著名生成式AI平台Runway在官网宣布,其文生视频模型Gen-3 Alpha向所有用户开放使用。

https://mp.weixin.qq/s/4xKowwv4nGdcSZEnxKdjRw

阿里Qwen-2成全球开源大模型排行榜第一,中国处于领导地位。

20240627
6月27日凌晨,全球著名开源平台huggingface(笑脸)的联合创始人兼首席执行官Clem在社交平台宣布,阿里最新开源的Qwen2-72B指令微调版本,成为开源模型排行榜第一名。

他表示,为了提供全新的开源大模型排行榜,使用了300块H100对目前全球100多个主流开源大模型,例如,Qwen2、Llama-3、mixtral、Phi-3等,在BBH、MUSR、MMLU-PRO、GPQA等基准测试集上进行了全新评估。

https://mp.weixin.qq/s/y0Bytz0mUmFBNKnZBov3ag

突发!OpenAI停止不支持国家API,7月9日开始执行

20240625
6月25日凌晨,有部分开发者收到了OpenAI的信,“根据数据显示,你的组织有来自OpenAl目前不支持的地区的API流量。从7月9日起,将采取额外措施,停止来自不在OpenAI支持的国家、地区名单上的API使用。”

麻省理工提出“跨层注意力”,极大优化Transformer缓存

20240624
Transformer在大模型领域的影响力不言而喻,ChatGPT、Sora、Midjourney、Suno、Llama、Stable Difusion等几乎所有知名开闭源模型,皆基于该架构开发而成。

但随着大模型参数呈指数级增长,小的几百亿大的上千亿甚至万亿,这使得Transformer在解码时所需的KV(键值)缓存急剧增加,会导致内存占用过大造成部署、推理方面的瓶颈。

所以,麻省理工的研究人员提出了全新的跨层注意力(Cross-Layer Attention, 简称“CLA”),通过在不同解码层间共享KV来显著降低对内存的使用,从而提升大模型在处理长序列和大批次推理任务时的效率以及准确率。

论文地址:https://arxiv/abs/2405.12981

https://mp.weixin.qq/s/EwSK31dClHfK51IpbjKMCg

美国发布新拟议规则,禁止在中国投资AI、半导体、量子计算

20240622
6月22日,美国财政部官网消息,发布了一项执行拜登总统令的提案通知(NPRM),旨在实施2023年8月9日签署的第14105号行政命令——境外投资令。

此提案通知是在财政部去年8月发布的预先提案通知(ANPRM)基础之上进行了全面强化,包括拟议规则的全貌、意图、并公开征求公众意见。如果有异议,可以在8月4日之前提出意见。

根据详细内容显示,中国香港、澳门和大陆成为主要关注对象,并禁止美国企业进行AI、半导体和微电子、量子计算三项投资。

https://mp.weixin.qq/s/CHHVGw7VA8HqIUPiUP4zHQ

谷歌推出基于Transformer的创新技术——无限注意力

20240622
随着ChatGPT、Sora、Midjourney、Suno等生成式AI产品的火爆出圈,Transformer几乎成为文生图、视频、音频、文本等大模型的标配基础架构。

但Transformer也有明显的缺点,就是一次性处理超长序列数据时会遭遇内存、计算的瓶颈,成本和复杂度将呈指数级增长并导致大模型的性能下降。

所以,谷歌基于Transformer提出了一种创新技术Infini-Attention(无限注意力),通过将压缩记忆、局部遮蔽注意力等模块融合到传统的自注意力机制中,可轻松处理无限序列数据,同时保持有限的内存和计算资源。

论文地址:https://arxiv/abs/2404.07143

https://mp.weixin.qq/s/lf_U7oi0SW0jtCj_eiM_5w

重磅!华为云盘古大模型5.0正式发布,全系列、多模态、强思维

20240622
6月21日,在华为开发者大会2024(HDC 2024)上,华为常务董事、华为云CEO张平安正式发布盘古大模型5.0,在全系列、多模态、强思维三个方面全新升级;

张平安还分享了盘古大模型在自动驾驶、工业设计、建筑设计、具身智能、媒体生产和应用、高铁、钢铁、气象等领域的丰富创新应用和落地实践,持续深入行业解难题。

此外,华为诺亚方舟实验室主任姚骏、华为云CTO张宇昕分别就盘古大模型5.0技术解密和华为云全栈系统性创新发表主题演讲,详细解读华为云在AI领域的全栈创新优势。

https://mp.weixin.qq/s/F3j8YfoUqs62eiIa-UE7bQ

OpenAI收购Rockset,增强ChatGPT等数据搜索功能

20240622
6月22日凌晨,OpenAI在官网宣布,收购实时搜索和数据分析公司Rockset。

Rockset所有员工和产品将与OpenAI的ChatGPT等进行深度整合,为企业、开发者和普通用户提供搜索和数据分析功能,以便更好地利用本地数据。

也就是说,ChatGPT即将发布一些强大的可视化实时数据分析、检索功能,同时将为OpenAI进军搜索引擎做准备。

https://mp.weixin.qq/s/J7mTdlO110hUfEEiYke8tw

超GPT-4o,代码能力超强!Claude 3.5 Sonnet正式发布

20240621
6月20日晚,著名大模型平台Anthropic在官网正式发布了Claude 3.5 Sonnet。

据悉,这是Sonnet 是Claude 3.5系列中第一个,也是Anthropic目前最强的视觉模型。随后会发布Haiku和Opus版本。

其性能超过了上一代Claude 3旗舰模型Opus,同时也大幅度超过了OpenAI的GPT-4o,谷歌的Gemini1.5 Pro等知名模型。

https://mp.weixin.qq/s/CWlELAv59pELwlnb56bEIA

能自动查找各种漏洞,专用于网络安全的AI Agent

20240621
AI Agent在大模型的加持下,涌现出了AutoGPT、OpenDevin、Devika等一大批优秀的产品,并在编程开发、日常工作、金融领域等实现场景化落地。

为了扩大业务场景应用范围,伊利诺伊大学的研究人员推出了面向网络安全领域的AI Agent——HPTSA。

HPTSA可以快速自动识别“零日漏洞”,例如, SQL注入、跨站脚本攻击、跨站请求伪造等,帮助安全研究人员找出那些对网络安全有威胁的漏洞,防止黑客的攻击。

论文地址:https://arxiv/abs/2406.01637

https://mp.weixin.qq/s/61Sc3xl337CIGxyx37q0XQ

谷歌推出V2A,可为视频大模型自动匹配语音

谷歌Deepmind在官网推出了视频转音频模型V2A。

用户可以用视频+文本提示的方式,通过V2A为视频模型自动匹配语音。例如,为紧张、恐怖、惊悚的片段自动匹配语音,可以进一步节省制作时间和提高效率。同时可以与谷歌的视频模型Veo相结合使用。

https://mp.weixin.qq/s/lJUYmXO9QkUcZhIljyK_1A

ChatGPT等模型疯狂训练,最快2026年消耗尽公开文本数据

20240619
AI发展科研机构Epochai在官网发布了一项,关于大模型消耗训练数据的研究报告。

目前,人类公开的高质量文本训练数据集大约有300万亿tokens。但随着ChatGPT等模大型的参数、功能越来越强以及过度训练,对训练数据的需求呈指数级增长,预计将在2026年——2032年消耗完这些数据。

研究人员特别提到了“过度训练”(Overtraining)是加速消耗训练数据进程的主要原因之一。例如,Meta最新开源的Llama 3的8B版本过度训练达到了惊人的100倍,如果其他模型都按照这个方法来训练,数据可能在2025年就消耗尽了;70B版本还好,过度训练只有10倍。

所以,无论是闭源还是开源大模型,已经进入比拼训练数据的阶段,谁的模型学习的数据更多、维度更广,即便是小参数同样可以战胜大参数模型,尤其是在RAG、MoE、MTL等加持下效果更明显。

大模型过度训练意味着参数量与训练数据量的比例超过了Chinchilla缩放定律建议的最佳比例大约D/N比为20

https://mp.weixin.qq/s/hJi8XlhtQrKnCKj_VxBQrg

Agentic RAG 与图任务编排

20240619
一个朴素的 RAG 系统流程是这样的:先由用户提出问题,然后系统基于用户提问进行召回,对召回结果进行重排序,最后拼接提示词后送给 LLM 生成答案。

一部分简单场景下,朴素的 RAG 已经可以满足用户意图明确的场景的要求,因为答案已经包含在检索出来的结果中,只要交给 LLM 即可。然而在更多的情况下用户意图并不明确,无法直接通过检索找到答案,例如一些针对多文档的总结类提问需要进行多步推理 (Reasoning) 等等。这类场景就需要引入 Agentic RAG ,也就是在问答的过程中引入任务编排机制。

Agentic RAG,顾名思义,是基于 Agent 的 RAG。Agent 与 RAG 关系紧密,两者互为基石。Agentic RAG 和简单 RAG 的最大区别在于 Agentic RAG 引入了 Agent 的动态编排机制,因此可以根据用户提问的不同意图,引入反馈和查询改写机制,并进行“多跳”式的知识推理,从而实现对复杂提问的回答。

https://mp.weixin.qq/s/A8kfbH70sdU5Gd20K9Y0Lw

通义千问2.5正式发布,性能全面赶超GPT-4

20240509
今天,阿里云正式发布通义千问 2.5,号称 “能力升级,全面赶超 GPT-4”,并开源通义千问 1100 亿参数模型 Qwen1.5-110B。

据介绍,与通义千问 2.1 版本相比,2.5 版本模型的理解能力提升了 9%,逻辑推理提升了 16%,指令遵循提升了 19%,代码能力提升了 10%。在中文语境下,通义千问 2.5 文本理解、文本生成、知识问答及生活建议、闲聊及对话、安全风险等多项能力赶超 GPT-4。

权威基准 OpenCompass 上,通义千问 2.5 得分追平 GPT-4 Turbo,是国产大模型首次在该基准取得该项成绩。

https://mp.weixin.qq/s/0WLYJ14pj55A1aJLoYItMw

亚马逊正式发布类ChatGPT助手—Amazon Q

20240501
5月1日,全球电商、云计算领导者亚马逊(Amazon)在官网正式发布了生成式AI助手——Amazon Q。

据悉,Amazon Q 是一款类ChatGPT的产品,可以生成创意文本、代码、总结文档、分析数据等功能。

此外,亚马逊还发布了面向企业的助手Amazon Q Business以及专业开发人员的Amazon Q Developer。尤其是内置了AI代理的Developer版本,可自动完成代码的升级、开发等任务,性能非常强大。

目前,亚马逊没有说明Amazon Q系列产品是基于哪一款大模型开发而成,但根据其技术特性和测试报告来看,很可能是其投资40亿美元Anthropic新发布的,最强大模型之一Claude 3系列。

体验地址:https://aws.amazon/cn/q/

开发者版:https://aws.amazon/cn/q/developer/

中国首个Sora级大模型:文本生成16秒,1080p高清视频

20240428
4月27日,在2024中关村论坛-未来人工智能先锋论坛上,清华大学联合生数科技正式发布了,中国首个长时间、高一致性、高动态性视频大模型——Vidu。

据悉,Vidu采用了原创的Diffusion与Transformer融合的架构U-ViT,支持文本生成长达16秒、分辨率高达1080P的高清视频内容。

此外,Vidu不仅能够模拟真实物理世界,还具备丰富想象力,具备多镜头生成、时空一致性高等技术特点。这也是继Sora发布之后,全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并加速功能迭代中。

产品申请试用地址:https://www.shengshu-ai/home?ref=maginative

https://mp.weixin.qq/s/1k3hB4FH5ghOimyrB0jTUA

商汤发布“日日新SenseNova 5.0”大模型,性能对标GPT-4 Turbo

20240426
商汤科技SenseTime在上海、深圳等多地举办技术交流日活动,并发布行业首个“云、端、边”全栈大模型产品矩阵,以满足不同行业的场景化需求。

全新发布的“日日新SenseNova 5.0”大模型有6000亿参数,在众多知名基准测试平台中,其推理、代码、数学等能力超过或接近OpenAI的GPT-4Turbo,全面超过了Meta最新开源的Llama-3 70B。

值得一提的是,商汤科技在发布5.0模型后,股价大涨30%以上并触发紧急暂停交易。复盘后股价仍然上涨了17.5%,成为国内AIGC领域的一支“妖股”。

5.0在线体验地址:https://chat.sensetime/wb/home

日日新开放平台:https://platform.sensenova/home

https://mp.weixin.qq/s/unr36bSG6Xf04Osv0IksiA

微软开源最强小参数大模型—Phi-3 Mini

4月23日晚,微软在官网开源了小参数的大语言模型——Phi-3-mini。

据悉,Phi-3-mini是微软Phi家族的第4代,有预训练和指令微调多种模型,参数只有38亿训练数据却高达3.3T tokens,比很多数百亿参数的模型训练数据都要多,这也是其性能超强的主要原因之一。

Phi-3-mini对内存的占用极少,可以在 iPhone 14等同类手机中部署使用该模型。尽管受到移动硬件设备的限制,但每秒仍能生成12 个tokens数据。

值得一提的是,微软在预训练Phi-3-mini时使用了合成数据,能帮助大模型更好地理解语言架构、表达方式、文本语义理解、逻辑推理以及特定业务场景的专业术语等。

开源地址:https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

Ollama地址:https://ollama/library/phi3

技术报告:https://arxiv/abs/2404.14219

https://mp.weixin.qq/s/NDEJ53dsL8yGU_GIHX5PHw

重磅!Llama-3,最强开源大模型正式发布!

4月19日,全球科技、社交巨头Meta在官网,正式发布了开源大模型——Llama-3。

据悉,Llama-3共有80亿、700亿两种参数,分为基础预训练和指令微调两种模型(还有一个超4000亿参数正在训练中)。

与Llama-2相比,Llama-3使用了15T tokens的训练数据,在推理、数学、代码生成、指令跟踪等能力获得大幅度提升。

此外,Llama-3还使用了分组查询注意力、掩码等创新技术,帮助开发者以最低的能耗获取绝佳的性能。很快,Meta就会发布Llama-3的论文。

开源地址:https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

Github地址:https://github/meta-llama/llama3/

英伟达在线体验Llama-3:https://www.nvidia/en-us/ai/#referrer=ai-subdomain
20240419

https://mp.weixin.qq/s/P8nh848z8pqG3JnAjdJcHw

OpenAI在亚洲开设第一个办事处,GPT-4速度快3倍

20240416

4月15日,OpenAI在官网宣布,在日本东京开设了亚洲第一个办事处,并提供针对日语优化的GPT-4自定义模型。

https://mp.weixin.qq/s/PvwXnNHnTp3HGlz7jbKscw

文本直接生成多视角3D图像,Meta推出创新模型

20240416
随着扩散模型的不断创新,文生图领域出现了Midjourney、Stable Diffusion、DALL-E 3等一系列知名产品。

但在文本生成多视角3D图像方面一直存在诸多技术难点,Meta和德国慕尼黑工业大学的研究人员联合开发了创新模型——ViewDiff。

用户通过文本、图像或二者结合使用,就能生成高质量多视角3D图像,可帮助游戏开发、元宇宙等行业快速构建模型。

根据测试数据显示,ViewDiff生成的图像在一致性和视觉质量方面非常出色,并将FID、KID的数据,分别提升了30%和37%。

论文地址:https://arxiv/abs/2403.01807

项目地址:https://lukashoel.github.io/ViewDiff/

https://mp.weixin.qq/s/Qz1fkpwQJx5fQjnDXsPRxw

马斯克展示Grok-1.5 Vision:多模态,能理解真实世界

20240414
4月13日,马斯克旗下的AI公司x.ai在官网展示了,Grok-1.5 Vision的众多亮点功能。

与上一代1.0开源版本相比,Grok-1.5与GPT-4一样加入了Vision视觉功能可以深度理解真实世界,并进行数据解读、转换等。例如,给出一张蒙娜丽莎的图片,让其讲解该图片的来历以及故事等。

根据x.ai公布的测试数据显示,Grok-1.5 V的真实世界理解能力超过了GPT-4V、Claude 3 Opus 、Gemini Pro 1.5等知名多模态模型。

https://mp.weixin.qq/s/PvwXnNHnTp3HGlz7jbKscw

英特尔重磅发布Gaudi 3芯片:将进入中国,比H100强50%!

20240413
全球芯片领导者英特尔在“Vision 2024”大会上,重磅发布了专用于生成式AI训练、推理的芯片——Gaudi 3。

根据英特尔官方公布的测试数据显示,在Llama-2 7B/13B和GPT-3 175B大模型的训练中,Gaudi 3的训练时间平均比英伟达的H100缩短了50%。

在Llama-2 7B/70B以及Falcon180B大模型的推理测试中,Gaudi 3的吞吐量平均比H100快了50%,平均推理效率快了40%;即便与H200相比,推理效率也快了30%,这是一块性能非常强劲的AI芯片。

目前,英特尔已与戴尔、联想、惠普等著名厂商达成了战略合作,将于2024年第二季度陆续提供该芯片。但由于美国官方限制,英特尔会在6月和9月提供“中国版”Gaudi 3系列芯片。

Gaudi-3白皮书:https://www.intel/content/www/us/en/content-details/817486/intel-gaudi-3-ai-accelerator-white-paper.html

https://mp.weixin.qq/s/brciF0dxsl54fxkchFJyLw

北大软工所,开源aiXcoder-7B性能完爆同级大模型!

20240411

4月9日,由北大软工所aiXcoder团队开源的7B代码大模型,不仅是对国内软件企业智能化升级的又一次强助力,更是在全球AIGC技术的竞争大潮中,再次展现国产创新的引领作用。专注于代码生成领域

aiXcoder-7B 开源链接:
https://github/aixcoder-plugin/aiXcoder-7B
https://gitee/aixcoder-model/aixcoder-7b
https://www.gitlink/aixcoder/aixcoder-7b-model
https://wisemodel/codes/aiXcoder/aiXcoder-7b

https://mp.weixin.qq/s/QS9sMfw8ZmnOUOqvXRvk0A

谷歌重磅发布Gemini 1.5 Pro:能自动写影评,理解视频!

20240410
4月10日凌晨,谷歌在官网正式发布了Gemini 1.5 Pro,现在可在180多个国家/地区使用。

除了能生成创意文本、代码之外,Gemini 1.5 Pro最大的特色是能根据用户输入的文本提示,理解、总结上传的视频、音频内容进行深度总结,并且支持100万tokens上下文。

https://mp.weixin.qq/s/E-0c8cHZcvga8eNqdu1msA

Llama 3下月正式发布,继续开源!

20240410
4月10日,Techcrunch消息,Meta在本周伦敦举办的一场活动中确定,下个月将正式发布Llama 3并且继续开源。

Meta全球事务总裁Nick Clegg表示,我们希望在下个月,甚至更短的时间内,正式推出新一代基础模型Llama 3。它将有很多个版本,而且功能也各不相同。

Llama 3的参数大约只有1400亿左右,将继续保持高性能,低参数的风格。

数据训练方面,LLaMA使用公开可用的数据集进行训练,其中包括开放数据平台Common Crawl、英文文档数据集C4、代码平台GitHub、维基百科、论文平台ArXiv等,总体标记数据总量大约在1.4万亿个Tokens左右。

Llama 2 预训练模型接受了2万亿个标记的训练,上下文长度是Llama 1的两倍。其微调模型已经接受了超过100 万个人类注释的训练,整体性能非常强悍。

https://mp.weixin.qq/s/_iWt5oEcJgRyj0AMpIMRrQ

Cohere发布RAG增强版大模型并开源权重,支持中文、1040亿参数

20240406

4月5日,知名类ChatGPT平台Cohere在官网发布了全新模型——Command R+。

据悉,Command R+有1040亿参数,支持英语、中文、法语、德语等10种语言。最大特色之一是,Command R+对内置的RAG(检索增强生成)进行了全面强化,其性能仅次于GPT-4 tubro,高于市面上多数开源模型。

目前,Cohere已经开源了Command R+的权重,但只能用于学术研究无法商业化。想商业应用,用户可以通过微软Azure云使用该模型或者Cohere提供的API。

huggingface地址:https://huggingface.co/CohereForAI/c4ai-command-r-plus

量化版:https://huggingface.co/CohereForAI/c4ai-command-r-plus-4bit

什么是RAG

RAG(Retrieval-Augmented Generation)是一种结合了信息检索和生成的技术,主要为大型语言模型提供外部知识源,以便生成更准确、更丰富的回答或内容,并减少模型的幻觉问。

RAG的主要架构包括检索器、生成器和融合机制三大块。

检索器:检索器的作用是在给定输入(例如,一个自然文本提问)时,从一个大规模的文档集合中快速检索出相关的文档或信息片段。常用的检索方法包括基于向量空间模型的方法包括BM25、Dense Passage Retrieval等。

生成器:生成器通常是一个预训练模型,例如,GPT-4、Command R+等。它使用检索到的文档作为额外的上下文信息,生成与输入相关的回答或文本。

融合机制:在检索到的文档和原始输入之间建立联系的机制。它决定了如何将检索到的信息整合到生成过程中,以提高生成文本的相关性和准确性。

可以通过不同的方式实现,包括直接将检索结果作为生成器的一部分输入,或使用更复杂的注意力机制来动态选取最相关的信息。

所以,大模型在使用了RAG功能后,可以访问比预训练模型训练时期更广泛、更具时效性的知识,提高生成内容的相关性和准确性。

尤其是对于一些需要特定知识背景的任务,大模型直接生成响应需要耗费巨大AI算力。而RAG通过检索引入的背景知识,可以显著减少算力需求。

https://mp.weixin.qq/s/PBiXl1GIoElXodAOYEkTLw

OpenAI发布全新微调API :ChatGPT支持更详细可视化微调啦

20240405

4月5日凌晨,OpenAI在官网宣布新增6个全新微调API功能,以扩展自定义模型,帮助企业、开发人员更好地构建特定领域、精细化的ChatGPT应用。

这些功能包括:基于Epoch的检查点创建、Playground新功能、第三方集成、全面验证指标、超参数配置和更详细的微调仪表板改进。

新的微调API功能适用于GPT-4/Turbo、GPT-3.5等系列模型。

详细微调API教程:https://platform.opEnai/docs/guidEs/finE-tuning

什么是微调

微调(FinE-tuning)是一种在预训练大模型的基础上,进一步优化和调整模型参数的技术,使模型更好地适应特定业务场景。这个过程中,模型的参数会进行微小的调整。

微调的主要流程包括:初始化,使用预训练语言模型的参数对新模型进行初始化;添加输出层,根据下游任务的目标(文本生成、内容摘要等)在预训练模型的顶层添加相应的输出层;

微调训练,使用带标注的私有数据,以较小的学习率对整个模型进行训练,直至模型在验证集上的指标达到理想效果。

例如,我们希望GPT3.5模型在法律业务上的表现更好、更专业,可以用海量法律数据集对模型进行微调。经过微调,模型学习到如何更好地解读、生成和预测法律问题。

https://mp.weixin.qq/s/0-3TptRmDJbsdR_ESlTR5g

微软与Quantinuum合作,实现量子计算重大突破!

20240404
4月4日,量子计算公司Quantinuum与科技巨头微软宣布,在实现容错量子计算方面取得重大突破。双方合作展示了具有主动综合征提取功能的最可靠逻辑量子比特,这一成就曾被认为需要数年时间才能达到。

通过采用微软的量子比特虚拟化系统,Quantinuum的新一代量子计算机成功创建了四个逻辑量子比特,其逻辑错误率比物理错误率低高达800倍。这一突破性演示是由Quantinuum位于美国和英国的团队与微软的量子计算团队紧密合作完成的。

https://mp.weixin.qq/s/lHo-_dv2p6OhATxkf5We-w

文本生成3分钟44.1 kHz 音乐,Stable Audio 2.0重磅发布!

20240404

4月4日,著名开源大模型平台Stability.ai在官网正式发布了,音频模型Stable Audio 2.0。

Stable Audio 2.0支持用户通过文本或音频,一次性可生成3分钟44.1 kHz的摇滚、爵士、电子、嘻哈、重金属、民谣、流行、乡村等20多种类型的高质量音乐。

其生成音乐的时长也超过了谷歌的Music-fx、Meta的AudioCraft等知名产品。目前已正式开放,免费提供试用(没锁区直接登录)。

体验地址:https://stableaudio/generate

https://mp.weixin.qq/s/_hvfcjjY71L8MzXqb8X6WA

在ChatGPT中,能用DALL·E 3编辑图片啦!

20240403
4月3日,OpenAI开始向部分用户,提供在ChatGPT中的DALL·E 3图片编辑功能。

DALL·E 3是OpenAI在2023年9月20日发布的一款文生图模型,其生成的图片效果可以与Midjourney、leonardo、ideogram等顶级产品媲美,随后被融合到ChatGPT中增强其多模态能力。

但有一个很大的问题是,人们无法对AI生成的内容进行精准控制,因为这些都是神经元随机生成的,即便你用最精准的提示词也无法做到。

所以,OpenAI推出了DALL·E 3的可视化编辑功能,帮助用户将生成的图片达到最佳理想效果,例如,生成一片绿油油的大草原。

你希望在草原的中间加上一条蜿蜒的河流,现在通过编辑功能只需要涂抹区域,然后输入“流动的河流”即可。简单来说,相当于在DALL·E 3中内置了一个简易的PS功能。

https://mp.weixin.qq/s/BddoLDRgw_Iz1AFQc3hxmA

重磅!无需注册,可直接使用ChatGPT

20240402

4月2日凌晨,OpenAI在官网宣布,无需注册可直接使用ChatGPT!

目前,市面上的主流生成式AI聊天机器人,例如,Gemini、Copilot、Claude.ai、文心一言、讯飞星火等,基本都需要注册使用。

需要注意的是,在不注册情况下,用户只能使用GPT3.5版本,无法使用GPT-4等高级功能,同时只能开启一个对话,无法保留聊天记录。

https://mp.weixin.qq/s/zpZkh-P9f_r1t7HPnfIuZg

苹果与百度合作,将在iPhone 16中使用生成式AI

20240326
3月25日,《科创板日报》消息,苹果将与百度进行技术合作,为今年即将发布的iPhone16、Mac系统和iOS 18提供生成式AI(AIGC)功能。

据悉,苹果曾与阿里巴巴以及另外一家国产大模型厂商进行了技术合作洽谈。最终选择百度的原因,主要是从技术创新、法律合规、安全稳定等多方面综合考虑,苹果预计采用API接口的使用方式。

https://mp.weixin.qq/s/zxbQ6HoPVAYrT3c0h5ISsw

微软开源创新LoRA组合方法,增强文生图复杂细节控制

20240323

LoRA(低秩适应)的高效能力已在文生图领域获得广泛应用,可以准确渲染、融合图像中的特定元素,例如,不同字符、特殊服装或样式背景等,同时可对图像进行压缩、去噪、补全进行优化操作。

但想在模型中应用多个LoRA构建更复杂的图像时,会出现图像失真、难以控制细节的难题。因此,微软和伊利诺伊大学的研究人员开发了Multi-LoRA Composition(多重 LoRA 组合方法)。

该方法包括LoRA Switch和LoRA Composite两种,无需微调就能集成多个LoRA一起使用,并且能保持每个LoRA 的权重完整性。

论文地址:https://arxiv/abs/2402.16843

Github地址:https://github/maszhongming/Multi-LoRA-Composition

项目地址:https://maszhongming.github.io/Multi-LoRA-Composition/

https://mp.weixin.qq/s/MikK-rhOqPvKGPtqN8iEGA

谷歌推出通用AI代理:能自动执行600多种动作,游玩复杂3D游戏

谷歌DeepMind的研究人员推出了一种面向3D环境的通用AI代理——SIMA。

SIMA无需访问游戏的源代码,也不需要定制的API。只需要输入图像和用户提供的简单自然语言文本指令,SIMA就能像人类玩家一样执行走路、跑步、建造、打开地图等各种游戏中的操作。

为了测试、训练SIMA的性能,研究人员与8个游戏工作室合作,在《无人深空》、《模拟山羊3》、《Teardown》、《挖矿模拟器》等知名复杂3D游戏上进行了综合测试。

结果显示,用户只需要在游戏中提供简单的文本、图像提示,SIMA就能执行挖矿、开飞船、制作装备、打开外骨骼、搜集任务、爬楼梯等600多种基本操作,每个动作可以在大约10秒内完成。

技术报告:https://storage.googleapis/deepmind-media/DeepMind/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf

https://mp.weixin.qq/s/_VRuFCyk836Q9kmqpBHgLQ

具备实时数据更新能力的大语言模型——Larimar

ChatGPT、Claude.ai等大模型产品就像“图书馆”一样为我们生成各种各样的内容。但是想更新这个图书馆里的知识却不太方便,经常需要漫长、费时的预训练、蒸馏才能完成。

研究人员提出了一种具有情景记忆控制的大语言模型Larimar,这是一种类似人脑"海马体"的"情景记忆"能力。

Larimar主要设计了一个外部记忆模块,专门储存独立的实时数据,并将这些记忆有效地注入到大语言模型中,使得Larimar无需重新预训练就能在内容生成过程中精准使用新的知识数据。

论文地址:https://arxiv/abs/2403.11901

https://mp.weixin.qq/s/Msx3rLo0zDS_WZ67Lyzezg

图片直接生成3D视频模型,开源Stable Video 3D来啦

20240320

3月19日,著名大模型开源平台stability.ai在官网开源了,图像直接生成3D视频模型——Stable Video 3D(以下简称“SV3D”)。
SV3D一共有两个版本:SV3D_u,支持单个图像生成轨道视频,无需相机调节;

SV3D_p扩展了 SVD3_u 的功能,支持单个图像和轨道视图,从而可以生成沿特定的摄像机路径创建 3D 视频。

huggingface地址:https://huggingface.co/stabilityai/sv3d

github地址:https://github/Stability-AI/generative-models?tab=readme-ov-file

论文地址:https://stability.ai/s/SV3D_report.pdf

https://mp.weixin.qq/s/cNaqtPwDZGVpx5cuELFYgQ

谷歌DeepMind联合创始人,加入微软领导Coplit

20240320
3月20日,微软首席执行官Satya Nadella分享了一个惊人的消息,谷歌DeepMind 和 Inflection联合创始人Mustafa Suleyman、Karén Simonyan加入微软。

Mustafa和 Karén将在微软领导一个全新的部门“Microsoft AI”,专注于推进 Copilot和其他消费者 AI 产品的研究。

Mustafa将担任Microsoft AI 的执行副总裁兼首席执行官,并加入高级领导团队直接向Satya汇报。

Karen将作为首席科学家加入该团队,向Mustafa 汇报。Inflection的其他核心技术成员也将加入Microsoft AI。

https://mp.weixin.qq/s/ntpeExASZNqXVQ6QF4Toew

CeMeta森宇宙 | 首个面向家电家居行业营销领域的AI大模型

20240319

3月14日,CeMeta森宇宙重磅发布了全球首个面向家居、家电行业的视觉营销大模型——森罗万象。该模型一共包括自然语义、视觉、视频三种大模型。本次发布的森罗万象视觉大模型,是CeMeta森宇宙结合自身20年垂直营销经验以及数百万张真实、多元化、专业的家居图片训练而成。在文本语义理解、图像形态、构图架构、光影等方面非常优秀。

不同于其他大参数模型,森罗万象是聚焦于家电家居领域的垂直AI模型。森曦在接受专访时表示:“我们的目标不是创建一个万能的AI,而是打造一个最懂家电家居行业的AI。” 这正是森罗万象大模型区别于其他泛化AI大模型的核心。他们不是在寻求一个通用解决方案,而是专注于解决家电家居领域的具体问题。

参考小参数模型,垂直领域的AI模型要想跑得出超越大参数模型的理想效果,数据的质量是至关重要的。例如,英伟达最近发布的Nemotron-4只有150亿参数,但经过8万亿tokens高质量训练数据洗礼后,轻松超过了拥有340亿参数的著名开源大模型 Llama-2。

https://mp.weixin.qq/s/Dih2hrQtq9-puXtrz2gq3A

英伟达发布GB200 NVL72,将万亿参数大模型推理效率提升30倍

20240319

3月19日,英伟达召开了“2024GTC”大会,在会上重磅发布了新一代AI专用GPU GB200 NVL72。

GB200 NVL72是一款专门面向万亿参数大模型训练、推理的产品,例如,在训练MoE(专家混合模型)时,需要多个子模型之间分配计算负载,并在数千个GPU上进行训练。这需要超高的并行计算、快速存储和高性能通信以及在大规模GPU集群下才能完成。

与上一代的H100 GPU相比,GB200 NVL72可以将训练效率提升4倍,数据处理提升6倍,实时推理效率提升30倍!

https://mp.weixin.qq/s/k-YZEaQH_WKbAcN3lJBsTw

3140亿参数,可商用!马斯克开源大模型Grok-1

20240319

3月18日,马斯克兑现了他的开源诺言,将旗下公司x.ai的大模型Grok-1正式开源,并且支持商业化用途。
Grok-1是一款类ChatGPT的混合专家模型,有3140亿参数,允许商业化,通过文本问答方式可以生成创意文本、代码等。
根据其公布的测试数据显示,性能超过了GPT-3.5、LLaMA 2 70B,弱于GPT-4、Claude 2、Palm 2等闭源模型。

开源地址:https://github/xai-org/grok-1

磁力地址:magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr%3A1337%2Fannounce

https://mp.weixin.qq/s/4Mfuv1nIUvFJTwLfCbSGLw

8万亿训练数据,性能超LLaMA-2,英伟达推出Nemotron-4 15B

20240308

英伟达的研究人员推出了Nemotron-4 15B。这是一个拥有150亿参数的大语言模型,并基于8万亿文本标注数据进行了预训练。

在数学、多语言分类和代码等测试评估中,Nemotron-4 15B在7个领域中的4个超过了所有现役同类大小的开源模型,并且在其他领域中也表现出了优秀的性能。

技术报告地址:https://arxiv/abs/2402.16819

https://mp.weixin.qq/s/MimszLqneKZSWQw8v8BS_Q

开源、可商用,仅需0.5秒图片直接生成3D模型!

20240305

3月5日,著名开源大模型平台Stability.ai与Tripo AI联合开源了——TripoSR。

用户通过TripoSR仅需0.5秒(在英伟达A100 GPU)就能将一张图片直接生成高质量3D模型。

如果使用低效率推理模式,即便不用GPU也能生成3D模型,这对于个人开发者、小型企业来说能节省不少资源。

目前,TripoSR已经全面开源,支持商业化和学术研究。其性能优于OpenLRM等开源模型,可应用在游戏开发、工业设计、广告等领域。

开源地址:https://github/VAST-AI-Research/TripoSR

在线demo:https://huggingface.co/spaces/stabilityai/TripoSR

技术报告:https://stability.ai/s/TripoSR_report.pdf

TripoSR是一种基于Transformer架构的前馈3D重建模型,大幅度优化了模型迭代生成的流程,同时保留了模型精确控制输出的能力。一共由图像编码器、图像到三平面解码器和NeRF三大块组成。

https://mp.weixin.qq/s/9NgBnbnahtIky3GnLXGr3Q

高伟绅律师事务所与微软合作,在全球业务中使用Copilot

20240305

3月6日,著名法律新闻平台Thelawyermag消息,英国伦敦五大律师事务所之一的高伟绅(Clifford Chance)与微软达成技术合作,将在全球业务中使用Microsoft 365 Copilot和Viva Suite。

Microsoft 365 Copilot是微软基于OpenAI的GPT-4系列大模型打造的一款类Copilot助手。用户通过文本提示的方式,就能快速起草邮件、总结内容、生成代码等。

Viva Suite则是一个员工体验平台,主要用于内部沟通、协作、学习知识等,目前已经整合在Microsoft 365中。

https://mp.weixin.qq/s/vvlyPRJ7HQ3DaCuLUsYd-g

性能超GPT-4!免费使用、支持中文,Claude 3正式发布

20240305

3月4日晚,著名生成式AI平台Anthropic在官网正式发布了,Claude 3系列多模态大模型。

据悉,Claude 3一共有Haiku、Sonnet和Opus三个版本。根据其评测报告显示,Opus在研究生水平专家推理、基础数学、本科水平专家知识、代码等10个维度,超过OpenAI的GPT-4。

此外,Haiku模型更注重效率,能以3秒时间阅读一份10,000 tokens的论文;Sonnet比之前的Claude 2/2.1版本更智能,适用于知识检索等任务。

这三个模型目前都支持20万上下文窗口。Anthropic表示,它们也支持100万上下文,但由于需要消耗巨大AI算力,只提供给特定用户。

目前,用户可免费使用Claude 3 Sonnet模型(https://claude.ai/chats);如果想使用最强大的Opus 版本需要开通会员;Haiku 模型即将推出。

文生图平台ideogram获8000万美元,并发布1.0版本

20240304

文生图平台ideogram.ai在官网宣布获得8000万美元(约5.7亿元)A轮融资。本次由Andreessen Horowitz领投,Index Ventures、Redpoint Ventures等跟投。

同时ideogram.ai发布了1.0版本,根据其评估报告显示,在图像生成的细节、彩色、连贯性、文本语义理解等维度,超过了OpenAI的DALL·E 3和Midjourney V6。

目前,用户可以免费试用1.0版本,每天可生成100张图像,支持中文;如果开通每月16美元的会员,可以无限量生成图像。

https://mp.weixin.qq/s/rrxeEtzPL2vT_GlWcizq4w

一张草图直接生成视频游戏,谷歌推出生成交互大模型-Genie

20240304

谷歌DeepMind的研究人员推出了,首个无需数据标记、无监督训练的生成交互模型——Generative Interactive Environments,简称“Genie”。

Genie有110亿参数,可以根据图像、真实照片甚至草图,就能生成各种可控制动作的视频游戏。Genie之所以有如此神奇功能,主要使用了3万小时,6800万段的游戏视频进行了大规模训练。

论文地址:https://arxiv/abs/2402.15391

项目地址:https://sites.google/view/genie-2024/home

Genie的核心架构用了ST-Transformer(时空变换器)。这是一种结合了Transformer模型的自注意力机制与时空数据的特性,以有效处理视频、多传感器时间序列、交通流量等时空数据。

https://mp.weixin.qq/s/u1YQkFw1LG604V8DZMSugA

Figure AI获48亿元融资,并与OpenAI一起开发AGI机器人

20240301

3月1日,著名商业媒体PR Newswire消息,开发通用人形机器人厂商Figure AI宣布获得6.75亿美元(约48亿元)B论融资,估值达到26亿美元。

本次由微软、OpenAI创业基金、英伟达、贝索斯、英特尔等联合投资。在巨额融资的帮助下,将加速Figure产品的商业部署进程。

此外,Figure与OpenAI达成了技术合作,借助其GPT系列大模型增强人形机器人的语言、推理以及理解能力等,一起加速AGI机器人研发和商业应用进程。

公开资料显示,Figure创立于2021年,核心团队来自波士顿动力、特斯拉、谷歌 DeepMind、Archer Aviation等全球顶级AI与实体机器人研究团队。曾在2023年4月19日,获得7000万美元A论融资。

产品方面,Figure开发了一款具备自主行走的实体机器人“01”,对标的是特斯拉的Optimus。

https://mp.weixin.qq/s/rrxeEtzPL2vT_GlWcizq4w

比Sora惊艳!文本生成超25秒视频,带背景音乐、转场等效果

20240229

2月29日,著名AI平台Lightricks在官网宣布,推出生成式AI电影制作平台—LTX Studio。

据悉,用户只需要输入文本就能生成超25秒的微电影视频,同时可对镜头切换、角色、场景一致性、摄像机、灯光等进行可视化精准控制。

目前,LTX Studio支持免费申请试用,3月27日将开启第一批测试。

https://mp.weixin.qq/s/x3mul2goPGPA0YhXLPkNvA

ChatGPT编程时代来啦,GitHub Copilot Enterprise正式发布!

20240228

2月28日,全球最大开源平台之一GitHub在官网宣布——GitHub Copilot Enterprise正式全面发布。

GitHub Copilot Enterprise核心模块之一GitHub Copilot,是一款基于OpenAI的GPT-4模型,并结合自身积累十多年真实、安全可靠的代码数据开发而成,开发人员通过文本提示就能获取、审核、扩展代码等功能。

使用地址:https://github/features/copilot/plans

目前,GitHub Copilot Enterprise每月39美元。

https://mp.weixin.qq/s/kR8d4qWDwj_qd5eCcmatmQ

【LWM】与Sora一样能生成视频、图像,还能一次解读100万数据!

20240227

加州大学伯克利分校的研究人员开源了一种训练数据更多、理解能力更强的基础模型——大世界模型(Large World Model,简称“LWM”)。

LWM是一种通用的多模态自回归模型,与前不久谷歌发布的Gemini 1.5一样,一次性可精准解答100万tokens的视频、文本,例如,LWM可以正确回答1小时YouTube视频中包含500多个视频片段的问题。

开源地址:https://github/LargeWorldModel/LWM

论文地址:https://arxiv/abs/2402.08268

huggingface:https://huggingface.co/LargeWorldModel

LWM的核心技术是通过Ring Attention(环形注意力)在长序列上进行扩展训练,并使用Books3 数据集从32000扩展到100万标记,而无需消耗额外的内存、算力并降低计算复杂度。

https://mp.weixin.qq/s/jxrF932qxqNhIqQazD7f9Q

微软与OpenAI竞争对手Mistral AI,达成技术合作

20240227

2月27日,微软在官网宣布,与开源大模型平台Mistral AI达成技术合作。

本次合作主要有3个重点:
1)微软将通过 Azure云服务为Mistral AI提供基础AI算力,帮助其加速模型训练和开发;
2)微软通过Azure云服务为客户提供Mistral AI的基础大模型,除了OpenAI的GPT系列模型之外,用户有更多选择;
3)一起合作开发大模型,为客户提供部署、微调等服务。

今天,Mistral AI还在官网发布了最新旗舰大模型Mistral Large,在MMLU、HellaSwag、Wino Grande等主流测试平台中,其性能超过Claude 2、Gemini Pro 1.0、GPT 3.5 和 LLaMA 2 70B,仅次于GPT-4。

资料显示,Mistral AI创立于2023年,种子轮便获得1.05亿欧元巨额融资。其三位联合创始人Timothée Lacroix 、Guillaume Lample和Arthur Mensch,拥有大厂履历和知名项目的成功经验同时也是大学校友,是大模型领域的顶尖人才。

Timothée和Guillaume此前曾在 Facebook 母公司 Meta Platforms的AI研究部门工作。在那里,Guillaume领导了Meta最先进的大型语言模型LLaMA的开发,这也是目前类ChatGPT开源领域影响力最大、受众范围最广的开源项目之一。
Arthur曾在谷歌的 AI 研究实验室DeepMind工作。

OpenAI推出“Meta-Prompting”,显著提升GPT-4等模型内容准确性

20240226

OpenAI、斯坦福大学的研究人员推出了一个创新大模型增强框架——Meta-ProMetating(简称“Meta”)。

Meta可增强GPT-4、PaLM和LLaMa等模型的性能,使生成的内容更加精准、安全可靠。

其技术原理也很简单明确,通过将模型复杂的任务或问题分解为更小、可管理的子任务,并将其分配给功能更强的专家模型来进行指导。

而META采用了一种可以跨特定任务的通用高层次指导,打造了一个集中协调和多个专家模型于一体的创新框架,从而实现任务的分解和协同解决,主要由指挥模型、专家模型、沟通协调等模块组成。

指挥和专家模型

当大语言模型收到一个内容查询时,指挥模型负责生成一个消息历史,其中包含来自各种专家模型的回答。

指挥模型首先根据查询选择适当的专家模型,并为每个特定查询制定具体的指令。然后,将这些指令传递给相应的专家模型,并监督和协调它们之间的通信和合作。指挥模型还运用自身的批判性思维、推理和验证能力来完善和验证最终结果。

而每个专家模型都有丰富的任务实例,可根据指挥为每个特定查询选择的专业知识和信息生成更准确地输出。

专家模型通过接收来自指挥模型的指令,并根据这些指令执行特定的子任务。通过将复杂任务分解为较小、可管理的子任务,专家模型能够更好地处理并生成准确、一致的回答。

上下文选择

该模块负责为每个专家模型提供动态的上下文选择。在处理复杂文本任务时,不同的上下文会引入新的视角和信息,从而丰富模型的知识和理解。

上下文选择模块可根据指挥模型的指令和当前任务的要求,选择适当的上下文信息,并将其传递给相应的专家模型。这种动态的上下文选择使得专家模型能够更好地理解和解决复杂任务。

为了保证输出内容的准确性,META还内置了批判和验证模块,通过使用逻辑推理、常识知识和验证技术来评估和验证专家模型的指导输出内容。

评估模块会对每个专家模型生成的回答进行验证,并将验证结果反馈给指挥模型。指挥模型再根据这些反馈进行调整和修正并进行自适应学习,以生成更准确和可靠的最终答案。

https://mp.weixin.qq/s/hF9Q1hv6Au90uiiOlamlLw

SORA(文生视频模型)

1.Sora 项目负责人
Sora 项目负责人两个23年毕业大学生,BILL和TIM。BILL毕业于麻省理工大学在META、英伟达、Adobe公司实习;TIM在META、英伟达、Google实习,摄影作品多次获美国地理自然最佳摄影奖

谷歌发布最强大模型Gemma,性能碾压Llama 2

刚刚,谷歌宣布推出了一款新的 AI 语言模型系列 —— Gemma。这个系列模型不仅免费、开源,而且采用了与谷歌更为强大的 Gemini 模型类似的技术。不同于 Gemini,Gemma 模型可以在个人电脑上本地运行,这是自 OpenAI 的 ChatGPT 在 2022 年引发 AI 聊天机器人热潮以来,谷歌首次发布的重要开源 LLM。

官网介绍:https://blog.google/technology/developers/gemma-open-models/

实际上,Gemma 的推出似乎是谷歌为了与 Meta 竞争而做出的举措。自去年二月以来,Meta 通过发布开放权重模型(如 LLaMA 和 Llama 2)引起了广泛关注。这种做法与 OpenAI 的 GPT-4 Turbo 相反,GPT-4 Turbo 仅通过 ChatGPT 应用程序和云 API 提供,不能在本地运行。路透社的一份报告侧重于与 Meta 的竞争,并推测谷歌希望通过这一举措吸引更多开发者使用其 Vertex AI 云平台。

有关性能、数据集组成和建模方法的详细信息,请参阅技术报告:

https://storage.googleapis/deepmind-media/gemma/gemma-report.pdf

用户可以通过以下方式使用 Gemma:

https://ai.google.dev/gemma/docs/get_started
https://www.kaggle/models/google/gemma/code
http://huggingface.co/google
https://github/google/maxtext
https://github/NVIDIA/GenerativeAIExamples/tree/main/models/Gemma
https://github/NVIDIA/TensorRT-LLM

在技术优化方面,谷歌与 NVIDIA 展开了合作,特别是在 NVIDIA 的 TensorRT-LLM(一个专门为 LLM 推理设计的库) 上实现了加速。这种合作使得 Gemma 能够更好地融入 NVIDIA 的产品生态,为使用者提供更快的处理速度和更高的效率。此外,Gemma 还可以在 NVIDIA AI 企业版中进行进一步的微调,这一点对于希望根据特定需求优化模型表现的开发者而言,是一个重要的优势。

目前看 Gemma 的竞争对手主要有 Meta 的开源 LLM Llama 2、Mistral AI 的 7B 模型、Deci 的 DecilLM 和 Microsoft 的 Phi-2 等小型生成式 AI 模型。

AI初创公司月之暗面完成超10亿美金融资

AI 初创公司月之暗面(Moonshot AI)最近完成了一轮超过 10 亿美金的融资,投资方包括红杉中国、小红书、美团和阿里,老股东也进行了跟投。这一轮融资使月之暗面的估值达到了约 25 亿美金,成为国内大模型领域的头部企业之一。这是自从 ChatGPT 引发全球热潮以来国内 AI 大模型公司获得的单轮最大金额融资。

月之暗面成立于 2023 年 3 月,迅速成为大模型领域的重要参与者。其核心团队成员曾参与 Google Gemini、Google Bard、盘古 NLP 和悟道等多个大模型项目的研发工作,拥有多年大模型研究和开发经验。目前,公司团队规模已超过 80 人。

公司创始人杨植麟是 90 后学霸,毕业于清华大学计算机系,师从唐杰教授,之后获得卡内基梅隆大学计算机博士学位,师从苹果公司现任 AI 负责人、深度学习奠基人之一 Ruslan Salakhutdinov,曾在 Facebook AI Research, Google Brain 从事自然语言处理研究,获 DREAM9 全球癌症预测大赛第一名,阿里巴巴天池大数据竞赛全球第二名,2017 Nvidia 先锋研究奖。于 ICLR、NIPS、ICML、KDD、ACL 等顶级 AI 会议发表论文二十余篇;在所有六个主流语言建模数据集保持世界第一名(State-of-the-art)。

2023 年 6 月,科技媒体 The Information 将杨植麟列为 “中国 OpenAI” 的五大候选人之一,表明了他在业界得到了高度认可,其余四位为 MiniMax、智谱 AI、光年之外以及澜舟科技。

自成立以来,月之暗面在短短不到一年的时间里,已经完成了从通用大模型到上层应用的全面布局。公司已经训练了千亿级别的自研通用大模型,并在 2023 年 10 月推出了面向 C 端的 Kimi 智能助手,这是公司首次尝试 To C 超级应用。

Kimi 智能助手支持 20 万汉字的长文本输入,主打无损记忆。“长文本(Long Context)” 是月之暗面当前主打的技术之一,这来源于团队希望突破大模型的落地瓶颈 —— 大模型的智慧之所以能 “涌现”,主要是因为通过扩大参数规模,突破到了千亿级别。

11 月,公司宣布其 Kimi Chat 聊天机器人面向全社会开放服务,用户可通过官网体验。
https://kimi.moonshot/

https://mp.weixin.qq/s/TSTzjR7uI4NsWePlMpe8pQ

Meta发布V-JEPA模型,能理解和模拟物理世界

继去年推出 I-JEPA 之后,Meta 现在又带来了 V-JEPA,这是一种通过观看视频教会机器理解和建模物理世界的方法,这加快了向 Yann LeCun 所设想的高级机器智能进军的步伐。

论文链接:https://ai.meta/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/

Meta 副总裁兼首席 AI 科学家 Yann LeCun 表示:“V-JEPA 让我们更接近于实现让机器具备对世界的深入理解,进而实现更加广泛的推理与规划能力。” 这番话再次强调了提高机器智能的宏大目标 —— 仿照人类学习过程,构建世界内在模型,以便于学习、适应,并在复杂的任务中进行有效规划。

什么是 V-JEPA?
V-JEPA 是一种视觉模型,它通过预测视频中的特征来进行训练,这种方法与传统依赖预先训练好的图像编码器、文本或人工注释的机器学习方法不同。V-JEPA 能够直接从视频数据中学习,无需外部的监督。

https://mp.weixin.qq/s/Tzz4gEE7x-mAKOp4-R55HA

LangChain完成2500万美元融资,并正式推出LLMOps产品LangSmith

致力于通过其开源框架帮助开发 LLM 应用的初创公司 LangChain 宣布,完成由红杉资本领投的 2500 万美元 A 轮融资,同时还宣布,即将正式推出首款付费的 LLMOps 产品 LangSmith。

LangSmith 被设计为一个一体化平台,它使开发者能够加速他们的 LLM 应用开发流程,包含了从开发、测试到部署及监控的整个项目生命周期。该产品去年 7 月已经启动了封闭测试,并据公司所说,目前每月有数千家企业在使用它。

通过其开源框架,LangChain 为开发者提供了一个迫切需要的编程套件,这套工具包含了一系列通用的最佳实践和可组合的构建模块,旨在帮助开发者构建由 LLM 驱动的应用。这个平台能够通过 API 接入不同的 LLM,将它们整合在一起,并与数据源及工具相连,以执行各种任务。从一个简单的副业项目起步,该项目迅速成长为超过 5000 个 LLM 应用的核心支撑,这些应用涵盖了内部应用、自主代理、游戏、聊天自动化等多个领域。

显然仅提供一个构建应用的工具包是不够的。在将 LLM 应用从开发推向生产的每个阶段,开发者都会遇到多个难题,而 LangSmith 这个新推出的付费解决方案正是为了解决这些问题。它赋予开发者调试、测试及监控 LLM 应用的能力。

https://mp.weixin.qq/s/y7FYCk2TpNFvyhMmu83XpA

挑战谷歌,OpenAI即将推出搜索服务

在微软的大力支持下,OpenAI 正在开发一款网络搜索产品,此举将使这家 AI 研究巨头与谷歌展开直接竞争。这项计划,融合了 Bing 的搜索技术,这是搜索引擎领域发展过程中的一个重要里程碑,凸显了 AI 在改变我们在线搜索体验方式中的重要地位。

原文链接:https://contxto/en/artificial-intelligence/openai-set-to-launch-web-search-service-challenging-googles-dominance/

https://mp.weixin.qq/s/4zKrDVyaesocEeMHzy2Smw

谷歌将Bard更名为Gemini,并推出Gemini Advanced

现在,你可以通过我们的 Pro 1.0 模型在超过 40 种语言和 230 多个国家与地区与 Gemini 对话。我们还推出了两项新服务 ——Gemini Advanced 和移动应用,让你更轻松地享受 Google AI 的强大功能。

原文链接:https://blog.google/products/gemini/bard-gemini-advanced-app/

https://mp.weixin.qq/s/8WJ_1dWaC4Qe2XOelu8HRA

本文标签: 模型动态