【AI】Interesting Applications|电子爱好者

admin管理员组
文章数量:1594644

文章目录

【LLM】
【3D AI 生成】
- One-2-3-45
- Direct3D
【多模态——指哪打哪】
【AlphaDev：汇编版 AlphaZero】
【ChatExcel】
【分割一切视频版】
【盘古】
【Apple Vision Pro】
【杂记】

【LLM】

ChatGPT、DALL-E、Sora——OpenAI
ChatGPT 编程，安全性如何
处理图片比处理文本时间要多很多，Sora H100 一小时产生5分钟视频
sora 学会了识别和理解各种物体和动作
GPT3 1750亿
Sora团队负责人Aditya Ramesh
GPT 4o
LLaMA——Meta
facebook 开源了 llama2
llama 3.1
Midjourney——Midjourney，NiJi 二次元生成模型
Claude 3——Anthropic（已经实现了对GPT-4的全面超越）
Claude 3.5
AtomoVideo——阿里巴巴，图生成视频
Vlogger——Google，一张照片加提示词生成视频
Gemini，一款由Google DeepMind（谷歌母公司Alphabet下设立的人工智能实验室）于2023年12月6日发布的人工智能模型
Gen2，Gen-3 Alpha——Runway（视频生成 4k）
Pika、Pika2.0（ Pika-Pika labs AI自动对口型）
Dream Machine——Luma AI（视频生成）

也支持子弹时间特效
Moonvalley——Moonvalley.ai（视频生成）
Grok——Twitter（可修改回答，继续交流）
HeyGen——诗云科技（让视频中的人物说出任何语言）
HeyGen 5.0 数字人大升级，边走边说，2024.03
magnific AI

AI 锐化，丰富细节，加入光影，使AI生成的图像更真实
vivo 蓝心，AI 大模型助手
AI搜索引擎 globe explorer
Generative Fill：比如将 PS中的 Generative Fill 和 AR 结合，了解一下~属于是一键加特技了。
HoloTile——迪士尼，魔法地板
Motionshot——阿里，转3D形象，eg dance
星动纪原，人形机器人
舌控鼠标——笔记本触摸屏
EvevenLabs 公司—视频配乐
Grok——特斯拉开源大模型，3140亿参数，百万M，十亿G，万亿T
阿里 champ 生成，给图片就可以跳舞
Nerualink，Elon Musk的公司，脑机接口，
kimi.ai——月之暗面，论文分析
udio——Udio，生成音乐
Simulon——Simulon，把 3D 模型塞进真实视频里
VideoGigaGAN——Adobe，AI视频分辨率提升模型——2024.04
百度智能云曦灵发布的文生3D数字人——2024.05
Copilot ——Code Copilot GPTs正式上线！这是一个在OpenAI的编程分类中排名第一的GPTs，旨在帮助开发者更高效地编写代码，提高生产力，并提升代码质量。
未来是否 GUI ->LUI，面向自然语言编程，可以叫 Copilot pro
Viggle，上传图片和视频模版，使得图片像视频中的动作一样动起来，eg 动物跳科目三
MOKI——美图，AI短片创作平台，将于24年7月31号上线。

基于此，MOKI建立了一个AI短片工作流，覆盖整个创作周期，实现高度可控。

前期设定：AI脚本、视觉风格选择、角色设计、分镜图生成与修改；

中期制作：分镜图转为视频素材、视频生视频、驱动角色说话；

后期制作：智能剪辑、AI配乐、AI音效、自动字幕等功能串联素材并实现成片。
智源研究院
智源与中国电信人工智能研究院（TeleAI）联合研发了基于生长技术训练的全球首个低碳单体稠密万亿语言模型，中间版Tele-FLM 52B已开源
Proteus——斯坦福大学团队Apparate Labs，是新一代的基础模型，用于人类的实时表情生成
Nemotron-4 340B——Nvida——用合成数据，就可以创建性能强大的特定领域大语言模型！仅解码器Transformer架构
Hallo，一张人像、一段音频参考，就能让霉霉在你面前唱碧昂丝的《Halo》
Xu M, Li H, Su Q, et al. Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation[J]. arXiv preprint arXiv:2406.08801, 2024.
Chatbot Arena——大模型擂台
扣子（coze）——字节跳动的——给国产大模型们组了个大局，在同一个“擂台”上，两个大模型为一组，直接以匿名的方式PK效果！
Vimi——商汤——可控人物视频生成算法模型Vimi是首个可控人物视频生成AIGC产品。基于商汤日日新大模型能力，它可以通过动作视频、动画、声音、文字等多种驱动元素来驱动人物类图片，从而生成和目标动作一致的人物类视频
硅语，guiyu，AI数字人
中山大学&字节智创数字人团队提出虚拟试穿
Zhang X, Lin E, Li X, et al. MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation[J]. arXiv preprint arXiv:2405.00448, 2024.
讯飞星火4.0——科大讯飞
MiniMax、月之暗面、智谱AI、零一万物、百川智能、阶跃星辰
至强—英特尔——千帆大模型平台——CPU 加速大模型落地

【3D AI 生成】

One-2-3-45

3D AI生成出新玩法了：无需数小时，只要45秒，单张图片即可生成 3D模型

Project Page: http://one-2-3-45

Paper: https://arxiv/pdf/2306.16928.pdf

Code: https://github/One-2-3-45/One-2-3-45

Demo：https://huggingface.co/spaces/One-2-3-45/One-2-3-45

Direct3D

DreamTech 官宣了其高质量 3D 生成大模型 Direct3D

【多模态——指哪打哪】

仅靠“口才”就能解决视觉任务！商汤提出Shikra：新一代多模态大模型

《Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic》

https://arxiv/pdf/2306.15195.pdf

https://github/shikras/shikra

基于 CLIP 做的

会拼图

会分辨谁是镜子中的人

点作为输入也可以

Reffering Expression Generation

Referring Expression Compression

【AlphaDev：汇编版 AlphaZero】

谷歌DeepMind打破十年算法封印，AlphaDev惊世登场，颠覆人类算法格局！

Alpha」家族再添新成员AlphaDev！谷歌大脑DeepMind合体后首发力作，全新AI系统将排序算法提速70％，C++排序库十年来首次更改。AI创造AI的时代要来了？

谷歌 DeepMind 的研究者相信，在这个较低的层级中存在许多可改进的空间，而这些改进在更高级的编程语言中可能很难发现。

AlphaDev：汇编版 AlphaZero

【ChatExcel】

老罗落泪！北大团队搞出ChatExcel，说人话自动处理表格，免费且不限次使用

【分割一切视频版】

《Tracking Anything with Decoupled Video Segmentation》（ICCV 2023）

ICCV 2023开源 | 最新跟踪一切！分割一切视频版来了！

一种解耦的视频分割方法DEVA，用于"跟踪一切"。它使用双向时序传播，有效地将图像分割方法扩展到视频数据中。DEVA最大的创新在于对训练数据的需求非常低，而且可以使用现成的图像分割模型直接扩展到其他视频分割任务上，非常的通用。

【盘古】

2023年7月，华为正式发布盘古大模型3.0，并提出3层模型架构。

L0：基础大模型，包括自然语言、视觉、多模态、预测、科学计算；
L1：N个行业大模型，比如政务、金融、制造、矿山、气象等；
L2：更细化场景的模型，提供“开箱即用”的模型服务

2024

盘古大模型，5.0

【Apple Vision Pro】

空间计算操作系统（Spatial Computing OS）——vision pro

【杂记】

视频生成技术发展史

2017 《video generation from text》
（1）早期 GAN，细节容易失真，输出结果不稳定
（2）后来 Diffusion，《video diffusion models》模拟物理学的扩散，生成图像的过程更容易控制和优化
（3）Make-A-Video 解决数据不足问题，Tune-A-Video，训练文本生成图片的模型，然后用视频 fine-tune 以获得文本生成视频的能力
（4）Runway
sora
WAIC2023 十大商业落地趋势
爱芯元智基于AX650N，transform支持的很好
LLM不断刷榜，是真的厉害还是数据被泄露（train test data，刷过真题，污染）的更严重，看zero shot learning 的能力
openai的生成式模型很多都是encoder decoder编解码用的，在两者之间加了diffusion然后diffusion里面有一个transform模块
Bert encoder
GBT decoder
Pika runway transformer
sora 统一了左右脑能力
以前人形机器人做玩具还行，做事不行，可以训练他做1W件事情，但总有第1w零1件事情，它没有训练过，不太行
大模型出来后，核心、灵魂、驱动核心替换成大模型，教一遍（模仿），就会是一个不错的方向
scaling law 规模效应——大模型方法论，可以产生规则所不能教会他的智能（方法论），ps：方法论，就是关于人们认识世界、改造世界的方法的理论。它是人们用什么样的方式、方法来观察事物和处理问题。概括地说，世界观主要说明世界 “是什么” 的问题，方法论主要说明 “怎么办” 的问题。
transformer 四个优点
1 所有模态的输入都变成 token，序列化的数据
2 猜测下一个token
3 猜测降低训练难度（预训练的数据不用标注，只要数量足够大）
4 指数级增加模型能力
i couldn’t create what i don’t understand，多看多想多建立新的脑回路，创新不是瞎想
具身智能——是人工智能的一个发展领域，指一种智能系统或机器能够通过感知和交互与环境进行实时互动的能力。可以简单理解为各种不同形态的机器人，让它们在真实的物理环境下执行各种各样的任务，来完成人工智能的进化过程——人型机器人
大模型思维链 CoT(Chain of Thought)，给我拿一个苹果vs我饿了
机器人的大脑在哪？云端vs头上vs家里电脑，隐私vs安全性，云管边端，边端的意义，实时性，隐私性
开源：PK干不过你，就开源，从原子弹变成茶叶蛋，让技术变得不那么神秘
0 day漏洞vs 老漏洞，供应链漏洞（买了第三方软硬件被攻击进来了），最大的是人的漏洞
自然语言编程缺陷：自然语言无法做到精准描述
英伟达，B200（2024.3）, 一个行业为英伟达打工，为电厂打工，真的健康吗？
低成本低功耗高性能的推理芯片（比如之前发展的挖矿芯片）vs全能芯片（能训练，推理，游戏加速）
推理芯片 赛道，不用训练，压低成本
老黄（Jensen Huang），扁平化管理，信心传递最高效
好的战略是阳谋不是阴谋，可以广而告之的
管一层（被蒙蔽）看一层（向下多看一层）
聪明的人期望很高，要有有韧性的聪明，愈挫愈勇才能走得远
葵花宝典——欲练此功，必先自宫——放弃360软件付费，免费，靠广告赚钱
吸心大法——学习吸收别人的优点
蛋白是3D折叠结构，不仅仅是序列，alpha go 加速度了新蛋白的发现，十年一个 to 一下子几千个，做药的时候，候选新蛋白也变多了，更多尝试
大模型落地，to B or to E（企业） or to G（政府）比 to C 好做，避开通用大模型竞争，企业级对数据比较敏感，在某一个专用领域的大模型，
第一条，大算力，通用大模型
第二条路线，企业级，产业化，垂直化，场景化专用模型
智雷地雷（视觉，听觉），无人机+地雷
头脑体操，亲自做产品时间有限，发觉生活中各类产品的不足，
产品经理-小白模式，傻瓜模式，用户视角体验产品，发现不足，然后用专家模式改进产品
周鸿祎 2024 年大模型发展十大趋势判断
1. 大模型无处不在，成为数字系统标配
2. 开源大模型爆发
3. 小模型涌现，运行在更多终端
4. 大模型企业级市场崛起，向产业化、垂直化方向发展
5. Agent智能体激发大模型潜能，成为超级生产力工具
6. 2024是大模型应用场景之年，ToC出现杀手级应用
7. 多模态成为大模型标配
8. 文生图、文生视频等 AIGC 功能突破性增长
9. 具身智能赋能人行机器人产业蓬勃发展
  10.大模型推动基础科学取得突破
2024.04.09 趋势预测
1. 开源模型爆发，大模型未来无处不在
2. 未来大国间AGI竞争的关键是“云端超级大模型”，规模越做越大
3. 大模型同时越做越小，搭载于智能终端
4. 企业级大模型市场崛起，企业会同时拥有多个垂直大模型
5. 多模态成为大模型的关键能力
6. 文生图，文生视频等AIGC功能突破性增长
7. ToC继续涌现杀手级应用
8. 知识工程成为大模型落地的决定性要素
9. AI Agent 激发大模型潜能成为超级生产力工具
10. 人形机器人产业发展获得十倍加速
11. 大模型认知能力不断提升，自动驾驶迎来革命性变化
12. 大模型帮主生物科学等基础学科研究突破瓶颈
13. AI 安全变得前所未有重要
14. 芯片性能每年翻10倍，6年将提升100万倍，算力规模每半年翻1倍
15. 能源成为AI甚至人类文明发展瓶颈，唯一破解方法是解决可控核聚变
16. 大模型和硬件结合会带来新产业革命
agent
chatGPT 的训练过程
大模型生态，落地场景
人的大脑，25-30w，机房放在太空，太阳能
以模制模，另外的大模型来判断大模型有没有输出错误的结果
信息不等于知识，知识不等于智慧——training data，需要的是知识不是信息
训练素材，矛盾的
不同时代，不同人，同一个人不同时期的观点都不一样
低空经济
一个对象不适合扮演太多角色——通用大模型
大脑模型+小脑模型+反射弧
think different
科技平权
Megatron / Deepspeed 等常见大模型训练框架，LLaVA，QWEN-VL等多模态大模型
不是大鱼吃小鱼，是快鱼吃慢鱼
聊天机器人——搜索增强，知识对齐
diffusion，找矿脉，分布在流形结构上

本文标签： AI Interesting Applications

版权声明：本文标题：【AI】Interesting Applications 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1725513595a1026690.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

【AI】Interesting Applications

文章目录

【LLM】

【3D AI 生成】

One-2-3-45

Direct3D

【多模态——指哪打哪】

【AlphaDev：汇编版 AlphaZero】

【ChatExcel】

【分割一切视频版】

【盘古】

【Apple Vision Pro】

【杂记】

更多相关文章

PS AI 安装教程

人工智能抠图PS插件Topaz Mask AI

物联网、RISC-V、OS应用、边缘AI蓄势待发...

AI工具 GPT 学术优化 (GPT Academic) 安装实践

Practice Exam: Oracle Cloud Infrastructure Generative AI Professional

腾讯御安全之AI反病毒引擎白皮书

AI实战 | 使用元器打造浪漫仪式小管家

FINM081 The Role of AI in Enhancing Financial Inclusion in Chinese Banking Task 2Prolog

推荐开源项目： LetsPPT - AI智能生成PPT助手

关于腾讯AI接口调用乱码的问题

AI产品经理成长路

讯飞输入法13.0发布，推出行业首款生成式AI输入法

用 AI 解决电脑问题、推荐电影、游戏攻略

一文看尽60道AI算法高频面试题

“AI in the Alps“：身体与精神的一场盛宴

ai与虚拟现实_AI医疗的神话与现实

2022.7.4-7.10 AI行业周刊（第105期）：蜗牛

AI医药论文解读--Drug-drug Interaction Prediction with Graph Representation Learning

我用AI Agent写博客【CrewAI】

AI 行业发展趋势和人才需求预测

发表评论

推荐文章

5.20爬虫结——Mu

wtg linux双系统,如何做Windows To Go+Ubuntu To Go双系统U盘教程

收银机和服务器连接不上显示单机,这个收银机修理攻略我秒速收藏了

可免费编辑 PDF 内容的 7 大 PDF 编辑工具

统信 Ubuntu安装Times New Roman字体

热门文章

sprint源码之FactoryBeanRegistrySupport

桌面的计算机打不开怎么办,电脑打不开如何处理 桌面图标打不开怎么办

PDF编辑免费省钱方法

银河麒麟系统PDF转Word

Android自定义之仿360Root大师水纹效果

MySQL5.7忘记root密码，重置root密码方法

技术债务管理_管理技术债务的完美过程

iSlide软件安装包下载 丨不限速下载丨永久使用

方便Office文件编辑的利器 : Office Tab(MS_Office插件)

Python调用PIL的ImageFont模块及对应字体-记录

最新文章

Unity - 解决TMP FontAssetCreator 在生成 SDF 时 Font 显示 ????? 的问题

仿宋GB2312、楷体GB2312

wps for linux显示系统缺失字体解决办法

iconfont平台如何上传和下载字体图标

Ubuntu wps 安装及 windows字体安装

cad汉仪长仿宋体_汉仪长仿宋体下载

VC6.0经典字体 Fixedsys字体

Google Material Design的图标字体版本

Type 3字体的解决办法

elementUI组件库文件下载的问题

Ubuntu Linux 16.04 xfce下最漂亮的系统字体------文鼎粗钢笔楷体安装记录

android实现字体可复制,特殊字体生成器能复制app下载

LINUX 安装中文字体(.ttf)

&quot;字体arial不支持样式regular&quot;的解决方法

Linux centos7下 LibreOffice及字体安装

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

桌面的计算机打不开怎么办,电脑打不开如何处理桌面图标打不开怎么办

iSlide软件安装包下载丨不限速下载丨永久使用

"字体arial不支持样式regular"的解决方法

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载