文字说明生成图像

编程入门 行业动态 更新时间:2024-10-11 11:13:30

<a href=https://www.elefans.com/category/jswz/34/671968.html style=文字说明生成图像"/>

文字说明生成图像

OpenAI->DALL.E

        OpenAI成功地训练了一个能够从文字标题生成图像的网络。它非常类似于GPT-3和图像GPT,并产生惊人的结果。

        DALL-E是OpenAI基于GPT-3开发的一种新型神经网络。它是GPT-3的一个小版本,使用了120亿个参数,而不是1750亿个参数。但它已经经过专门训练,可以从文本描述生成图像,使用的是文本-图像对的数据集,而不是像GPT-3这样非常广泛的数据集。它可以使用自然语言从文字说明中创建图像,就像GPT-3创建网站和故事一样。

       DALL-E与GPT-3非常相似,它也是一个transformer语言模型,接收文本和图像作为输入,以多种形式输出最终转换后的图像。

        Input:“山上一只狐狸的特写”

        Output:

WuDao->Cogview #咱国产的,真不错 

        

 

 

作者:Phoenix Cat
链接:
来源:知乎

其实在dalle最早的博客放出来之前,我们也独立地想到了这个VQAE+Transformer的算法框架,只不过投入不够,进展不够快,另外就是训练大模型时有一些意料之外的困难(例如精度),最后我还是基本解决了(虽然DALLE文章出来之后,他们的解法和我们不一样,感觉自己想到的还更加优雅)。不过这种规模的工作被抢先了真的太伤了,估计得想点新的创新点才能发文章……文章发了之前暂时不太会和别人详细交流技术细节了。

欢迎关注

@北京智源人工智能研究院

在20号的发布会~到时候可能放一个Demo网站出来(文章可能还早TAT)

//-----------------原答案-------------------

太夸张了,我搞这个任务快半年了。。。他这个blog中介绍的做法跟我们现在的方法几乎一致(除了大一点),但是我们感觉单纯升到13B完全达不到这个效果。。。因为这个问题跟数据集强相关,想知道数据集。。。(可能这玩意和clip强耦合,需要很多前者的产品)总之就是非常绝望,感觉自己搞的根本没意义,螳臂挡车。。。

文章的链接是 .13290.pdf

之前的demo页面仍然有效,但是依旧没有上线特别耗时的超分辨率和多次生成后选择的部分。

//----------------

Demo链接==> CogView图文生成。

//-----------------

Reference:

[1]DALL.E:

[2]:COGVIEW:

[3]:open AI地址:/

[4]:悟道AI:/

更多推荐

文字说明生成图像

本文发布于:2023-06-24 01:42:18,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/857556.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:文字说明   图像

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!