一幅图像能顶16x16字!——用于大规模图像缩放识别的变压器(对ICLR 2021年论文的简要回顾)

编程入门 行业动态 更新时间:2024-10-19 16:40:02

一幅<a href=https://www.elefans.com/category/jswz/34/1771430.html style=图像能顶16x16字!——用于大规模图像缩放识别的变压器(对ICLR 2021年论文的简要回顾)"/>

一幅图像能顶16x16字!——用于大规模图像缩放识别的变压器(对ICLR 2021年论文的简要回顾)

作者|Stan Kriventsov 编译|Flin 来源|medium

在这篇博文中,我想在不作太多技术细节的情况下,解释其作者提交给2021 ICLR会议的新论文“一张图等于16x16个字:用于大规模图像识别的变压器”的意义(目前为止匿名)。

另一篇文章中,我提供了一个示例,该示例将这种新模型(称为Vision Transformer,视觉变压器)与PyTorch一起用于对标准MNIST数据集进行预测。

自1960年以来深度学习(机器学习利用神经网络有不止一个隐藏层)已经问世,但促使深度学习真正来到了前列的,是2012年的时候AlexNet,一个卷积网络(简单来说,一个网络,首先查找小的图案在图像的每个部分,然后尝试将它们组合成一张整体图片),由Alex Krizhevsky设计,赢得了年度ImageNet图像分类竞赛的冠军。

  • AlexNet:

  • ImageNet图像分类竞赛:

在接下来的几年里,深度计算机视觉技术经历了一场真正的革命,每年都会出现新的卷积体系结构(GoogleNet、ResNet、DenseNet、EfficientNet等),以在ImageNet和其他基准数据集(如CIFAR-10、CIFAR-100)上创下新的

更多推荐

一幅图像能顶16x16字!——用于大规模图像缩放识别的变压器(对ICLR 2021年论文的简要回顾)

本文发布于:2024-03-04 19:53:16,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1710257.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:图像   一幅   缩放   简要   变压器

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!