一幅图像能顶16x16字！——用于大规模图像缩放识别的变压器(对ICLR 2021年论文的简要回顾)

编程入门行业动态更新时间:2024-10-19 16:40:02

一幅<a href=https://www.elefans.com/category/jswz/34/1771430.html style= 图像能顶16x16字！——用于大规模图像缩放识别的变压器(对ICLR 2021年论文的简要回顾)"/>

一幅图像能顶16x16字！——用于大规模图像缩放识别的变压器(对ICLR 2021年论文的简要回顾)

作者|Stan Kriventsov 编译|Flin 来源|medium

在这篇博文中，我想在不作太多技术细节的情况下，解释其作者提交给2021 ICLR会议的新论文“一张图等于16x16个字：用于大规模图像识别的变压器”的意义（目前为止匿名）。

另一篇文章中，我提供了一个示例，该示例将这种新模型（称为Vision Transformer，视觉变压器）与PyTorch一起用于对标准MNIST数据集进行预测。

自1960年以来深度学习（机器学习利用神经网络有不止一个隐藏层）已经问世，但促使深度学习真正来到了前列的，是2012年的时候AlexNet，一个卷积网络（简单来说，一个网络，首先查找小的图案在图像的每个部分，然后尝试将它们组合成一张整体图片），由Alex Krizhevsky设计，赢得了年度ImageNet图像分类竞赛的冠军。