ArXiv 2020 年 Top10 论文 | 智源社区AI周刊#054

编程知识更新时间:2023-05-02 04:12:38

为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯，智源社区编辑团队本周整理了第 54 期《智源社区AI周刊》，从学术（论文和新思想、学术会议等），行业和政策（技术产业政策、项目基金申请、技术投融资等），人物（学者的人事变动和获奖情况）、数据（数据集），工具（新工具和应用推荐），求职（职场研究报告等）等诸多角度，鸟瞰过去一周人工智能领域值得关注的动态。

2021年来临，智源周刊已陪伴大家一年有余，感谢大家在过去一年的支持与陪伴，智源周刊编辑团队祝大家新年快乐，工作顺利！

过去一周（2020/12/28~2021/01/03），值得关注的内容有以下3方面：

1. metacurate.io 统计了arXiv 2020年Top 10论文（详情参见原文链接）

2. 来自MIT的研究者开源了Enzyme，一种用于LLVM编译器框架的高性能自动微分编译器插件。该插件能够合成以LLVM中间表示表示的静态可分析程序的梯度。Enzyme能够合成任何以面向LLVM IR编译器为语言编写的程序的梯度，包括C、C++、Fortran、Julia、Rust、Swift、MLIR等。（详情参见本周报“新工具”栏目）

3. 创新工场董事长兼CEO李开复博士给出了他对于2021年的预见：新冠疫情触发了全社会的线上化、数字化、AI化，而在中国独特的经济环境下，更掀起了硬科技自主创新、企业降本提效的自动化需求、线上化加速消费结构变化、逆周期行业整合等六大结构性变化。（详情参见本周报“行业与政策”栏目）

下面是各个要点的详情介绍.

- 论文推荐 -

清华大学 | 预训练表示的双调优

Bi-tuning of Pre-trained Representations

在深度学习社区中，首先从大规模数据集预训练深度神经网络，然后对预训练的模型进行微调，以适应特定的下游任务，这是很常见的。近年来，有监督和无监督的学习表示的预训练方法都取得了显著的进展，它们分别利用了标签的辨别性知识和数据的内在结构。根据自然的直觉，下游任务的甄别性知识和内在结构对于微调都是有用的，然而，现有的微调方法主要利用前者而放弃后者。问题来了:如何充分挖掘数据的内在结构来促进微调?在这篇论文中，我们提出了双调优，一个通用的学习框架，对下游任务的有监督和无监督的预先训练表示进行微调。Bi-tuning通过整合两头的支柱预训练表示：一种改进的对比交叉熵损失分类器头以实例对比的方法更好的利用标签信息，和一个带有新设计的对比学习损失的投影头，这是一种为了以类别一致的方式充分利用数据的内在结构。综合实验证实，双调优在有监督和无监督的预训练模型的微调任务中都获得了最先进的结果（例如，在低数据情况下，CUB准确率绝对提高了10.7%）。

图神经网络 | 用于动作识别的基于核的图卷积网络

Action Recognition with Kernel-based Graph Convolutional Networks

在本文中，作者引入了一种新的GCN框架，该框架在重构核希尔伯特空间（RKHS）中实现了空间图卷积。该框架使得我们可以在不增加训练参数数量的情况下，通过隐式核表征，在高维和更具判别能力的空间中设计卷积图滤波器。本文提出的GCN模型的特别之处还在于，它能够在无需显式地将学习到的图滤波器的感受野中的节点与输入图感受野中的节点重新对齐，从而使模型与卷积排列无关，可以被良好地定义。在本文中，作者通过具有挑战性的基于骨架的动作识别任务的实验，证明了该方法相对于对比基线的优越性。

神经网络结构搜索 | 用于图像恢复的记忆高效递阶神经网络结构搜索

Memory-Efficient Hierarchical Neural Architecture Search for Image Restoration

最近，人们对神经体系结构搜索（NAS）方法花费了很多注意力，该方法通常胜过在高级视觉任务上手动设计的体系结构。受此启发，作者尝试利用NAS技术为低级图像恢复任务自动设计高效的网络体系结构。在本文中，作者提出了一种内存高效的分层NAS：HiNAS（HiNAS），并将其应用于以下两个任务：图像去噪和图像超分辨率。HiNAS采用基于梯度的搜索策略，并构建了一个灵活的分层搜索空间，包括内部搜索空间和外部搜索空间，分别负责设计单元架构和确定单元宽度。对于内部搜索空间，作者提出了分层体系结构共享策略（LWAS），以实现更灵活的体系结构和更好的性能。对于外部搜索空间，作者提出了单元共享策略以节省内存，并显着提高搜索速度。提出的HiNAS既具有存储效率，又具有计算效率。使用单个GTX1080Ti GPU，在BSD 500上搜索降噪网络只需要大约1个小时，而在DIV2K上搜索超分辨率结构只需要3.5个小时。实验结果表明，与最先进的方法相比，HiNAS发现的体系结构具有更少的参数并享有更快的推理速度，同时还具有极高的竞争力。

百度&多模态 | 基于跨模态对比学习的统一模态理解与生成

UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning

百度提出统一模态预训练，同时使用文本、图像、图文对数据进行预训练，学习文本和图像的统一语义表示，从而具备同时处理单模态和多模态下游任务的能力。对于大规模的单模图像数据和单模文本数据，UNIMO 采用类似的掩码预测自监督方法学习图像和文本的表示。同时，为了将文本和图像的表示映射到统一的语义空间，论文提出跨模态对比学习，基于图文对数据实现图像与文本的统一表示学习。

旷视孙剑、张祥雨新作：用于目标检测的隐式特征金字塔网络

Implicit Feature Pyramid Network for Object Detection

在本文中，作者提出了一种隐式的特征金字塔网络（i-FPN）。现有的特征金字塔网络会将跨尺度模块堆叠起来，从而获得较大的感受野。本文作者提出使用最近在深度均衡模型（DEQ）引入的隐式函数来建模特征金字塔网络的变换。此外，作者还研发了一种残差式的迭代方法来高效地更新隐藏状态。作者在 MS COCO 数据上进行的实验结果表明，与使用 ResNet-50-FPN 的对比基线相比，i-FPN 有效地提升了目标检测性能

- 观点 -

智源研究院发布2020年世界人工智能十大技术进展

年终岁尾，AI热潮仍然汹涌，应用前景依然广阔。在这样一个时间节点，全体智源学者经过商讨复盘，从科学、系统、算法等层面总结出AI领域的十大进展，分别如下：进展1：OpenAI发布全球规模最大的预训练语言模型GPT-3；进展2：DeepMind的AlphaFold2破解蛋白质结构预测难题；进展3：深度势能分子动力学研究获得戈登·贝尔奖；进展4：DeepMind等用深度神经网络求解薛定谔方程促进量子化学发展；进展5：美国贝勒医学院通过动态颅内电刺激实现高效“视皮层打印”；进展6：清华大学首次提出类脑计算完备性概念及计算系统层次结构；进展7：北京大学首次实现基于相变存储器的神经网络高速训练系统；进展8：MIT仅用19个类脑神经元实现控制自动驾驶汽车；进展9：Google Facebook团队分别提出全新无监督表征学习算法；进展10：康奈尔大学提出无偏公平排序模型可缓解检索排名的马太效应问题。

- 行业与政策 -

李开复：自动化成企业升级转型刚需

12月28日，在创新工场北京总部举行的媒体趋势分享会上，创新工场董事长兼CEO李开复博士，便给出了他对于2021年的预见：新冠疫情触发了全社会的线上化、数字化、AI化，而在中国独特的经济环境下，更掀起了硬科技自主创新、企业降本提效的自动化需求、线上化加速消费结构变化、逆周期行业整合等六大结构性变化。自动化、国产替代、线上化、医疗产业重塑，这四大领域将迎来空前发展机遇。

InfoQ研究报告：知识图谱如何打破人工智能的认知天花板

知识图谱究竟能解决哪些问题、应用在哪些场景？其技术架构如何发展演变？又将如何支撑实现认知智能的终极目标？成为技术圈热议的焦点。InfoQ基于对知识图谱技术生态的深刻观察，重磅发布《知识图谱：打破人工智能的认知天花板》研究报告。带您探索知识图谱如何实现机器的辨识、思考与主动学习，梳理知识图谱技术体系与产业链结构，剖析实现认知智能的技术挑战与发展趋势，探求知识图谱将如何打破人工智能的认知天花板。

AI芯片独角兽Graphcore融资2.22亿美元，与英伟达展开抗衡

总部位于英国的AI芯片制造商 Graphcore 已筹集2.22亿美元新资金，以应对来自美国竞争对手英伟达的更激烈竞争。最新一轮融资对 Graphcore 的估值为25亿美元（不包括新募资金），高于两年前的15亿美元，使其成为英国市值最高的私营科技公司之一。Graphcore 联合创始人兼CEO 奈杰尔•图恩（Nigel Toon）曾抨击英伟达（Nvidia）计划以400亿美元从软银（SoftBank）手中收购英国芯片设计公司 Arm，称其“不利于竞争”、“不利于整个市场”和“不利于英国”。

下一代超级计算机将落户深圳

“下一代超级计算机”是当前世界各国高新技术领域角逐的焦点之一，这种每秒可进行百亿亿次数学运算的超级计算机，被全世界公认为“超级计算机界的下一顶皇冠”。预计到2022年，“下一代超级计算机”将落户深圳，为深圳综合性国家科学中心和粤港澳大湾区国际科技创新中心建设提供有力支撑。

美国通过2021财年《国防授权法案》，开启人工智能新发展阶段

近日，美国国会通过了2021财年《国防授权法案》（the fiscal 2021 National Defense Authorization Act），旨在通过将直接采购权下放给负责人、简化流程等措施提高人工智能办公室在国防部中的地位。本次《国防授权法案》主要针对采购自主权、简化报告流程以及开展“联合人工智能中心2.0”计划三个方面提出建议。

- 人物 -

2021 AAAI Fellow名单重磅出炉

据AAAI 官方推特消息，AAAI将新增10位Fellow，表彰他们在强化学习、自然语言处理、视觉等方面的所作出的贡献。10位新增成员的就职典礼将会在AAAI 2021大会期间举行。其中，当选Fellow的在职机构，有6位是美国，1位德国，1位瑞士，还有两位是加拿大和日本。

吴恩达、李飞飞、沈向洋：2021年的人工智能会是这个样子

在2020年的最后一天，斯坦福大学计算机科学系和电子工程系副教授吴恩达邀请了斯坦福大学计算机科学教授、美国工程院院士李飞飞，以及清华大学高等研究院双聘教授沈向洋等人工智能的精英学者对2021年的AI技术发展进行了一次展望。吴恩达认为，在接下来的一年中，人工智能将缩短概念证明与生产之间的差距、增强AI社区的共享价值观以及确保我们的工作结果公平公正；李飞飞希望美国政府能够坚定承诺支持AI创新，激活AI生态系统，扭转高级人才流向业界的趋势；沈向洋则期待AI帮助人类进行艺术创作；佐治亚理工学院交互式计算主任Ayanna Howard期待AI社区可以就如何构建有道德的AI达成广泛共识；ARM机器学习研究实验室的杰出工程师和高级总监Matthew Mattina希望TinyML等微型ML技术和小型设备可以发挥更大作用；OpenAI联合创始人Ilya Sutskever则期待语言和视觉的融合。

- 数据 -

OCTA-500：视网膜图像分割数据集

本文提出了一个新的多模态数据集，称为OCTA-500。它包含500个主题，具有两种视场（FOV）类型，包括OCT和OCTA卷，六种类型的投影，四种类型的文本标签和两种类型的像素级标签。数据集包含超过360K图像，大小约为80GB。它是目前最大的OCTA数据集，具有丰富的信息。

- 代码 -

UEGAN：基于GAN的无监督图像增强

对于公众而言，提高图像的美学质量是充满挑战和渴望的。为了解决这个问题，大多数现有算法都是基于监督学习方法来学习用于配对数据的自动图像增强器，该图像增强器由低质量的图像和相应的专家修饰版本组成。但是，专家修饰的照片的风格和特征可能无法满足一般用户的需求或偏好。在本文中，我们提出了一种无监督的图像增强生成对抗网络（UEGAN），该网络以无监督的方式从一组具有所需特征的图像中学习相应的图像到图像的映射，而不是学习大量的成对图像。所提出的模型基于单个深度GAN，它嵌入了调制和注意力机制以捕获更丰富的全局和局部特征。基于提出的模型，我们引入了两种损失来处理无监督图像增强：（1）保真度损失，其定义为预训练VGG网络的特征域中的L2正则化，以确保增强图像之间的内容（2）质量损失，它被定义为相对hinge adversarial loss，以赋予输入图像所需的特性。定量和定性结果均表明，该模型有效地提高了图像的美学质量。

ALBERT：用于语言表征学习一个自监督的轻量型BERT

在对自然语言表示进行预训练时，增加模型的大小通常会提高下游任务的性能。然而，由于GPU/TPU内存的限制，进一步的模型增加变得更加困难更长的训练时间。为了解决这些问题，我们提出了两种参数减少技术来降低内存消耗和增加训练BERT的速度。综合的经验证据表明，论文所提出的方法所产生的模型的规模比原BERT要小的多。文中还使用了一种专注于建模的自我监督损失句子间的连贯性，并表明它始终有助于下游的多句子输入的任务。总之，文中提出的模型在参数比BERT-large少的前提下，在GLEU、RACE和SQuAD基准上仍然取得了最好的结果。

通过Transformer从Seq2Seq的视角思考语义分割

本文作者旨在通过将予以分割作为一种序列到序列的预测任务来提供一种替代方法。具体而言，作者采用了一种纯 Transformer 的架构将图像编码为一个图块序列。通过在 Transformer 的每一层中对全局上下文建模，这种编码器可以与一个简单的解码器组合，从而构建强大的分割模型 SETR。为了验证模型的性能，作者进行了大量的实验。实验结果标记名，SETR 在 ADE20K、Pascal Context 数据集上都取得了目前最佳的分割性能，并且在 Cityscape 数据集上性能也相当可观。值得一提的是，SETR 在竞争激烈的 ADE20K 竞赛中位列榜首。

- 教程 -

谷歌 |《高效自然语言处理技术发展综述》

本ppt由谷歌NLP研究团队在EMNLP2020上做的分享，主要整理了最近几年自然语言处理领域的各项最新技术，涉及NLP常用模型RNN、Seq2Seq、Attention、Transformer等，以及NLP在蒸馏、模型压缩等领域最新发展，NLP各个子领域的最新技术发展，非常值得一看。

宾大最新《图神经网络可迁移性》课程

在这节课中，讲者将讨论GNN的可迁移性，也就是说能够在保证性能的情况下迁移机器学习模型。首先，讲者深入研究了谱域和节点域的graphon滤波器的收敛性。稍后，讲者将以生成模型的形式讨论graphon过滤器。讲者将继续介绍graphon神经网络（WNNs），这是解释为什么graphon神经网络可以在从graphon获得的确定性图之间转换的关键元素。讲者最后证明GNN继承了图滤波器的可迁移性。

最新《神经架构搜索NAS》报告

神经架构搜索（NAS）是一个很有前途的领域。首先，本文将讨论围绕NAS建立科学社区的各种工作，包括基准测试、最佳实践和开放源码框架。然后，本文将讨论该领域几个令人兴奋的方向:（1）广泛的NAS加速技术;（2）在Auto-PyTorch中结合NAS +超参数优化，实现现成的AutoML;（3）神经集成搜索（NES）的扩展问题定义，它搜索一组互补的架构，而不是像NAS中搜索的单一架构。

- 新工具 -

MIT开源高性能自动微分框架Enzyme：速度提升4.5倍

来自MIT的研究者开源了Enzyme，一种用于LLVM编译器框架的高性能自动微分（AD）编译器插件。该插件能够合成以LLVM中间表示（IR）表示的静态可分析程序的梯度。Enzyme能够合成任何以面向LLVM IR编译器为语言编写的程序的梯度，包括C、C++、Fortran、Julia、Rust、Swift、MLIR等，从而提供这些语言的本机AD功能。

达摩院基于元学习的对话系统

随着科技的不断进步发展，智能对话系统因其巨大的潜力和商业价值将会成为下一代人机交互的风口，不少公司都纷纷开始研究人机对话系统，希望人与机器之间能够通过自然对话进行交互。达摩院 Conversational AI团队（即云小蜜团队），早在三年前就研发打造了面向开发者的智能对话开发平台 Dialog Studio，并将技术通过阿里云智能客服的产品矩阵，赋能各行各业和政府机构进行智能服务的全方位升级。目前Dialog Studio平台已经在阿里云智能客服（政务12345热线、中移动10086、金融、医疗等）、钉钉（通过钉钉官方智能工作助理服务几百万企业）、集团内（淘宝优酷等十几个BU）、淘宝天猫商家以及Lazada东南亚6国得到了大规模应用。

RealSafe社区版：支持对抗样本体验与基础模型安全测评

为了更大范围的普及AI安全风险知识， RealSafe社区版正式推出，可以测评人脸比对模型的安全性，研究人员、企业用户等均可以登录智源官网体验：用户可自行上传图片，在平台上自动生成对抗样本图案，查看对抗样本对于比对模型的攻击效果；也可以上传人脸比对场景的模型文件或API调用脚本，通过新建任务平台将自动进行模型安全性测评，并且平台会在测评完成后输出测评报告。

- 应用 -

百度研究中心&美国罗格斯大学：基于多重对抗时空网络的空气质量与天气联合预报

在这项工作中，作者团队通过明确建模两个预测任务之间的相关性和相互作用来研究空气质量和天气状况的联合预测。但是，实现这一目标面临两个主要挑战。（1）观测异质性，地理分布的空气质量和气象站是异质的空间物体，仅监测不同的大气条件；（2）复合观察误差。实际上，由于采样器误差和环境干扰，监测站报告的观测值通常不确定性较高。为了解决以上问题，作者团队提出了多对抗性时空递归图神经网络（MasterGNN），以实现可靠的空气质量和天气联合预报。

基于深度学习的6G协同自动驾驶智能车距控制

在本文中，作者团队研究了6G支持的协作驾驶，这是一种通过信息共享和驾驶协调实现的高级驾驶模式。首先，他们使用混合通信和信道访问技术量化了6G车辆到车辆（V2V）通信的延迟上限。开发了深度学习神经网络并对其进行了训练，以便在实时操作中快速计算延迟范围。然后，设计了一种智能策略来控制车辆间的距离，以进行协作式自动驾驶。此外，还提出了一种基于马尔可夫链的算法来预测系统状态的参数，并且提出了一种安全的距离映射方法来实现平稳的车速变化。拟议的算法在AirSim自动驾驶平台中实现。仿真结果表明，所提出的算法有效，鲁棒，安全稳定的协同自动驾驶，大大提高了道路安全性，通行能力和效率。

在移动设备上实现实时LiDAR 3D目标检测

3D目标检测是一项重要任务，尤其是在自动驾驶应用领域。然而，在自动驾驶汽车的边缘计算设备上以有限的计算和内存资源来支持实时性能具有挑战性。为了实现这一目标，我们提出了一个具有编译器感知能力的统一框架，该框架将网络增强和剪枝搜索与强化学习技术结合在一起，以便能够在资源受限的边缘计算设备上实时推断3D目标检测。具体而言，使用生成器循环神经网络（RNN）来提供统一的方案，以自动进行网络增强和剪枝搜索，而无需人工和专业知识。统一方案的评估性能可以反馈给训练生成器RNN。实验结果表明，该框架首先在具有竞争优势的移动设备（三星Galaxy S20手机）上实现了实时3D目标检测

- 经验 -

训练神经网络实用技巧

一份简短的关于训练神经网络的技巧，值得一看，包括：一般建议，分析你的数据，考虑你的架构，好的训练实践，改进不好的网络，Pytorch Bug，模型不work，模型过拟合等。

以上是《智源社区AI周刊》第 54 期的内容，智源社区编辑团队将本着“提供真正内行的AI资讯”的目标，不断优化和完善我们的内容服务，各位读者们如有批评意见，或者好的建议，请不吝赐教发至：editor@baai.ac。谢谢大家。

点击"阅读原文"进入智源社区查看

更多推荐

ArXiv 2020 年 Top10 论文 | 智源社区AI周刊#054

本文发布于:2023-04-25 19:26:00，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/99012262c704e4b5eb1ad39cddf28980.html