admin管理员组

文章数量:1650776


这篇就比较简单了,就是从中间选一层feature map出来,T和S做个Loss来训S,训好了再用KD再训一遍S
这里有个问题,文中用的S和T的宽度不一样(输出feature map的channel不一样),因此第一阶段还需要在S的feature map后加一个卷积层调channel和size。

论文里好像就是用的普通的卷积,也没提到padding操作,这样的话就要求N_g>N_h了,也就是S的feature size>T的feature size?

二阶段

第一阶段训上面的这个feature map的loss,第二阶段训普通的KD loss,实际上第一阶段就只训选的feature 层的前面的那部分网络,第二阶段是全部训。

关于feature map层的选取,作者是直接选取的两个网络的最中间的那一层

md看半天别人的博客写的稀里糊涂浪费时间,还不如自己读一下论文,别人论文里写的还是挺清楚的

本文标签: ThinhintsFitNetsDeepmap