QA"/>
【动手学】30 分类竞赛QA
问题1:如果要提高泛化性,就有可能增加数据?调参的意思是不是最大了?
答:增加数据:做简单的增加泛化性;要注意数据的质量;当有很多数据时,就不用了过度调参。
问题2:还有个问题,我之前用的 alexnet先做的实验,我发现 resnet'18比alexnetl的模型文件要小很多,可是之前您的课里面有一张图,好像是 resnet的运算量要比 alexnet>大,怎么解释这个问题?
答:alexnetl大概模型300多M,resnet18大概18M;AlexNet很大主要是因为全连接层;卷积层参数更少但计算比全连接层更大一些。计算时,resnet18更深而且不符没有变得那么小,前面计算量是比较大的。resNet计算比较慢。
问题3能回答下我的问题嘛?就是我看 resnet其实跟gt很像,就是树模型化神经网络?
答:这是两类不一样的模型
问题5:请问老师,训练集准确率不断增加,但是验证集的准确率大幅震荡,是过拟合的原因吗,还是有其它原因导致?谢谢老师
答:听上去像是过拟合
问题6:老师请问加的层数也是超参数吗?如何去加层呢?哪些车可以加那些?哪些参数不能动?我自己现在不知道如何改,有技巧吗?如加Resnet24谢谢
答:模型的层就是巨大超参数;加快加深是可以的。可以看VGG如何将channel如何减小。
问题8:llc是显存还是缓存Ilc是1还是2,I3
答:缓存,last level cash
问题12:只能看到有文章预测未来计算设备都会专业化,而不是都在同样的计算机”上。比如医疗专用计算设备,物理专用计算设备。请问您对这件事儿怎么看?
答:硬件有周期,通用硬件能做了大家都做通用硬件,通用硬件涨不上去时就会转移到专业硬件。分久必合,合久必分
问题13:c++有omp, python不也有 multiprocessing.吗?还是不行?
答:python做多线程不是很好。
问题14: multiprocess是会把计算分布到各个核上?
答:操作系统决定的,可以认为是均匀分配的
问题15做计算时把for-oops运算尽可能通过向量化?
答:能用矩阵或tensor做的,尽量用,不要使用for-loop,实在要用的话使用c++写或者low level的python写
问题16:可视化时,常常需要把数据在CPU和GPU之间切換,如何不要频繁在cpu和gpu之间传输数据?常见的这样的错误操作有哪些?有命令能看到吗?怎么排查这种错误
答:最后最后打印就算占用内存很大也没关系,不要算一个转一下是不行的。算完一个foward和backward转一下是ok的。打印loss,也是传给cpu的,1s传几个值,几百M,1个G都是没事的,一般可视化是没关系的,带宽并行不会很慢。
问题17:老师,g0怎么样?未来有可能用于高性能cpu或者gpu计算编程语言吗?
答;go不用于做高性能的东西,go异步,并行,分布式系统做的非常好,网页服务器,不适合做高性能稠密性计算。
问题18:rust语言做底层怎么样
答:rust做安全性比较好。
问题19: FORTRAN现在做底层开发的多吗?感觉一般都是用来做数值计算
答:现在不用fortran,当年编译器做得很好,语法简单。现在c++编译器不弱了
问题20.研一刚进入科研,是一直看论文吗,代码要怎么练习オ能复现论文呢?
答:80%论文是不能复现的,20%的论文是可以复现的。经典的论文是可以复现的,复现论文要对文章每一句话理解。假设,作者将实验的所用细节也要写出来。如果开源了代码,可以对照论文搞懂代码中每个细节。
问题21:我故了一个东西,现在想跟別人的算法去比,但他原始的cce是写的,我现在把它改写成 torch版的,这样去比较会不会有争议?
答:这个关系不大,paper是一个脱离框架也能实现的东西。论文中可以用torch复现然后写上原始代码在哪就可以。
问题28: pytorchi的 data loader有哪些常用的加速方法
答:开多进程
问题29:老师,分布式和高性能的区别是什么?为什么分布式做得好,高性能不行?
答:没有本质区别。分布式考虑容灾,容错。高性能是分布式一个应用,分布式可以考虑到网页等等,高性能不会考虑容灾,考虑会不会坏,计算量等
问题33:深度学习可以做测量吗?目前是不是还是用传统算法坐的多?比如测量一物体的宽度
答:能用硬件解决就使用硬件,景深摄像头。
问题34:90语言可以做分布式很好,但为什么高性能不行?老师刚オ说hpc和分布式一回
答:不是说语言不行,是go的社区关注的方面不同。
问题35:框架调用 appal?和 pyaplz差距大多少?
答:numpy的开销做的比较好;使用多进程是来避免python中的全局锁,每次去拿锁是个顺序的事情,造成开销较大。4个进程开始跑,弥补掉一些开销。
问题36yolo常用的除了 darknet还有什么框架吗,想在自己的数据集上做迁移学习,但是 darknet.不好编译
答:不一定要用darknet,
问题40: resnet,只能用在图像领域么?文本可以用么
答:文本不行
问题43:TF/ mineta的底层都是c++,但是有些模型为什么在 infer时候还是c++调用更快呢
答:没用太大区别
问题47: Xavier初始化和BN可以一起用么,效果会更好么
答:可以一起用
问题49:老师,我看了很多目标检测的 paper但是现在打比赛就是会用一些简单集成,数据增强,感觉没有什么模型原创性,怎么才能有更多的模型改造和优化能力?有系統的成长方法么
答:打比赛练习练习就行了。
问题50:老师, Googlenetl的中 Inception如果使用 Resnetl的跳转连接,是否有意义?
答;有的,Googlenet-V3
问题51:我觉得 huggingface做得很好,现在如果要在ai方向创业,做一个平台类型的东西,老师有什么想法吗?比如做一个平台让大家更加方便finetuning( Etsagemake更方便简单)
答:这个不是每个人能做的,huggingface是因为很多人在用。
问题54:老师,用现有的网络如 Resnet在一幅大图像上做物体检測,是需要先把大图像切块,再分块输入网络进行检测吗?那切块的大小一般怎么确定呢?
答;切块是没问题,1024*1024;卫星图片不用这个切块,有一方面专门讲这个。
更多推荐
【动手学】30 分类竞赛QA
发布评论