admin管理员组

文章数量:1618720

问题:error polling for event status: failed to query event: cuda_error_launch_failed: unspecified launch failure

问题排查:之前我的电脑在深度学习的时候,每次训练好几个epoch之后直接自动退出程序无法继续训练。经过排查,不可能是代码的问题,因为代码能够在其他ubuntu系统上直接运行,没有任何问题。有人说是显卡显存不足,但是有时候能够训练完整个网络,并且查询GPU内存发现训练的时候没有使用内存。

解决办法:通过查阅资料发现,可能是显卡版本的问题。我电脑显卡驱动版本之前是457,后来升级成471之后就没有出现这样的问题了。这种类似的问题一般都是软件驱动的问题

本文标签: unspecifiedcudaerrorlaunchfailedfailurelaunch