admin管理员组

文章数量:1633029

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、查看系统及GPU的相关信息
    • 1.查看系统
    • 2.查看显卡
  • 二、安装与GPU对应的CUDA
    • 1.安装CUDA 相关依赖库
    • 2.创建文件夹
    • 3.下载CUDA文件
    • 4.安装CUDA
  • 三、安装Cudnn
    • 1.创建文件夹
    • 2.下载Cudnn
    • 3.安装Cudnn
  • 四、安装Pytorch
    • 1.激活虚拟环境
    • 2.安装Pytorch
  • 2.1 常规流程安装
  • 2.2 从清华源安装【0925更新,速度更快】
    • 3.检验Pytorch
  • 五、更新:CUDA安装(改环境变量版)
  • 总结


前言

要跑深度学习所以需要装一下pytorch。这篇【教程】Linux环境下支持GPU加速的Pytorch、PyG、DGL环境配置步骤记录写得非常详细,基本是按照他的步骤配置的。
我的情况: 1.没有root权限 2.已经安装了gcc等依赖库 3.已经安装anaconda
关于工作站前续的连接和Anaconda安装,详见笔记:
0基础配置Linux工作站1:连接工作站
0基础配置Linux工作站2:配置Anaconda

#0924重要更新

可以先问一下工作站管理员能不能通过加环境变量的方法用上CUDA/Anaconda,如果像我一样每个用户自己安装cuda的话会把系统盘空间占满,sorry啊工作站酱。。。。。。。。。。sorry啊管理员酱。。。。。关于这一部分的方法我更新在第五部分了,Pytorch还是要自己装在虚拟环境的

#0925更新
更新从清华源下载Pytorch的方式;补充pytorch下载说明;补充Numpy安装说明


一、查看系统及GPU的相关信息

1.查看系统

gcc --version

我的运行结果:gcc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0

2.查看显卡

我的运行结果:有两块RTX4090,NVIDIA驱动版本550.107.02,支持CUDA 12.4

二、安装与GPU对应的CUDA

1.安装CUDA 相关依赖库

sudo apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev
sudo apt install gcc-8 g++-8

如果不是root用户就把代码前面的sudo去掉。我这里显示:

问了下管理员,他说这些依赖库都已经装好了,所以跳过这一步

2.创建文件夹

在用户文件夹下创建用于安装CUDA的文件夹:

那么路径就是/home/qianchen/CUDA12.4.0,这个后面要用

3.下载CUDA文件

刚刚我们看到CUDA的支持版本是12.4,所以在官网https://developer.nvidia/cuda-toolkit-archive查找下载指令。

选择第一个

跟着教程选了一下:
这里最后一行的installer type一定要选runfile!前面两个deb都需要sudo权限(老铁我又踩坑了)

得到的下载指令:

输入第一句指令,等待大概20min完成下载

wget https://developer.download.nvidia/compute/cuda/12.4.0/local_installers/cuda_12.4.0_550.54.14_linux.run

4.安装CUDA

输入刚刚得到的第二句指令。由于没有权限,这里需要删除开头的sudo,即:

sh cuda_12.4.0_550.54.14_linux.run

进入安装界面,问是否接受,填accept:

接下来进入到配置界面,很重要!!
(1)光标移动到Driver,按空格,取消掉[X]里的X

(2)按↓键,光标移动到Options,enter进入

(3)光标移动到Toolkit Options,enter进入

(4)光标移动到Change Toolkit XXX,enter进入

(5)输入我们2.1里新建文件夹的路径,enter确认

(6)光标移动到Done,enter进入

(7)光标移动到Library install path,enter进入

(8)同理修改

(9)最后选择Done,退出

(10)光标移动到install,enter确认

(11)等待完成安装。出现红框里的字就代表安装成功!

(12)修改bashrc,命令行输入

vim ~/.bashrc

(13)按 i 键进入插入模式,在最后一行新插入以下代码,XXX是自己的路径:

export CUDA_HOME=$CUDA_HOME:/home/XXX/CUDA12.0.0
export PATH="/home/XXX/CUDA12.0.0/bin:$PATH"
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/XXX/CUDA12.0.0/lib64

我输入的:

(14)按esc,输入冒号wq,也就是:wq,回车
(15)回到主界面,激活bashrc,输入:

source ~/.bashrc

(16)验证CUDA Toolkit安装情况:

nvcc --version

如果返回了CUDA版本信息则安装成功。我的返回结果:

三、安装Cudnn

1.创建文件夹

在服务器建一个文件夹用于安装cudnn,比如我的:/home/qianchen/Cudnn

2.下载Cudnn

(1)CUDA的版本是12.4,在官网选择对应的版本:https://developer.nvidia/rdp/cudnn-archive

(2)下载对应的版本到本地(自己的电脑)

(3)在本地解压,这里可能会出现这个问题:

如果有这个弹窗的话,用管理员身份启动WinRAR,再打开压缩文件进行解压就可以了

3.安装Cudnn

(1)把解压后的这些文件上传到刚刚新建的文件夹里

上传完成的效果:

(2)在服务器端输入指令,跳转到Cudnn文件夹下:

cd /home/XXX/Cudnn


(3)将Cudnn文件夹下的文件复制到CUDA文件夹中,记得修改蓝色框里的部分:

cp /home/XXX/Cudnn/include/cudnn.h /home/XXX/CUDA12.0.0/include/
cp /home/XXX/Cudnn/lib/libcudnn* /home/XXX/CUDA12.0.0**/lib64/


(4)修改权限

chmod a+r /home/XXX/CUDA12.0.0/include/cudnn*.h
​chmod a+r home/XXX/CUDA12.0.0/lib64/libcudnn*

(中间打码的两行是我输错了TUT)
(5)查看版本和安装路径

nvcc -V
which nvcc

四、安装Pytorch

1.激活虚拟环境

conda activate 虚拟环境名称


(关于虚拟环境的建立,详见文章0基础配置Linux工作站2:配置Anaconda的第四节)

2.安装Pytorch

2.1 常规流程安装

在pytorch官网选择需要的版本,获得安装指令:https://pytorch/get-started/locally/
(尽量选比较新的稳定版本)

【0925更新】关于版本选择,师兄的指正:大家安装的时候还是要看项目需求以及要复现的项目,不一定是越新的版本越好。如果是自己从零开发,越新的越好,因为新的版本更加稳定。但如果复现项目明确写了requirement的,建议还是按复现版本要求来。

在服务器中输入以下指令,跟随提示安装即可:

conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia

2.2 从清华源安装【0925更新,速度更快】

我自己是按照常规流程安装的,速度很慢。师兄说可以通过清华源进行安装。上网找了从清华源安装的教程贴在这里:

第一步:在开始菜单里找到“Anaconda”文件夹,找到Anaconda Prompt(是一个命令行程序),右键“以管理员身份运行”。
第二步:更改channels设置。首先设置清华镜像源的三条默认channels
conda config --add channels https://mirrors.tuna.tsinghua.edu/anaconda/pkgs/main conda config --add channels https://mirrors.tuna.tsinghua.edu/anaconda/pkgs/free conda config --add channels https://mirrors.tuna.tsinghua.edu/anaconda/pkgs/r
然后设置来自清华镜像源的pytorch文件的channels
conda config --add channels https://mirrors.tuna.tsinghua.edu/anaconda/cloud
最后,运行下面的代码生成.condarc文件。
conda config --set show_channel_urls yes
第三步:找到从pytorch官网获取的command,将这条下载命令最后面的-c pytorch删除,-c pytorch参数指定了conda从pytorch的channel获取文件,所以在这里是不能用的。删除-c pytorch后,将命令输入命令行,直接回车。此时,软件就将从清华镜像源获取文件了,速度要快上很多。
注意:很多同学在按照上面的方法做了以后,下载安装过程中还是会出错。这时,你就可以输入以下代码检查channels有没有出错,同时进行纠错。(这里的出错指的是,channels并不是前文中提到的channels,有增加的channels或者丢失的channels,笔者就是发现了有多余的channels导致下载出错。)
//查看已有的channels信息
conda config --show channels
//找到多余的channels,执行remove命令,有多条多余的channels就逐个运行remove命令进行删除。
最后,运行下行命令重新生成.condarc文件
onda config --set show_channel_urls yes

3.检验Pytorch

为了检验Pytorch环境是否支持GPU加速,首先需要安装Numpy库(已经安装的可以跳过这一步):
【0925更新:这里要装Numpy是因为我一开始没有装,然后在后面的两步里报错了】

conda install numpy

安装完成后,在终端依次输入以下三行:

python
import torch
print(torch.cuda.is_available())

如果返回结果为True,证明安装成功。

五、更新:CUDA安装(改环境变量版)

(1)进入bashrc文件

vim ~/.bashrc

(2)按 i 键进入修改模式,在末尾输入以下三个命令

 export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64
 export PATH=$PATH:/usr/local/cuda/bin
 export CUDA_HOME=$CUDA_HOME:/usr/local/cuda

(3)按Esc,输入:wq,退出并保存修改后的文件
(4)更新bashrc文件

source ~/.bashrc

总结

参考教程:
【教程】Linux环境下支持GPU加速的Pytorch、PyG、DGL环境配置步骤记录
Linux 服务器下非root用户安装CUDA完整流程(多次踩雷经验总结)
win10环境下配置Anaconda与pytorch(解决安装pytorch速度慢的问题)

本文标签: 工作站环境基础用户Linux