第一次在Dell Precision笔记本工作站中部署深度学习开发环境,因为牵连到显示的问题,所以步骤上相较之前写的《云服务器深度学习服务器环境搭建》有所不同,此文是这两天安装NVIDIA驱动摸爬滚打过程中的含泪的心得体会,特做记录,免得以后同一个坑,掉进去两次。
禁用nouveau驱动
打开文件:
1
sudo vim /etc/modprobe.d/blacklist.conf
在末尾添加:
1
blacklist nouveau
更新设置:
1
sudo update-initramfs -u
重启系统:
1
reboot
使用
lsmod
命令查看是否禁用成功1
lsmod | grep nouveau
若没有输出内容,则是禁用成功.
修改 grub 引导项
启动Ubuntu时候发现黑屏上提示一行字/dev/sda6:clean ***/*** files, ***/***blocks
,一直卡在这里,一是有可能NVIDIA驱动不匹配,二是有可能没有修改Grub引导项。如果没有永久禁用该驱动,可能会出现安装完毕NIVIDA显卡后无法进入Ubuntu的情况。
1 | sudo gedit /etc/default/grub |
找到quiet splash并在后面添加nomodeset;修改前:
1 | GRUB_CMDLINE_LINUX_DEFAULT="quiet splash" |
修改后:
1 | GRUB_CMDLINE_LINUX_DEFAULT="quiet splash nomodeset“ |
安装NVIDIA显卡驱动
安装NVIDIA显卡驱动总的有三种方法:
- 使用标准Ubuntu 仓库进行自动化安装
- 使用PPA仓库指定安装
- 通过
.run
方式安装
此三种方式,这两天我算是都尝试了一遍,通过.run
方式安装,提示gcc
版本过高,失败!通过PPA仓库指定安装,提示没有该驱动,失败!最后还是通过下面的方式进行了安装,成功!
卸载之前的Nvidia驱动
1
sudo apt purge nvidia*
添加一个 PPA 源,命令如下:
1
sudo add-apt-repository ppa:graphics-drivers/ppa
更新源:
1
sudo apt-get update
查询本机可安装的驱动:
1
ubuntu-drivers devices
会输入显卡模型和推荐的驱动程序如下:(推荐驱动后面显示recommend)
1 | == /sys/devices/pci0000:00/0000:00:01.0/0000:01:00.0 == |
安装推荐的Nvidia显卡驱动:
1
sudo ubuntu-drivers autoinstall
安装完毕后,查看显卡状态信息:
1
2
3nvidia-smi
# 若上面的命令不可以,则尝试重启查看结果
sudo reboot
安装CUDA
安装CUDA的教程可参考上一篇《云服务器深度学习服务器环境搭建》中安装CUDA部分教程
注意:CUDA11安装过程中和上文中的界面上有些许差别,但是流程差不多。另外记得把NVIDIA Driver前面的叉号取消掉就可以了。
安装cuDNN
安装cuDNN可以参考上一篇《云服务器深度学习服务器环境搭建》中安装cuDNN部分教程,也可以通过下载Deb进行安装。
具体下载的Deb包如上图所示,以Ubuntu20.04为例,分别下载
1 | cuDNN Runtime Library for Ubuntu20.04 aarch64sbsa (Deb) |
然后,分别双击进行安装。