机器学习环境搭建

前言

本篇写于2019-4-25

这两天装Ubuntu18.04双系统简直装到崩溃。一是非常著名的开机卡死在Logo界面的问题,另一个是在装Nvidia驱动和CUDA的时候,更是费心。而网上的资料又良莠不齐,走了不少弯路。于是做个总结,方便以后的自己,也方便别人。

首先:我的机器是戴尔灵越5577,以下方案不一定适合您的机器,操作失败还请自行百度解决,并且安装所CUDA和cuDNN版本请务必参照官网配置

另外:安装过程中并没有保留截图,以下也只有文字叙述,有时间会补上。

装机

镜像是在Ububtu官网下载的镜像,这没有什么异议。启动盘制作方面我选择rufus,小巧免费好用,而且非常适合制作Linux启动盘。

选好U盘选好镜像后就可以制作了,我是选的默认设置,如下图。我也试过gpt格式的,均可。

制作完成后,关闭rufus就可以了,带着U盘,重新启动。

进入U盘引导(不同品牌的电脑有不同的方式,Dell是按F12选择启动方式),进入grub界面。

你可能看过许多教程说的是,为防止开机开在Logo,选中Install Ubuntu,然后按e编辑。我的建议是先别这样做,因为编辑后进入的安装界面屏幕分辨率会很低,许多按钮在屏幕下方根本点不到,安装很不方便。这里我直接回车开始安装,至于会卡在logo这个问题,装好后再弄。

然后一步步安装就可以了。装的时候一定要注意:不要联网不要选安装驱动啥的,最小化安装即可手动分区。我的分区方式如下,共分给Linux 100G

目录 大小
/ 20G 逻辑分区
/boot 1G 逻辑分区
/home 69G 逻辑分区

装完后,会显示重新启动,如果点立即重启的话,不出意外,会卡在这里,没关系,按住电源键不放,强制关机。再开机后就可看到系统选择界面了。

这个时候不要着急选择,先选中Ubuntu,按e键进入编辑,将倒数第二段最后(可能是倒数第三行,不难分辨)的quiet splash 后加上nomodeset,注意nomodeset要和前后有一个空格。然后按F10,即可开机。

这时候,应该可以进入系统了,这个时候开始安装显卡驱动。

安装驱动

这里有很多教程说是通过sudo ubuntu-drivers autoinstall这个方法安装的,但是就我亲身经历而言,并不好使,这里安装驱动是没问题的,但是后来在安装CUDA的时候会遇到各种各样的问题。

这里的建议是,去Nvidia的官网选择一个适合你的显卡的驱动(我选的最新的),下载好备用。

在装驱动之前,先将nouveau加入黑名单:

1
sudo vim /etc/modprobe.d/blacklist.conf

在末尾加上一行blacklist nouveau

保存退出,执行

1
sudo update-initramfs -u

另外:由于折腾的次数比较多我还改了/etc/default/grub,不知道和这有没有关系:

1
sudo gedit /etc/default/grub

然后将quiet splash后面加上acpi_osi=linux

保存退出,执行

1
sudo update-grub

接下来按CTRL+ALT+F2,进入纯字符界面,以root身份登入,开始安装显卡驱动。首先进入刚才下好的驱动所在的目录,执行

1
sudo sh ./NVIDIA-Linux-x86_64-xxx.xx.run –no-opengl-files  # 一定不要忘记后面的参数

然后一路确定,完成后重启系统,进入BIOS(戴尔是按F2,其他电脑型号请自行查找资料),关掉secure boot,设置为disable,关掉后保存重启。这里一定要关掉,不然开机后是没法用刚才装的Nvidia驱动的。

启动后在控制台输入nvidia-smi,若没有报错则证明安装成功。

安装CUDA

接下来,我们安装CUDA,我这里使用的是CUDA10.0,因为目前tensorflow已经可以使用CUDA10了,也就不挑旧版本安装了。

到Nvidai官网上找到CUDA10.0的下载链接,Nvidia给出的默认的CUDA的下载链接是CUDA10.1,因为我没试验过,所以不知道可不可以用,你可以自行决定。

依次选择 Linux -> x86_64 -> Ubuntu -> 18.04 -> runfile(local),选好后选择Base Install开始下载。

下好后,找到CUDA安装包所在的位置,在控制台输入

1
sudo sh ./cuda_10.0.130_410.48_linux.run

然后等待一会后,会出来安装协议,按住空格键快速看完。然后选择安装选项:

  • 第一项,选择accept接受。
  • 第二项,询问你是否安装CUDA中带的显卡驱动,由于我们前面已经安装了驱动,所以不安装,选n
  • 剩下的,能选y的选y,能Enter的Enter就好。

装好后,在~/.bashrc最后 添加环境变量,保存后退出

1
2
3
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-10.0/lib64
export PATH=$PATH:/usr/local/cuda-10.0/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-10.0

测试一下:

1
2
3
cd /usr/local/cuda/samples/1_Utilities/deviceQuery 
sudo make
./deviceQuery

若最后一行的结果为Result = PASS,说明安装成功。

安装cuDNN

最后,去官网找对应版本的cuDNN,这里我选择的是7.5(7.4也是可以的),下载(这里需要登陆Nvidia才可以)

将下载好的压缩包解压,一般解压出来的目录为cuda,拷贝到CUDA中

1
2
sudo cp cuda/include/cudnn.h /usr/local/cuda/include/ 
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/

最后

至此,CUDA已安装完成,装个gpu版本的tensorflow试试(你也可以先使用virtualenv创建个虚拟环境再安装)

1
pip3 install tensorflow-gpu  # 这里pip3需要手动下载

装好后,进入python交互环境,试试Hello World

1
2
3
4
5
>>> import tensorflow as tf
>>> hello = tf.constant('Hello World')
>>> sess = tf.Session()
>>> sess.run(hello)
b'Hello World'

执行后,会有日志打印,若没有报错,即证明安装成功。


参考: