阿里云GPU服务器上Torch安装与测试

Posted 莫失莫忘Lawlite

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了阿里云GPU服务器上Torch安装与测试相关的知识,希望对你有一定的参考价值。

一、介绍

  • 阿里云的GPU也有了竞价服务,每小时大概1块多,还是可以接受的
  • 主要想跑github上的一个论文代码,使用的GPU,(奈何实验室没有GPU), 本来我已经改成CPU版本的了,但是他训练好的模型是基于GPU的,所以还需要重新训练,结果非常的慢…
  • 包含以下内容:
    • 购买竞价GPU
    • 通过SSH连接云服务器
    • 安装Torch、hdf5、cjson、loadcaffe
    • 安装cuda、cudnn、cunn

二、购买GPU服务器

  • 进入阿里云GPU介绍页,点击访问,界面如下,我选择的是GN5(P100)


- 选择竞价实例


- 选择GPU


- 选择Ubuntu版本和带宽
- 这里按使用流量,所以带宽设置大点没有影响

  • 在控制台可以看到服务器信息,下面需要使用公网IP连接

三、连接GPU服务器以及软件的安装

1、使用SecureCRT连接服务器

2、安装前准备工作

  • apt clean
  • apt update
  • 安装git命令行:apt install git
  • 生成ssh-key : ssh-keygen -t rsa -C "youremail@example.com"
    • /root/.ssh/id_rsa.pub中内容加入到github

3、安装Torch

4、 安装hdf5

  • 地址: https://github.com/deepmind/torch-hdf5/blob/master/doc/usage.md
  • apt-get install libhdf5-serial-dev hdf5-tools
  • git clone https://github.com/deepmind/torch-hdf5
  • cd torch-hdf5
  • luarocks make hdf5-0-0.rockspec LIBHDF5_LIBDIR="/usr/lib/x86_64-linux-gnu/"
    • 注意这里 luarocksTorch 里的,在 /root/torch/install/bin 目录下

5、 安装 cjsonloadcaffe

  • luarocks install lua-cjson
  • apt-get install libprotobuf-dev protobuf-compiler
  • luarocks install loadcaffe

6、安装Cuda


- sudo dpkg -i cuda-repo-ubuntu1604-9-1-local_9.1.85-1_amd64.deb
- sudo apt-key add /var/cuda-repo-<version>/7fa2af80.pub
- sudo apt-get update
- sudo apt-get install cuda
- 安装完成后会在/usr/local/目录下出现cuda-9.1的目录
- 加入到环境变量
- echo "export PATH=/usr/local/cuda-9.1/bin/:\\$PATH; export LD_LIBRARY_PATH=/usr/local/cuda-9.1/lib64/:\\$LD_LIBRARY_PATH; " >>~/.bashrc && source ~/.bashrc
- 此时cuda已经安装成功,可以通过nvcc -V测试是否安装成功
- nvidia-smi命令查看GPU使用情况


- 有时可能需要重启一下

7、安装cudnn

  • 网址1:点击查看
  • 网址2:下载cudnn
    • 需要先注册登录才能下载
  • 注意这里下载的版本,我这里使用的是5.1版本(尝试了最新的7.x版本,有问题)


- 直接luarocks install cudnn是可以成功安装的,但是有问题
- 下载的是压缩包,里面有两个文件夹


- 将include下的cudnn.h文件拷贝到/usr/local/cuda-9.1/include/文件夹下
- 将lib64下的libcudnn.so.5.1.10文件拷贝到/usr/local/cuda-9.1/lib64/文件夹下
- 并且创建软连接: ln -s libcudnn.so.5.1.10 libcudnn.so.5
- 添加环境变量:export CUDNN_PATH="/usr/local/cuda-9.1/lib64/libcudnn.so.5"

四、测试

  • 下面是我跑的一个程序

五、其他一些说明

1、rz/sz文件传输

  • wget https://raw.githubusercontent.com/lawlite19/LinuxSoftware/master/rz-sz/lrzsz-0.12.20.tar.gz
  • tar zxvf lrzsz-0.12.20.tar.gz
  • cd lrzsz-0.12.20
  • ./configure && make && make install
  • cd /usr/local/bin
  • ln -s lrz rz
  • ln -s lsz sz

2、使用xftp等工具传输文件

  • 服务器上需要安装ftp服务

3、wget 下载百度云盘文件

  • wget -c ----referer=百度云盘分享地址 -O 要保存的文件名 "百度云文件真实地址"
  • 文件的真实地址获取
    • 浏览器按F12, 点击下载找到download?的信息
    • dlink为真实地址,注意去除转义字符\\


- 比如: wget -c --referer=https://pan.baidu.com/s/1kV7Xo7H -O lstm1_rnn512_bestACC.zip "https://d.pcs.baidu.com/file/4e4cd12ad77d7ac60d2cfcb8e009bf1c?fid=3174489928-250528-212189063946307&time=1514127189&rt=pr&sign=FDTAERVCY-DCb740ccc5511e5e8fedcff06b081203-LWe3VIBsW3foAEVnTUqSROJQ46s%3D&expires=8h&chkv=1&chkbd=1&chkpc=et&dp-logid=8301954057401711855&dp-callid=0&r=884079691"

Reference

以上是关于阿里云GPU服务器上Torch安装与测试的主要内容,如果未能解决你的问题,请参考以下文章

腾讯云GPU服务器环境部署与连接配置

腾讯云GPU服务器环境部署与连接配置

腾讯云GPU服务器环境部署与连接配置

阿里云服务器中Docker安装与镜像使用MySQLredis快速访问

AI开发者福音!阿里云推出国内首个基于英伟达NGC的GPU优化容器

如何在阿里云主机上安装mysql