阿里云GPU服务器上Torch安装与测试
Posted 莫失莫忘Lawlite
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了阿里云GPU服务器上Torch安装与测试相关的知识,希望对你有一定的参考价值。
- 本文个人博客访问地址: 点击查看
一、介绍
- 阿里云的
GPU
也有了竞价服务,每小时大概1块多,还是可以接受的 - 主要想跑
github
上的一个论文代码,使用的GPU
,(奈何实验室没有GPU
), 本来我已经改成CPU
版本的了,但是他训练好的模型是基于GPU
的,所以还需要重新训练,结果非常的慢… - 包含以下内容:
- 购买竞价
GPU
- 通过
SSH
连接云服务器 - 安装
Torch、hdf5、cjson、loadcaffe
- 安装
cuda、cudnn、cunn
- 购买竞价
二、购买GPU服务器
- 进入阿里云
GPU
介绍页,点击访问,界面如下,我选择的是GN5(P100)
- 选择竞价实例
- 选择GPU
- 选择Ubuntu
版本和带宽
- 这里按使用流量,所以带宽设置大点没有影响
- 在控制台可以看到服务器信息,下面需要使用公网
IP
连接
三、连接GPU服务器以及软件的安装
1、使用SecureCRT
连接服务器
2、安装前准备工作
apt clean
apt update
- 安装
git
命令行:apt install git
- 生成
ssh-key
:ssh-keygen -t rsa -C "youremail@example.com"
- 将
/root/.ssh/id_rsa.pub
中内容加入到github
- 将
3、安装Torch
- 网址:http://torch.ch/docs/getting-started.html
git clone https://github.com/torch/distro.git ~/torch --recursive
cd ~/torch
bash install-deps
./install.sh
source ~/.bashrc
- 输入
th
查看安装是否成功
4、 安装hdf5
- 地址: https://github.com/deepmind/torch-hdf5/blob/master/doc/usage.md
apt-get install libhdf5-serial-dev hdf5-tools
git clone https://github.com/deepmind/torch-hdf5
cd torch-hdf5
luarocks make hdf5-0-0.rockspec LIBHDF5_LIBDIR="/usr/lib/x86_64-linux-gnu/"
- 注意这里
luarocks
是Torch
里的,在/root/torch/install/bin
目录下
- 注意这里
5、 安装 cjson
和 loadcaffe
luarocks install lua-cjson
apt-get install libprotobuf-dev protobuf-compiler
luarocks install loadcaffe
6、安装Cuda
- 网址:点击查看
- 选择对应的
cuda
版本
- sudo dpkg -i cuda-repo-ubuntu1604-9-1-local_9.1.85-1_amd64.deb
- sudo apt-key add /var/cuda-repo-<version>/7fa2af80.pub
- sudo apt-get update
- sudo apt-get install cuda
- 安装完成后会在/usr/local/
目录下出现cuda-9.1
的目录
- 加入到环境变量
- echo "export PATH=/usr/local/cuda-9.1/bin/:\\$PATH; export LD_LIBRARY_PATH=/usr/local/cuda-9.1/lib64/:\\$LD_LIBRARY_PATH; " >>~/.bashrc && source ~/.bashrc
- 此时cuda
已经安装成功,可以通过nvcc -V
测试是否安装成功
- nvidia-smi
命令查看GPU
使用情况
- 有时可能需要重启一下
7、安装cudnn
- 直接luarocks install cudnn
是可以成功安装的,但是有问题
- 下载的是压缩包,里面有两个文件夹
- 将include
下的cudnn.h
文件拷贝到/usr/local/cuda-9.1/include/
文件夹下
- 将lib64
下的libcudnn.so.5.1.10
文件拷贝到/usr/local/cuda-9.1/lib64/
文件夹下
- 并且创建软连接: ln -s libcudnn.so.5.1.10 libcudnn.so.5
- 添加环境变量:export CUDNN_PATH="/usr/local/cuda-9.1/lib64/libcudnn.so.5"
四、测试
- 下面是我跑的一个程序
五、其他一些说明
1、rz/sz
文件传输
wget https://raw.githubusercontent.com/lawlite19/LinuxSoftware/master/rz-sz/lrzsz-0.12.20.tar.gz
tar zxvf lrzsz-0.12.20.tar.gz
cd lrzsz-0.12.20
./configure && make && make install
cd /usr/local/bin
ln -s lrz rz
ln -s lsz sz
2、使用xftp
等工具传输文件
- 服务器上需要安装
ftp
服务
3、wget
下载百度云盘文件
wget -c ----referer=百度云盘分享地址 -O 要保存的文件名 "百度云文件真实地址"
- 文件的真实地址获取
- 浏览器按
F12
, 点击下载找到download?
的信息 dlink
为真实地址,注意去除转义字符\\
- 浏览器按
- 比如: wget -c --referer=https://pan.baidu.com/s/1kV7Xo7H -O lstm1_rnn512_bestACC.zip "https://d.pcs.baidu.com/file/4e4cd12ad77d7ac60d2cfcb8e009bf1c?fid=3174489928-250528-212189063946307&time=1514127189&rt=pr&sign=FDTAERVCY-DCb740ccc5511e5e8fedcff06b081203-LWe3VIBsW3foAEVnTUqSROJQ46s%3D&expires=8h&chkv=1&chkbd=1&chkpc=et&dp-logid=8301954057401711855&dp-callid=0&r=884079691"
Reference
- Cuda:
- https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&target_distro=Ubuntu&target_version=1604&target_type=deblocal
- http://blog.csdn.net/u012235003/article/details/54575758
- http://blog.csdn.net/hungryof/article/details/51557666
- https://github.com/facebookarchive/fbcunn/blob/master/INSTALL.md#install-cuda
Wget
下载百度云:
以上是关于阿里云GPU服务器上Torch安装与测试的主要内容,如果未能解决你的问题,请参考以下文章
阿里云服务器中Docker安装与镜像使用MySQLredis快速访问