超算平台安装Anaconda和Tensorflow
Posted GLASSY_杨某人
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了超算平台安装Anaconda和Tensorflow相关的知识,希望对你有一定的参考价值。
背景:因为我们学校有个超算系统,老师让我们把程序都放在上面跑。鉴于超算的GPU是Tesla V100 16GB,虽然老师只买了8块GPU的使用权,我还是不忍心用自己的电脑跑深度学习的程序。
于是记录一下安装过程。操作系统是x86_64架构的64位CentOS 7.5 Linux
其实我们学校的超算预装了挺多的程序,有自带的anaconda和tensorflow,分别有py2.7和3.6两个版本,但是实际用的时候发现很多偏僻的库没有安装,而我们又没有权限,所以要自己安装库的话还是得自己一个环境比较好。
1、首先安装Anaconda
下载的网址:https://repo.anaconda.com/archive,找到自己对应要下载的版本,比如Anaconda3-2020.11-Linux-x86_64.sh,于是下载
下载命令:wget -c https://repo.anaconda.com/archive/Anaconda3-2020.11-Linux-x86_64.sh
下载完后的安装命令: sh Anaconda3-2020.11-Linux-x86_64.sh
之后输入yes和一大段空格的后会弹出一个让你输入路径的地方,因为没有管理员权限同时个人账户下home目录只有1G,所以需要改目录,更换默认安装位置
之后等待安装结束即可。
安装完后可换源:(换源后使用pip下载模块默认使用清华源,下载会快很多)
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes
还原前记得更新一下.bashrc文件,因为按照anaconda的时候会写入环境变量,更新后才能调用conda
按照完可以输入python看看默认的版本有没有发生变化。
如果要创建虚拟环境:
创建虚拟环境在虚拟环境可以把超算上自己的python环境和平台默认的python环境隔离开,避免冲突,同时也方便运行tensorflow的代码。(创建虚拟环境的步骤和window下是一样的)
创建命令:conda create -n your_env_name python=3.6
创建python版本为3.6、名字为your_env_name的虚拟环境。your_env_name文件可以在Anaconda安装目录envs文件下找到。版本号和虚拟环境的名字自己可以更改。
安装完是这样:
source activate your_env_name(虚拟环境名称) 激活虚拟环境
source deactivate 关闭虚拟环境
激活虚拟环境后,使用pip或者conda安装相应的库,会直接安装到虚拟环境中
在.bashrc文件里面加入全局变量可以快速激活虚拟环境。就是用你自己设置的环境变量代替激活虚拟环境的命令。这样我在命令行输入my_tf就可以直接激活我的环境
alias my_tf='source activate your_env_name'
2、安装tensorflow-gpu
安装tensorflow的gpu版本的话稍微复杂一些,首先要安装cuda加速包和cudnn;要是安装cpu版本则直接pip就好了。
2.1 安装cuda
可以在官网下载到本地再传到超算上去,选对应的版本下载(我选的是CentOS7的runfile (local))
版本问题:需要注意的是cuda和tensorflow的版本一定要和你下载或者说你要使用的python版本保持一致,否则到时候运行程序可能会出错。
当然也可以用wget,但是这个网址好像已经失效了,需要自己找一下链接下载,之后用sh命令安装
wget -c https://developer.nvidia.com/compute/cuda/9.0/Prod/local_installers/cuda_9.0.176_384.81_linux-run
sh cuda_9.0.176_384.81_linux.run
安装过程:
- 安装过程中刚开始会出现一大堆类似文档的东西(进度是More + 百分比),疯狂长按空格跳过就行
- Do you accept the previously read EULA? accept/decline/quit: accept(直接敲accept就行)
- Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 396.26? 这里是说是否安装显卡驱动,一定要敲no!
- Do you want to install the OpenGL libraries? 这是nvidia自己的opencv 应该是没有要用的,需要的话在opencv官网安装也很简单,所以敲no
- Install the CUDA 9.2 Toolkit? 问是否安装,当然yes
- Enter Toolkit Location
- default is /usr/local/cuda-9.2 : 这个一定不要用默认的,因为没有su权限,目录要选到自己的安装目录下 例如:/dat01/pxyang/Tools,这里要把自己的路径敲进去。
安装成功后需要配置一下环境变量,把cuda安装的路径加进去,保证后续能全局访问。服务器下的环境变量在.bashrc文件里面设置。
进入home下,会有框住的三个文件。
在.bashrc和.bashrc_profile两个文件尾部添加:(注意是你的路径)
export PATH=/your_cuda_path/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/your_cuda_path/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
export CUDA_HOME=/your_cuda_path/
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/your_cuda_path/extras/CUPTI/lib64
到此,cuda安装成功。
用source ~/.bashrc更新配置文件。再验证一下,命令: nvcc -V
2.2 安装cudnn
同样,要找到对应cuda版本的cudnn,不要搞错了。
下载命令: wget http://developer.download.nvidia.com/compute/redist/cudnn/v7.3.0/cudnn-9.0-linux-x64-v7.3.0.29.tgz
下载时可以下载到和cuda同一个目录下。这样解压后,直接就到对应的文件夹下了
如果解压后没有自动放进文件夹,就需要自己移动一下目录了。
3. 安装tensorflow-gpu
(视情况激活虚拟环境。)
pip下载tensorflow-gpu命令: pip install tensorflow-gpu==2.3(版本号)
没什么大问题的话就结束了,安装完之后可以写一个脚本提交到超算的GPU分区,看看能不能正常运行。
#!/bin/bash
import tensorflow as tf
sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
以上是关于超算平台安装Anaconda和Tensorflow的主要内容,如果未能解决你的问题,请参考以下文章