超算平台安装Anaconda和Tensorflow

Posted GLASSY_杨某人

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了超算平台安装Anaconda和Tensorflow相关的知识,希望对你有一定的参考价值。

背景:因为我们学校有个超算系统,老师让我们把程序都放在上面跑。鉴于超算的GPU是Tesla V100 16GB,虽然老师只买了8块GPU的使用权,我还是不忍心用自己的电脑跑深度学习的程序。

于是记录一下安装过程。操作系统是x86_64架构的64CentOS 7.5 Linux

其实我们学校的超算预装了挺多的程序,有自带的anaconda和tensorflow,分别有py2.7和3.6两个版本,但是实际用的时候发现很多偏僻的库没有安装,而我们又没有权限,所以要自己安装库的话还是得自己一个环境比较好。

1、首先安装Anaconda

下载的网址:https://repo.anaconda.com/archive,找到自己对应要下载的版本,比如Anaconda3-2020.11-Linux-x86_64.sh,于是下载

下载命令:wget -c https://repo.anaconda.com/archive/Anaconda3-2020.11-Linux-x86_64.sh

下载完后的安装命令: sh Anaconda3-2020.11-Linux-x86_64.sh

之后输入yes和一大段空格的后会弹出一个让你输入路径的地方,因为没有管理员权限同时个人账户下home目录只有1G,所以需要改目录,更换默认安装位置

之后等待安装结束即可。

安装完后可换源:(换源后使用pip下载模块默认使用清华源,下载会快很多)

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/

conda config --set show_channel_urls yes

还原前记得更新一下.bashrc文件,因为按照anaconda的时候会写入环境变量,更新后才能调用conda

按照完可以输入python看看默认的版本有没有发生变化。

 如果要创建虚拟环境:

创建虚拟环境在虚拟环境可以把超算上自己的python环境和平台默认的python环境隔离开,避免冲突,同时也方便运行tensorflow的代码。(创建虚拟环境的步骤和window下是一样的)

创建命令:conda create -n your_env_name python=3.6

创建python版本为3.6、名字为your_env_name的虚拟环境。your_env_name文件可以在Anaconda安装目录envs文件下找到。版本号和虚拟环境的名字自己可以更改。

安装完是这样:

source activate your_env_name(虚拟环境名称) 激活虚拟环境

source deactivate 关闭虚拟环境

激活虚拟环境后,使用pip或者conda安装相应的库,会直接安装到虚拟环境中

在.bashrc文件里面加入全局变量可以快速激活虚拟环境。就是用你自己设置的环境变量代替激活虚拟环境的命令。这样我在命令行输入my_tf就可以直接激活我的环境

alias my_tf='source activate your_env_name'

2、安装tensorflow-gpu

安装tensorflow的gpu版本的话稍微复杂一些,首先要安装cuda加速包和cudnn;要是安装cpu版本则直接pip就好了。

2.1 安装cuda

可以在官网下载到本地再传到超算上去,选对应的版本下载(我选的是CentOS7的runfile (local))

版本问题:需要注意的是cuda和tensorflow的版本一定要和你下载或者说你要使用的python版本保持一致,否则到时候运行程序可能会出错。

 

 当然也可以用wget,但是这个网址好像已经失效了,需要自己找一下链接下载,之后用sh命令安装

wget -c https://developer.nvidia.com/compute/cuda/9.0/Prod/local_installers/cuda_9.0.176_384.81_linux-run

sh cuda_9.0.176_384.81_linux.run

安装过程:

  • 安装过程中刚开始会出现一大堆类似文档的东西(进度是More + 百分比),疯狂长按空格跳过就行
  • Do you accept the previously read EULA?    accept/decline/quit: accept(直接敲accept就行)
  • Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 396.26? 这里是说是否安装显卡驱动,一定要敲no
  • Do you want to install the OpenGL libraries? 这是nvidia自己的opencv 应该是没有要用的,需要的话在opencv官网安装也很简单,所以敲no
  • Install the CUDA 9.2 Toolkit? 问是否安装,当然yes
  • Enter Toolkit Location
  • default is /usr/local/cuda-9.2 : 这个一定不要用默认的,因为没有su权限,目录要选到自己的安装目录下 例如:/dat01/pxyang/Tools,这里要把自己的路径敲进去。

安装成功后需要配置一下环境变量,把cuda安装的路径加进去,保证后续能全局访问。服务器下的环境变量在.bashrc文件里面设置。

进入home下,会有框住的三个文件。

在.bashrc和.bashrc_profile两个文件尾部添加:(注意是你的路径)

export PATH=/your_cuda_path/bin${PATH:+:${PATH}}

export LD_LIBRARY_PATH=/your_cuda_path/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

export CUDA_HOME=/your_cuda_path/

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/your_cuda_path/extras/CUPTI/lib64

到此,cuda安装成功。

用source ~/.bashrc更新配置文件。再验证一下,命令: nvcc -V

2.2 安装cudnn

 同样,要找到对应cuda版本的cudnn,不要搞错了。

下载命令: wget http://developer.download.nvidia.com/compute/redist/cudnn/v7.3.0/cudnn-9.0-linux-x64-v7.3.0.29.tgz

下载时可以下载到和cuda同一个目录下。这样解压后,直接就到对应的文件夹下了

如果解压后没有自动放进文件夹,就需要自己移动一下目录了。

3. 安装tensorflow-gpu

(视情况激活虚拟环境。)

pip下载tensorflow-gpu命令: pip install tensorflow-gpu==2.3(版本号)

没什么大问题的话就结束了,安装完之后可以写一个脚本提交到超算的GPU分区,看看能不能正常运行。

#!/bin/bash
import tensorflow as tf
sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))

以上是关于超算平台安装Anaconda和Tensorflow的主要内容,如果未能解决你的问题,请参考以下文章

MacOSX 安装 TensorFlow

用Anaconda安装tensorflow

[tensorflow] tensorflow-cpu/gpu 安装过程

Anaconda快速安装TensorFlow和Keras

安装anaconda3和tensorflow

anaconda安装tensorflow后引入不了matplotlib的解决方法