Nvidia TX1 上的 TensorFlow

Posted

技术标签:

【中文标题】Nvidia TX1 上的 TensorFlow【英文标题】:TensorFlow on Nvidia TX1 【发布时间】:2017-02-08 13:59:55 【问题描述】:

有人在 Nvidia Tegra X1 上使用过 tensorflow 吗?

我发现一些消息来源表明它可能在 TK1 上或在 TX1 上存在严重的黑客攻击/错误,但还没有确定的配方。

http://cudamusing.blogspot.de/2015/11/building-tensorflow-for-jetson-tk1.html https://github.com/tensorflow/tensorflow/issues/851

我正在使用 Jetson 2.3 安装,但还没有开始工作 - 任何提示都非常感谢。

【问题讨论】:

你遇到了什么错误? 这是一个过程。我正在努力让 Bazel 0.3.0 为 R0.10 编译。当前块正在获取 gRPC 的 arm64 二进制文件 - 它可以构建,但尚未通过测试或获得 bzael 构建。在另一条轨道上,让 Bazel 0.2.1 工作并尝试构建 R0.9。我已经删除了 sparse_matmul.cc 并应用了一个补丁来使 CUDA8.0RC 工作(CUDA_DATA_HALF 更改等),现在它遇到了 tensorflow/core/kernels/cwise_op_gpu_select.cu.cc(46) 的问题。如果您也在处理此问题,将在此处发布进一步的更新。 我也尝试过但失败了。如果您成功并记录该程序,您将从事 yeoman 服务。一个潜在的困难是 TensorFlow 和 Jetpack 的快速且不同步的更新。例如,Tensorflow 0.11 在您发布此内容的同一天发布。 @Novak - 不如 R0.11 但 R0.9 可以工作。将继续敲打更高版本并在/如果让它们工作时更新答案。其中一些错误感觉就像是让 TF 更易于平台访问的小承诺将大有帮助。希望这会有所帮助! 【参考方案1】:

让 TensorFlow R0.9 在 TX1 上使用 Bazel 0.2.1、CUDA 8.0、CUDNN5.1、L4T24.2 和全新的 JetPack 2.3 安装。我已经使用 BN、Sigmoid、ReLU 等基本的 MLP、Conv 和 LSTM 网络对其进行了测试,还没有出现错误。我删除了 sparse_matmul_op 尽管否则我认为编译应该是完全可操作的。其中许多步骤直接来自MaxCuda's excellent blog,非常感谢他们的提供。

计划继续改进 R0.10/R0.11(gRPC 二进制文件现在正在阻止 Bazel 0.3.0),但在那之前我想我会发布 R0.9 公式。如下:

首先获取java

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer

安装一些其他的部门

sudo apt-get install git zip unzip autoconf automake libtool curl zlib1g-dev maven swig

需要自己构建protobuf 3.0.0-beta-2 jar

git clone https://github.com/google/protobuf.git
cd protobuf
# autogen.sh downloads broken gmock.zip in d5fb408d
git checkout master
./autogen.sh
git checkout d5fb408d
./configure --prefix=/usr
make -j 4
sudo make install
cd java
mvn package

得到巴泽尔。我们想要 0.2.1 版本,它不需要 gRPC 二进制文件,不像 0.3.0 那样我还不能构建(可能很快!)

git clone https://github.com/bazelbuild/bazel.git
cd bazel
git checkout 0.2.1
cp /usr/bin/protoc third_party/protobuf/protoc-linux-arm32.exe
cp ../protobuf/java/target/protobuf-java-3.0.0-beta-2.jar third_party/protobuf/protobuf-java-3.0.0-beta-1.jar

需要编辑一个bazel文件来将aarch64识别为ARM

--- a/src/main/java/com/google/devtools/build/lib/util/CPU.java
+++ b/src/main/java/com/google/devtools/build/lib/util/CPU.java
@@ -25,7 +25,7 @@ import java.util.Set;
 public enum CPU 
   X86_32("x86_32", ImmutableSet.of("i386", "i486", "i586", "i686", "i786", "x86")),
   X86_64("x86_64", ImmutableSet.of("amd64", "x86_64", "x64")),
-  ARM("arm", ImmutableSet.of("arm", "armv7l")),
+  ARM("arm", ImmutableSet.of("arm", "armv7l", "aarch64")),
   UNKNOWN("unknown", ImmutableSet.<String>of());

现在编译

./compile.sh

然后安装

sudo cp output/bazel /usr/local/bin

获取张量流 R0.9。高于 R0.9 需要 Bazel 0.3.0,由于 gRPC 问题,我还没有弄清楚如何构建。

git clone -b r0.9 https://github.com/tensorflow/tensorflow.git

构建一次。它会失败,但现在您有了 bazel .cache 目录,您可以在其中放置更新的 config.guess 和 config.sub 文件,这些文件将确定您正在运行的架构

./configure
bazel build -c opt --config=cuda //tensorflow/tools/pip_package:build_pip_package

cd ~
wget -O config.guess 'http://git.savannah.gnu.org/gitweb/?p=config.git;a=blob_plain;f=config.guess;hb=HEAD'
wget -O config.sub 'http://git.savannah.gnu.org/gitweb/?p=config.git;a=blob_plain;f=config.sub;hb=HEAD'

# below are commands I ran, yours will vary depending on .cache details. `find` is your friend
cp config.guess ./.cache/bazel/_bazel_socialh/742c01ff0765b098544431b60b1eed9f/external/farmhash_archive/farmhash-34c13ddfab0e35422f4c3979f360635a8c050260/config.guess
cp config.sub ./.cache/bazel/_bazel_socialh/742c01ff0765b098544431b60b1eed9f/external/farmhash_archive/farmhash-34c13ddfab0e35422f4c3979f360635a8c050260/config.sub

sparse_matmul_op 有几个错误,我采取了懦弱的路线并从构建中删除了

--- a/tensorflow/core/kernels/BUILD
+++ b/tensorflow/core/kernels/BUILD
@@ -985,7 +985,7 @@ tf_kernel_libraries(
         "reduction_ops",
         "segment_reduction_ops",
         "sequence_ops",
-        "sparse_matmul_op",
+        #DC "sparse_matmul_op",
     ],
     deps = [
         ":bounds_check",

--- a/tensorflow/python/BUILD
+++ b/tensorflow/python/BUILD
@@ -1110,7 +1110,7 @@ medium_kernel_test_list = glob([
     "kernel_tests/seq2seq_test.py",
     "kernel_tests/slice_op_test.py",
     "kernel_tests/sparse_ops_test.py",
-    "kernel_tests/sparse_matmul_op_test.py",
+    #DC "kernel_tests/sparse_matmul_op_test.py",
     "kernel_tests/sparse_tensor_dense_matmul_op_test.py",
 ])

TX1 不能在 cwise_op_gpu_select.cu.cc 中做花哨的构造函数

--- a/tensorflow/core/kernels/cwise_op_gpu_select.cu.cc
+++ b/tensorflow/core/kernels/cwise_op_gpu_select.cu.cc
@@ -43,8 +43,14 @@ struct BatchSelectFunctor<GPUDevice, T> 
     const int all_but_batch = then_flat_outer_dims.dimension(1);

 #if !defined(EIGEN_HAS_INDEX_LIST)
-    Eigen::array<int, 2> broadcast_dims 1, all_but_batch ;
-    Eigen::Tensor<int, 2>::Dimensions reshape_dims batch, 1 ;
+    //DC Eigen::array<int, 2> broadcast_dims 1, all_but_batch ;
+    Eigen::array<int, 2> broadcast_dims;
+    broadcast_dims[0] = 1;
+    broadcast_dims[1] = all_but_batch;
+    //DC Eigen::Tensor<int, 2>::Dimensions reshape_dims batch, 1 ;
+    Eigen::Tensor<int, 2>::Dimensions reshape_dims;
+    reshape_dims[0] = batch;
+    reshape_dims[1] = 1;
 #else
     Eigen::IndexList<Eigen::type2index<1>, int> broadcast_dims;
     broadcast_dims.set(1, all_but_batch);

sparse_tensor_dense_matmul_op_gpu.cu.cc 也一样

--- a/tensorflow/core/kernels/sparse_tensor_dense_matmul_op_gpu.cu.cc
+++ b/tensorflow/core/kernels/sparse_tensor_dense_matmul_op_gpu.cu.cc
@@ -104,9 +104,17 @@ struct SparseTensorDenseMatMulFunctor<GPUDevice, T, ADJ_A, ADJ_B> 
     int n = (ADJ_B) ? b.dimension(0) : b.dimension(1);

 #if !defined(EIGEN_HAS_INDEX_LIST)
-    Eigen::Tensor<int, 2>::Dimensions matrix_1_by_nnz 1, nnz ;
-    Eigen::array<int, 2> n_by_1 n, 1 ;
-    Eigen::array<int, 1> reduce_on_rows 0 ;
+    //DC Eigen::Tensor<int, 2>::Dimensions matrix_1_by_nnz 1, nnz ;
+    Eigen::Tensor<int, 2>::Dimensions matrix_1_by_nnz;
+    matrix_1_by_nnz[0] = 1;
+    matrix_1_by_nnz[1] = nnz;
+    //DC Eigen::array<int, 2> n_by_1 n, 1 ;
+    Eigen::array<int, 2> n_by_1;
+    n_by_1[0] = n;
+    n_by_1[1] = 1;
+    //DC Eigen::array<int, 1> reduce_on_rows 0 ;
+    Eigen::array<int, 1> reduce_on_rows;
+    reduce_on_rows[0] = 0;
 #else
     Eigen::IndexList<Eigen::type2index<1>, int> matrix_1_by_nnz;
     matrix_1_by_nnz.set(1, nnz);

使用 CUDA 8.0 运行需要 FP16 的新宏。非常感谢 Kashif/Mrry 指出修复方法!

--- a/tensorflow/stream_executor/cuda/cuda_blas.cc
+++ b/tensorflow/stream_executor/cuda/cuda_blas.cc
@@ -25,6 +25,12 @@ limitations under the License.
 #define EIGEN_HAS_CUDA_FP16
 #endif

+#if CUDA_VERSION >= 8000
+#define SE_CUDA_DATA_HALF CUDA_R_16F
+#else
+#define SE_CUDA_DATA_HALF CUBLAS_DATA_HALF
+#endif
+
 #include "tensorflow/stream_executor/cuda/cuda_blas.h"

 #include <dlfcn.h>
@@ -1680,10 +1686,10 @@ bool CUDABlas::DoBlasGemm(
   return DoBlasInternal(
       dynload::cublasSgemmEx, stream, true /* = pointer_mode_host */,
       CUDABlasTranspose(transa), CUDABlasTranspose(transb), m, n, k, &alpha,
-      CUDAMemory(a), CUBLAS_DATA_HALF, lda,
-      CUDAMemory(b), CUBLAS_DATA_HALF, ldb,
+      CUDAMemory(a), SE_CUDA_DATA_HALF, lda,
+      CUDAMemory(b), SE_CUDA_DATA_HALF, ldb,
       &beta,
-      CUDAMemoryMutable(c), CUBLAS_DATA_HALF, ldc);
+      CUDAMemoryMutable(c), SE_CUDA_DATA_HALF, ldc);
 #else
   LOG(ERROR) << "fp16 sgemm is not implemented in this cuBLAS version "
              << "(need at least CUDA 7.5)";

最后,ARM 没有 NUMA 节点,因此需要添加它,否则您将在启动 tf.Session() 时立即崩溃

--- a/tensorflow/stream_executor/cuda/cuda_gpu_executor.cc
+++ b/tensorflow/stream_executor/cuda/cuda_gpu_executor.cc
@@ -888,6 +888,9 @@ CudaContext* CUDAExecutor::cuda_context()  return context_; 
 // For anything more complicated/prod-focused than this, you'll likely want to
 // turn to gsys' topology modeling.
 static int TryToReadNumaNode(const string &pci_bus_id, int device_ordinal) 
+  // DC - make this clever later. ARM has no NUMA node, just return 0
+  LOG(INFO) << "ARM has no NUMA node, hardcoding to return zero";
+  return 0;
 #if defined(__APPLE__)
   LOG(INFO) << "OS X does not support NUMA - returning NUMA node zero";
   return 0;

完成这些更改后,构建并安装!希望这对某些人有用。

【讨论】:

在你的补丁中,有没有办法编译“matrix_1_by_nnz.set(1, nnz);”在 TX1 上?在 TF 0.11 或更高版本中,“.set”方法不起作用。【参考方案2】:

按照 Dwight 的回答,同时创建一个至少 6 GB 的交换文件

遵循Dwight Crow's answer,但使用 8 GB 交换文件并使用以下命令从全新安装的 JetPack 2.3 成功在 Jetson TX1 上构建了 TensorFlow 0.9:

bazel build -c opt --local_resources 3072,4.0,1.0 --verbose_failures --config=cuda //tensorflow/tools/pip_package:build_pip_package

我使用了 TensorFlow 的 ./configure 脚本的默认设置,但启用 GPU 支持除外。

我的构建花费了至少 6 个小时。如果您使用 SSD 而不是 USB 驱动器,速度会更快。

创建交换文件

# Create a swapfile for Ubuntu at the current directory location
fallocate -l *G swapfile
# List out the file
ls -lh swapfile
# Change permissions so that only root can use it
chmod 600 swapfile
# List out the file
ls -lh swapfile
# Set up the Linux swap area
mkswap swapfile
# Now start using the swapfile
sudo swapon swapfile
# Show that it's now being used
swapon -s

我使用this USB drive 来存储我的交换文件。

我看到我的系统使用的最大内存为 7.7 GB(Mem 为 3.8 GB,Swap 为 3.9 GB)。我看到一次使用最多的交换内存是 4.4 GB。我用free -h查看内存使用情况。

创建 pip 包并安装

改编自the TensorFlow docs:

$ bazel-bin/tensorflow/tools/pip_package/build_pip_package /tmp/tensorflow_pkg

# The name of the .whl file will depend on your platform.
$ pip install /tmp/tensorflow_pkg/tensorflow-0.9.0-py2-none-any.whl

致谢

感谢Dwight Crow(指南)、elirex(bazel 选项值和免费 -h)、tylerfox(交换文件想法和 local_resources 选项)、帮助他们的每个人,以及 the Github issue thread 中的每个人。

交换文件脚本改编自JetsonHack's gist。

不使用交换文件时收到的错误

帮助搜索引擎找到这个答案。

Error: unexpected EOF from Bazel server.

gcc: internal compiler error: Killed (program cc1plus)

【讨论】:

以上是关于Nvidia TX1 上的 TensorFlow的主要内容,如果未能解决你的问题,请参考以下文章

如何让 qtserialport 为 Native QT 的 NVIDIA TX1 工作?

官网链接

SPI驱动调试感悟

Jetson TX1配置与踩坑历程

Jetson TX1配置与踩坑历程

Jetson TX1配置与踩坑历程