在推力函子中使用 CURAND

Posted

技术标签:

【中文标题】在推力函子中使用 CURAND【英文标题】:Using CURAND inside a Thrust functor 【发布时间】:2016-10-19 22:23:26 【问题描述】:

是否可以在设备函子内将 CURAND 与 Thrust 一起使用?一个最小的代码示例可以是:

#include <thrust/device_vector.h>

struct Move

    Move() 

    using Position = thrust::tuple<double, double>;

    __host__ __device__
    Position operator()(Position p)
    
        thrust::get<0>(p) += 1.0; // use CURAND to add a random N(0,1)
        thrust::get<1>(p) += 1.0; // use CURAND to add a random N(0,1)
        return p;
    
;

int main()

    // Create vectors on device
    thrust::device_vector<double> p1(10, 0.0);
    thrust::device_vector<double> p2(10, 0.0);

    // Create zip iterators
    auto pBeg = thrust::make_zip_iterator(thrust::make_tuple(p1.begin(), p2.begin()));
    auto pEnd = thrust::make_zip_iterator(thrust::make_tuple(p1.end(),   p2.end()  ));

    // Move points in the vectors
    thrust::transform(pBeg, pEnd, pBeg, Move());

    // Print result (just for debug)
    thrust::copy(p1.begin(), p1.end(), std::ostream_iterator<double>(std::cout, "\n"));
    thrust::copy(p2.begin(), p2.end(), std::ostream_iterator<double>(std::cout, "\n"));

    return 0;

在运算符函数中创建随机数的正确方法是什么?

【问题讨论】:

您必须使用此处记录的 cuRAND 设备 API:docs.nvidia.com/cuda/curand/… 【参考方案1】:

是否可以在设备函子内将 CURAND 与 Thrust 一起使用?

是的,这是可能的。如@m.s 所示。您需要从 curand 获得的大部分内容都可以从 curand 文档中的 curand device api example 获得。 (事实上​​,文档here 中甚至还有完整的推力/curand 示例代码)

我们可以通过推力算法调用来模仿那里指示的设置内核的行为,例如。 thrust::for_each_n 为每个设备向量元素设置初始 curand 状态变量。

之后,只需通过 zip 迭代器中的附加迭代器将初始化的 curand 状态传递给您的 Move 仿函数,然后在仿函数中调用 curand_uniform(例如)。

这是一个完整的示例,基于您的代码:

$ cat t20.cu
#include <thrust/device_vector.h>
#include <curand_kernel.h>
#include <iostream>
#include <thrust/iterator/counting_iterator.h>
#include <thrust/transform.h>
#include <thrust/for_each.h>

const int seed = 1234;
const int ds = 10;
const int offset = 0;

struct Move

    Move() 

    using Position = thrust::tuple<double, double, curandState>;

    __device__
    Position operator()(Position p)
    
        curandState s = thrust::get<2>(p);
        thrust::get<0>(p) += curand_uniform(&s); // use CURAND to add a random N(0,1)
        thrust::get<1>(p) += curand_uniform(&s); // use CURAND to add a random N(0,1)
        thrust::get<2>(p) = s;
        return p;
    
;

struct curand_setup

    using init_tuple = thrust::tuple<int, curandState &>;
    __device__
    void operator()(init_tuple t)
      curandState s;
      int id = thrust::get<0>(t);
      curand_init(seed, id, offset, &s);
      thrust::get<1>(t) = s;
      
;

int main()

    // Create vectors on device
    thrust::device_vector<double> p1(ds, 0.0);
    thrust::device_vector<double> p2(ds, 0.0);
    thrust::device_vector<curandState> s1(ds);

    // Create zip iterators
    auto pBeg = thrust::make_zip_iterator(thrust::make_tuple(p1.begin(), p2.begin(), s1.begin()));
    auto pEnd = thrust::make_zip_iterator(thrust::make_tuple(p1.end(),   p2.end(), s1.end()  ));
    auto pInit = thrust::make_zip_iterator(thrust::make_tuple(thrust::counting_iterator<int>(0), s1.begin()));
    // initialize random generator
    thrust::for_each_n(pInit, ds, curand_setup());
    // Move points in the vectors
    thrust::transform(pBeg, pEnd, pBeg, Move());

    // Print result (just for debug)
    thrust::copy(p1.begin(), p1.end(), std::ostream_iterator<double>(std::cout, "\n"));
    thrust::copy(p2.begin(), p2.end(), std::ostream_iterator<double>(std::cout, "\n"));

    return 0;

$ nvcc -arch=sm_61 -std=c++11 t20.cu -o t20 -lcurand
$ ./t20
0.145468
0.820181
0.550399
0.29483
0.914733
0.868979
0.321921
0.782857
0.0113023
0.28545
0.434899
0.926417
0.811845
0.308556
0.557235
0.501246
0.206681
0.123377
0.539587
0.198575
$

关于这个问题:

在运算符函数中创建随机数的正确方法是什么?

在thrust 中使用curand 没有问题,但您可能还想知道thrust 有一个内置的RNG facility,并且有一个完整的用法示例here。

【讨论】:

这非常有效。我更喜欢 CURAND,因为它使用序列而不是不同的种子来确保随机数的质量。但是,我尝试使用 ds = 1000000 并且程序崩溃了。应该不是内存问题(每个curandState都是48b)。 ds=1000000 对我来说不会崩溃。您正在为什么操作系统、GPU、CUDA 版本和 GPU 架构进行编译?如果您使用的是 Windows Visual Studio,请确保您构建的是 64 位 (x64) 发布项目,而不是 win32 项目,也不是调试项目。顺便说一句,CURAND 文档本身有一个 thrust + CURAND example code 我使用的是 Ubuntu 16.04,GeForce GTX 745/PCIe/SSE2,CUDA 8.0,arch=sm_50,我遇到的错误是:terminate called after throwing an instance of 'thrust::system::system_error' what(): the launch timed out and was terminated 感谢您的链接,尽管我认为最好使用 thread_id 作为序列 ID 而不是种子(就像您在此解决方案中所做的那样)。 您的内核在托管显示器的 GPU 上运行时间过长。阅读this。这不是由于代码中的任何缺陷造成的。

以上是关于在推力函子中使用 CURAND的主要内容,如果未能解决你的问题,请参考以下文章

推力::设备向量使用推力::替换或推力::转换与自定义函子/谓词

使用CUDA推力的元素动力操作

cuda 推力::for_each 与推力::counting_iterator

进阶学习4:函数式编程FP——函子FunctorMayBe函子Either函子IO函子FolktalePointer函子Monad

无法在MS-Access中的子中使用函数的变量

在线程内使用推力::排序