C ++ NUMA优化

Question

我正在研究最初为多核处理器系统开发的遗留应用程序。为了利用多核处理，已经使用了OpenMP和PPL。现在，新要求是在具有多个NUMA节点的系统上运行该软件。目标操作系统是Windows 7 x64。

我已经进行了几次测量，并注意到在将应用程序分配给单个NUMA节点时执行时间最佳，因此浪费了完整的处理器。应用程序的许多部分执行数据并行算法，例如，并行处理向量的每个元素，并将结果写入另一个向量，如下例所示

std::vector<int> data;
std::vector<int> res;

// init data and res

#pragma omp parallel for
for (int i = 0; i < (int) data.size(); ++i)
{  
  res[i] = doExtremeComplexStuff(data[i]);
}

据我所知，此类算法的性能下降是由第二个NUMA节点的非本地内存访问引起的。所以问题是如何使应用程序更好地运行。

是否以某种方式透明地加速了对非本地存储器的只读访问（例如，OS将数据从一个节点的本地存储器复制到另一个节点的本地存储器）？我是否必须拆分问题大小并将输入数据复制到相应的NUMA节点，处理它，然后再次组合所有NUMA节点的数据以提高性能？

如果是这种情况，是否有std容器的替代品，因为在分配内存时这些不是NUMA感知的？