如何在 Linux 集群上查找节点的名称

Posted

技术标签:

【中文标题】如何在 Linux 集群上查找节点的名称【英文标题】:How to find nodes' names on linux cluster 【发布时间】:2015-06-05 09:41:48 【问题描述】:

我正在使用具有 8 个处理器的 linux 集群,但我无法联系到它的管理员或任何更熟悉使用它的人。我正在尝试在所有节点上运行 MPI 程序,但我无法在不知道其名称的情况下创建 --machinelife 文件。所以我的问题如下 - 我怎样才能找到所有节点的名称,只能从其中一个节点编写命令?甚至可能吗?提前致谢。

【问题讨论】:

这个集群用什么调度软件?如果它使用 PBS/Torque,您可以阅读文件$PBS_NODEFILE。只需运行 cat $PBS_NODEFILE 即可查看已分配给您的作业的所有节点的名称。 您可以检查头节点的网络配置并尝试猜测或扫描网络中的其他节点。大多数 MPI 实现将接受 IP 地址而不是主机名。另外,查看/etc/hosts - 名称可能在那里。无论如何,这个问题在这里是题外话,你真的应该在Super User site 上提问。 感谢您的关心,很遗憾,这些都不起作用。结果中的 cat $PBS_NODEFILE 只会断开我的连接(我正在使用 WinSCP)。我不知道集群使用的是什么调度软件。我也无权访问 /etc/hosts 文件。好像我需要使用一个我知道的集群;] 【参考方案1】:

如果您无法从 cmets 中描述的批处理调度系统中获取节点列表,您可以通过启动尽可能大的 MPI 作业并打印出每个等级来绕过该限制它的主机名。

【讨论】:

感谢您的建议!试过了,我只得到了大约 150 个进程的一个名称,键入 -np close to 200 返回内存错误。

以上是关于如何在 Linux 集群上查找节点的名称的主要内容,如果未能解决你的问题,请参考以下文章

如何最快搭建LINUX服务器集群

Redis停止的命令

Redshift集群,如何获取片数信息

如何查找 Google Cloud VM 集群的 Web 接口端口

如何在 Linux 上查找不包含文本的文本文件?

如何成功创建Linux集群