如何在 Linux 集群上查找节点的名称
Posted
技术标签:
【中文标题】如何在 Linux 集群上查找节点的名称【英文标题】:How to find nodes' names on linux cluster 【发布时间】:2015-06-05 09:41:48 【问题描述】:我正在使用具有 8 个处理器的 linux 集群,但我无法联系到它的管理员或任何更熟悉使用它的人。我正在尝试在所有节点上运行 MPI 程序,但我无法在不知道其名称的情况下创建 --machinelife 文件。所以我的问题如下 - 我怎样才能找到所有节点的名称,只能从其中一个节点编写命令?甚至可能吗?提前致谢。
【问题讨论】:
这个集群用什么调度软件?如果它使用 PBS/Torque,您可以阅读文件$PBS_NODEFILE
。只需运行 cat $PBS_NODEFILE
即可查看已分配给您的作业的所有节点的名称。
您可以检查头节点的网络配置并尝试猜测或扫描网络中的其他节点。大多数 MPI 实现将接受 IP 地址而不是主机名。另外,查看/etc/hosts
- 名称可能在那里。无论如何,这个问题在这里是题外话,你真的应该在Super User site 上提问。
感谢您的关心,很遗憾,这些都不起作用。结果中的 cat $PBS_NODEFILE 只会断开我的连接(我正在使用 WinSCP)。我不知道集群使用的是什么调度软件。我也无权访问 /etc/hosts 文件。好像我需要使用一个我知道的集群;]
【参考方案1】:
如果您无法从 cmets 中描述的批处理调度系统中获取节点列表,您可以通过启动尽可能大的 MPI 作业并打印出每个等级来绕过该限制它的主机名。
【讨论】:
感谢您的建议!试过了,我只得到了大约 150 个进程的一个名称,键入 -np close to 200 返回内存错误。以上是关于如何在 Linux 集群上查找节点的名称的主要内容,如果未能解决你的问题,请参考以下文章