如何在 dataproc 集群上重新启动 hadoop 服务
Posted
技术标签:
【中文标题】如何在 dataproc 集群上重新启动 hadoop 服务【英文标题】:How do I restart hadoop services on dataproc cluster 【发布时间】:2017-08-28 20:24:25 【问题描述】:我可能使用错误的术语进行搜索,但谷歌并没有告诉我如何执行此操作。问题是如何在更改某些配置文件(纱线属性等)后重新启动 Dataproc 上的 hadoop 服务?
必须在整个集群中按特定顺序重新启动服务。必须有脚本或工具,希望在 Dataproc 安装中,我可以调用它们来重新启动集群。
【问题讨论】:
【参考方案1】:配置属性是一个常见且得到很好支持的用例。
您可以通过cluster properties 执行此操作,无需重启守护程序。示例:
dataproc clusters create my-cluster --properties yarn:yarn.resourcemanager.client.thread-count=100
如果您正在执行更高级的操作,例如更新服务日志级别,那么您可以使用systemctl
重新启动服务。
首先 ssh 到集群节点并输入 systemctl
以查看可用服务列表。例如重启HDFS NameNode 输入sudo systemctl restart hadoop-hdfs-namenode.service
如果这是初始化操作的一部分,则不需要 sudo
。
【讨论】:
【参考方案2】:在主节点上:
sudo systemctl restart hadoop-yarn-resourcemanager.service
sudo systemctl restart hadoop-hdfs-namenode.service
在工作节点上:
sudo systemctl restart hadoop-yarn-nodemanager.service
sudo systemctl restart hadoop-hdfs-datanode.service
之后,您可以使用systemctl status <name>
查看服务状态,也可以查看/var/log/hadoop
中的日志。
【讨论】:
以上是关于如何在 dataproc 集群上重新启动 hadoop 服务的主要内容,如果未能解决你的问题,请参考以下文章
在启动 Google DataProc 集群以与 Jupyter 笔记本一起使用时,如何包含其他 jar?
如何从 Cloud Function 运行创建 Dataproc 集群、运行作业、删除集群
使用 Spark BigQuery 连接器启动 Dataproc 集群