设置fs.defaultFS属性时无法创建Dataproc集群?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了设置fs.defaultFS属性时无法创建Dataproc集群?相关的知识,希望对你有一定的参考价值。
这已经是以前的post讨论的对象,但是,我不相信答案,因为Google docs指定可以创建一个设置fs.defaultFS属性的集群。而且,即使可以以编程方式设置此属性,有时也可以从命令行设置它。
所以我想知道为什么传递给我的集群创建命令时以下选项不起作用:--properties core:fs.defaultFS=gs://my-bucket
?请注意我没有包含所有参数,因为我在没有前一个标志的情况下运行命令,并且它成功创建了集群。然而,当传递这个时,我得到:“失败:无法启动主数据:数据节点报告数量不足。”
如果有人设法通过设置fs.defaultFS来创建数据集群,那会很棒吗?谢谢。
答案
确实存在由于对实际HDFS的某些依赖性而存在的已知问题;这些文档并不意味着在集群创建时将fs.defaultFS设置为GCS路径会起作用,而只是提供一个在core-site.xml
中出现的属性的便捷示例;理论上,它可以将fs.defaultFS
设置为不同的预先存在的HDFS集群。我已经提交了一张票据来更改文档中的示例以避免混淆。
两种选择:
- 只需使用每个作业属性在作业提交时覆盖
fs.defaultFS
- 通过使用初始化操作而不是群集属性显式设置
fs.defaultFS
来解决一些已知问题。
可以更好地理解选项1,因为集群级HDFS依赖性不会改变。选项2有效,因为大多数不兼容性仅在初始启动期间发生,初始化操作在相关守护程序启动后运行。要覆盖init操作中的设置,您需要使用bdconfig
:
bdconfig set_property
--name 'fs.defaultFS'
--value 'gs://my-bucket'
--configuration_file /etc/hadoop/conf/core-site.xml
--clobber
以上是关于设置fs.defaultFS属性时无法创建Dataproc集群?的主要内容,如果未能解决你的问题,请参考以下文章