设置fs.defaultFS属性时无法创建Dataproc集群?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了设置fs.defaultFS属性时无法创建Dataproc集群?相关的知识,希望对你有一定的参考价值。

这已经是以前的post讨论的对象,但是,我不相信答案,因为Google docs指定可以创建一个设置fs.defaultFS属性的集群。而且,即使可以以编程方式设置此属性,有时也可以从命令行设置它。

所以我想知道为什么传递给我的集群创建命令时以下选项不起作用:--properties core:fs.defaultFS=gs://my-bucket?请注意我没有包含所有参数,因为我在没有前一个标志的情况下运行命令,并且它成功创建了集群。然而,当传递这个时,我得到:“失败:无法启动主数据:数据节点报告数量不足。”

如果有人设法通过设置fs.defaultFS来创建数据集群,那会很棒吗?谢谢。

答案

确实存在由于对实际HDFS的某些依赖性而存在的已知问题;这些文档并不意味着在集群创建时将fs.defaultFS设置为GCS路径会起作用,而只是提供一个在core-site.xml中出现的属性的便捷示例;理论上,它可以将fs.defaultFS设置为不同的预先存在的HDFS集群。我已经提交了一张票据来更改文档中的示例以避免混淆。

两种选择:

  1. 只需使用每个作业属性在作业提交时覆盖fs.defaultFS
  2. 通过使用初始化操作而不是群集属性显式设置fs.defaultFS来解决一些已知问题。

可以更好地理解选项1,因为集群级HDFS依赖性不会改变。选项2有效,因为大多数不兼容性仅在初始启动期间发生,初始化操作在相关守护程序启动后运行。要覆盖init操作中的设置,您需要使用bdconfig

bdconfig set_property 
    --name 'fs.defaultFS' 
    --value 'gs://my-bucket' 
    --configuration_file /etc/hadoop/conf/core-site.xml 
    --clobber

以上是关于设置fs.defaultFS属性时无法创建Dataproc集群?的主要内容,如果未能解决你的问题,请参考以下文章

Hive元数据升级

Hive元数据升级

无法从 Windows 连接到远程 HDFS

hive select 出现问题 SemanticException

Java操作hdfs

简述hdfs-site.xml配置文件中需要配置的三个属性名称及其含义?