pyspark 中 读取 hive 表,提示 hdfs 中的 nameservice 不识别

Posted Shockang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pyspark 中 读取 hive 表,提示 hdfs 中的 nameservice 不识别相关的知识,希望对你有一定的参考价值。

前言

本文隶属于专栏《Spark异常问题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和参考文献请见 Spark异常问题汇总

正文

问题描述

pyspark 中 读取hive表,提示 hdfs 中的 nameservice 不识别

Caused by: java.net.UnknownHostException: gbigdata

问题补充

本地 跑 是好的,但是 到 jupyter 上就有问题

环境

配置的 python 环境是 anaconda3

定位思路

  1. 查一下core-site.xml里的fs.defaultFS属性

  1. 查一下 nn 端口配置和移动转移的配置
  2. 查一下hdfs-site.xml里的nameservice
  3. 查一下host配置映射,可能主机地址没有映射
  4. 用代码调试的时候,查一下上下文,配置文件加载可能出错了

以上是关于pyspark 中 读取 hive 表,提示 hdfs 中的 nameservice 不识别的主要内容,如果未能解决你的问题,请参考以下文章

pyspark hive.table 没有读取配置单元表的所有行

PySpark 无法通过 sparkContext/hiveContext 读取 Hive ORC 事务表?我们可以使用 Pyspark 更新/删除配置单元表数据吗?

pyspark读取textfile形成DataFrame以及查询表的属性信息

在没有标题的 Spark Dataframe 中读取 Hive 表

如何使用 PySpark 检查 Hive 表是不是存在

从 excel 中读取数据并插入 HIVE