pyspark 中 读取 hive 表,提示 hdfs 中的 nameservice 不识别
Posted Shockang
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pyspark 中 读取 hive 表,提示 hdfs 中的 nameservice 不识别相关的知识,希望对你有一定的参考价值。
前言
本文隶属于专栏《Spark异常问题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!
本专栏目录结构和参考文献请见 Spark异常问题汇总
正文
问题描述
pyspark 中 读取hive表,提示 hdfs 中的 nameservice 不识别
Caused by: java.net.UnknownHostException: gbigdata
问题补充
本地 跑 是好的,但是 到 jupyter 上就有问题
环境
配置的 python 环境是 anaconda3
定位思路
- 查一下core-site.xml里的fs.defaultFS属性
- 查一下 nn 端口配置和移动转移的配置
- 查一下hdfs-site.xml里的nameservice
- 查一下host配置映射,可能主机地址没有映射
- 用代码调试的时候,查一下上下文,配置文件加载可能出错了
以上是关于pyspark 中 读取 hive 表,提示 hdfs 中的 nameservice 不识别的主要内容,如果未能解决你的问题,请参考以下文章
pyspark hive.table 没有读取配置单元表的所有行
PySpark 无法通过 sparkContext/hiveContext 读取 Hive ORC 事务表?我们可以使用 Pyspark 更新/删除配置单元表数据吗?
pyspark读取textfile形成DataFrame以及查询表的属性信息