AWS Glue 开发终端节点无法正常工作

Posted

技术标签:

【中文标题】AWS Glue 开发终端节点无法正常工作【英文标题】:AWS Glue Development Endpoint Not Working properly 【发布时间】:2020-11-06 03:34:28 【问题描述】:

我正在尝试使用开发端点以交互方式运行和编辑 ETL 脚本,但是在创建它之后开发端点中似乎存在一些问题,因为我在 scala/python REPL 中遇到错误并且也无法进行 SSH 隧道到远程口译员。 让我解释一下我到底做了什么——我在 AWS 控制台中使用所有默认配置创建了一个开发终端节点。在创建开发端点时,我只提供了三件事“开发端点名称”和“IAM 角色”以及我的“pub ssh 密钥”。这是创建后的样子

然后在创建端点后,我连接到 spark/python REPL,我能够成功连接到它们,但是在连接后几分钟内,REPL 开始抛出错误,而无需编写任何代码。这发生在开发端点中的所有 REPL 中。

此外,当我尝试通过 SSH 隧道连接到远程解释器以连接我的本地 Zeppelin 笔记本时,它会抛出 - “绑定:无法分配请求的地址”。

有几件事在起作用 -

能够对端点执行 ssh。 在连接到此开发端点的 AWS 胶水中创建了一个 Sagemaker 笔记本,该笔记本似乎工作正常,尽管它肯定会增加额外的成本,我不想继续使用它。

谁能帮助我做错了什么?创建开发端点后,我是否遗漏了需要在机器上完成的任何重要步骤?

提前致谢!

【问题讨论】:

你能解决这个问题吗?我的团队也面临着类似的问题。 【参考方案1】:

不太确定这个错误,但如果您使用的是较小的数据集,那么您可能希望使用 Docker 实现,因为它不会增加任何额外成本,您可以继续开发。

你可以参考这个博客来了解如何设置它

https://towardsdatascience.com/develop-glue-jobs-locally-using-docker-containers-bffc9d95bd1

【讨论】:

以上是关于AWS Glue 开发终端节点无法正常工作的主要内容,如果未能解决你的问题,请参考以下文章

如何在 AWS Glue pyspark 脚本中合并两个节点

无法 ping AWS RDS 终端节点

优化 Spark AWS GLUE 作业

AWS ParallelCluster 计算节点无法正常启动

AWS ECS:VPC 终端节点和 NAT 网关

AWS Glue 错误 |无法使用 spark 从开发人员端点读取 Glue 表