AWS Glue 开发终端节点无法正常工作
Posted
技术标签:
【中文标题】AWS Glue 开发终端节点无法正常工作【英文标题】:AWS Glue Development Endpoint Not Working properly 【发布时间】:2020-11-06 03:34:28 【问题描述】:我正在尝试使用开发端点以交互方式运行和编辑 ETL 脚本,但是在创建它之后开发端点中似乎存在一些问题,因为我在 scala/python REPL 中遇到错误并且也无法进行 SSH 隧道到远程口译员。 让我解释一下我到底做了什么——我在 AWS 控制台中使用所有默认配置创建了一个开发终端节点。在创建开发端点时,我只提供了三件事“开发端点名称”和“IAM 角色”以及我的“pub ssh 密钥”。这是创建后的样子
然后在创建端点后,我连接到 spark/python REPL,我能够成功连接到它们,但是在连接后几分钟内,REPL 开始抛出错误,而无需编写任何代码。这发生在开发端点中的所有 REPL 中。
此外,当我尝试通过 SSH 隧道连接到远程解释器以连接我的本地 Zeppelin 笔记本时,它会抛出 - “绑定:无法分配请求的地址”。
有几件事在起作用 -
能够对端点执行 ssh。 在连接到此开发端点的 AWS 胶水中创建了一个 Sagemaker 笔记本,该笔记本似乎工作正常,尽管它肯定会增加额外的成本,我不想继续使用它。谁能帮助我做错了什么?创建开发端点后,我是否遗漏了需要在机器上完成的任何重要步骤?
提前致谢!
【问题讨论】:
你能解决这个问题吗?我的团队也面临着类似的问题。 【参考方案1】:不太确定这个错误,但如果您使用的是较小的数据集,那么您可能希望使用 Docker 实现,因为它不会增加任何额外成本,您可以继续开发。
你可以参考这个博客来了解如何设置它
https://towardsdatascience.com/develop-glue-jobs-locally-using-docker-containers-bffc9d95bd1
【讨论】:
以上是关于AWS Glue 开发终端节点无法正常工作的主要内容,如果未能解决你的问题,请参考以下文章
如何在 AWS Glue pyspark 脚本中合并两个节点