Google Dataproc Presto:如何使用 Python 运行查询
Posted
技术标签:
【中文标题】Google Dataproc Presto:如何使用 Python 运行查询【英文标题】:Google Dataproc Presto: how to run queries using Python 【发布时间】:2021-06-11 16:29:54 【问题描述】:我已经按照link 中的步骤设置了一个运行 Presto 的 Google Dataproc 集群。
它工作正常,我可以通过 gcloud 命令行工具运行查询,如链接所示。
gcloud dataproc jobs submit hive \
--cluster presto-cluster \
--region=$REGION \
--execute "SELECT COUNT(*) FROM chicago_taxi_trips_parquet;"
最后,本教程展示了如何通过 Java 应用程序在 Presto 上运行查询。我正在尝试使用 Python 找到类似的解决方案。有没有一种方法可以通过我的 Python 应用程序在 Dataproc 集群上运行查询?
我知道 Presto 有 Python 客户端,但我找不到有关如何将其与 Dataproc 集群上运行的 Presto 连接的资源。
同样,有一个 Python 库可以将作业提交到 Dataproc,但没有关于如何将 Presto 查询作业提交到 Dataproc 集群的资源。
谁能告诉我如何连接到 Google Dataproc 上的 Presto 并使用 Python 应用程序远程运行查询?
【问题讨论】:
【参考方案1】:您可以在 Dataproc Python 客户端库官方文档中找到如何使用 Dataproc Jobs API 提交支持的作业(包括 Presto)的示例:https://cloud.google.com/dataproc/docs/tutorials/python-library-example#submit_a_job_to_a_cluster
【讨论】:
以上是关于Google Dataproc Presto:如何使用 Python 运行查询的主要内容,如果未能解决你的问题,请参考以下文章
带有presto的GCP dataproc - 有没有办法使用pyhive通过python远程运行查询?
如何在 Google Cloud Platform 上查看 Dataproc 作业的输出文件
如何在 Google Dataproc 集群中安装 python 包
如何衡量 Google Cloud Dataproc 中的高可用性