Google Dataproc Presto:如何使用 Python 运行查询

Posted

技术标签:

【中文标题】Google Dataproc Presto:如何使用 Python 运行查询【英文标题】:Google Dataproc Presto: how to run queries using Python 【发布时间】:2021-06-11 16:29:54 【问题描述】:

我已经按照link 中的步骤设置了一个运行 Presto 的 Google Dataproc 集群。

它工作正常,我可以通过 gcloud 命令行工具运行查询,如链接所示。

gcloud dataproc jobs submit hive \
    --cluster presto-cluster \
    --region=$REGION \
    --execute "SELECT COUNT(*) FROM chicago_taxi_trips_parquet;"

最后,本教程展示了如何通过 Java 应用程序在 Presto 上运行查询。我正在尝试使用 Python 找到类似的解决方案。有没有一种方法可以通过我的 Python 应用程序在 Dataproc 集群上运行查询?

我知道 Presto 有 Python 客户端,但我找不到有关如何将其与 Dataproc 集群上运行的 Presto 连接的资源。

同样,有一个 Python 库可以将作业提交到 Dataproc,但没有关于如何将 Presto 查询作业提交到 Dataproc 集群的资源。

谁能告诉我如何连接到 Google Dataproc 上的 Presto 并使用 Python 应用程序远程运行查询?

【问题讨论】:

【参考方案1】:

您可以在 Dataproc Python 客户端库官方文档中找到如何使用 Dataproc Jobs API 提交支持的作业(包括 Presto)的示例:https://cloud.google.com/dataproc/docs/tutorials/python-library-example#submit_a_job_to_a_cluster

【讨论】:

以上是关于Google Dataproc Presto:如何使用 Python 运行查询的主要内容,如果未能解决你的问题,请参考以下文章

带有presto的GCP dataproc - 有没有办法使用pyhive通过python远程运行查询?

如何在 Google Cloud Platform 上查看 Dataproc 作业的输出文件

如何在 Google Dataproc 集群中安装 python 包

如何衡量 Google Cloud Dataproc 中的高可用性

如何提交依赖于 google dataproc 集群的 pyspark 作业

来自 DataProc 集群的 Google Cloud Sdk