Pyspark:我可以从数据块中读取来自谷歌云的文件吗?

Posted

技术标签:

【中文标题】Pyspark:我可以从数据块中读取来自谷歌云的文件吗?【英文标题】:Pyspark: can I read file from google cloud from databricks? 【发布时间】:2020-03-25 10:51:27 【问题描述】:

我正在研究 Databricks,我想知道我是否可以从谷歌云读取 csv 文件。

我正在尝试阅读此指南:https://docs.databricks.com/data/data.html

我可以通过这种方式在Python本地读取数据

path = 'myJson.json'
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = path
client = storage.Client()
name = 'https://console.cloud.google.com/storage/browser/myBucket/'
bucket_id = 'myBucket'
bucket = client.get_bucket(bucket_id)

df = pd.read_csv('gs://myBucket/feed/us/2020/03/19/18/data0000000001.csv.gz, compression='gzip')

【问题讨论】:

请查看以下链接,该链接建议使用 IR 将数据从 GCP 导入 Azure。 docs.microsoft.com/en-us/azure/data-factory/… 【参考方案1】:

很遗憾,Azure Databricks 不支持连接到 Google Cloud 作为源。

Azure Databricks 中支持的数据源:https://docs.microsoft.com/en-us/azure/databricks/data/data-sources/

根据我的研究,我发现了一个名为“Panoply”的第三方工具,您可以Start analyzing your Google Cloud Storage data with Databricks。

【讨论】:

如果我的回答对您有帮助,您可以接受它作为答案(单击答案旁边的复选标记,将其从灰色切换为已填充。)。这对其他社区成员可能是有益的。谢谢。

以上是关于Pyspark:我可以从数据块中读取来自谷歌云的文件吗?的主要内容,如果未能解决你的问题,请参考以下文章

如何从谷歌云存储中读取子目录/前缀中的文件?

谷歌云平台提交训练作业,如何从训练代码中读取 USER_ARGS?

谷歌云sql数据读取审计日志

来自谷歌云视觉 API OCR 的逐行数据

谷歌云平台jupyter笔记本如何读取csv文件?

谷歌云架构:数据湖可以用于 OLTP 吗?