Pyspark:我可以从数据块中读取来自谷歌云的文件吗?
Posted
技术标签:
【中文标题】Pyspark:我可以从数据块中读取来自谷歌云的文件吗?【英文标题】:Pyspark: can I read file from google cloud from databricks? 【发布时间】:2020-03-25 10:51:27 【问题描述】:我正在研究 Databricks,我想知道我是否可以从谷歌云读取 csv
文件。
我正在尝试阅读此指南:https://docs.databricks.com/data/data.html
我可以通过这种方式在Python本地读取数据
path = 'myJson.json'
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = path
client = storage.Client()
name = 'https://console.cloud.google.com/storage/browser/myBucket/'
bucket_id = 'myBucket'
bucket = client.get_bucket(bucket_id)
df = pd.read_csv('gs://myBucket/feed/us/2020/03/19/18/data0000000001.csv.gz, compression='gzip')
【问题讨论】:
请查看以下链接,该链接建议使用 IR 将数据从 GCP 导入 Azure。 docs.microsoft.com/en-us/azure/data-factory/… 【参考方案1】:很遗憾,Azure Databricks 不支持连接到 Google Cloud 作为源。
Azure Databricks 中支持的数据源:https://docs.microsoft.com/en-us/azure/databricks/data/data-sources/
根据我的研究,我发现了一个名为“Panoply”的第三方工具,您可以Start analyzing your Google Cloud Storage data with Databricks。
【讨论】:
如果我的回答对您有帮助,您可以接受它作为答案(单击答案旁边的复选标记,将其从灰色切换为已填充。)。这对其他社区成员可能是有益的。谢谢。以上是关于Pyspark:我可以从数据块中读取来自谷歌云的文件吗?的主要内容,如果未能解决你的问题,请参考以下文章