在Databricks + Spark笔记本中使用curl

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了在Databricks + Spark笔记本中使用curl相关的知识,希望对你有一定的参考价值。

我正在使用Databricks运行Spark集群。我想使用curl从服务器传输数据。例如,

curl -H "Content-Type: application/json" -H "auth:xxxx" -X GET "https://websites.net/Automation/Offline?startTimeInclusive=201609240100&endTimeExclusive=201609240200&dataFormat=json" -k > automation.json

如何在Databricks笔记本中执行此操作(最好是在python中,但Scala也可以)?

答案

在Scala中,您可以执行以下操作:

import sys.process._
val command = """curl -H "Content-Type: application/json" -H "auth:xxxx" -X GET "http://google.com" -k > /home/user/automation.json"""
Seq("/bin/bash", "-c", command).!!
另一答案

在Databricks中,您可以通过使%sh成为单元格的第一行来从单元格运行shell命令:

%sh
curl -H "Content-Type: application/json" -H "auth:xxxx" -X GET "https://websites.net/Automation/Offline?startTimeInclusive=201609240100&endTimeExclusive=201609240200&dataFormat=json" -k > automation.json

以上是关于在Databricks + Spark笔记本中使用curl的主要内容,如果未能解决你的问题,请参考以下文章

尝试使用 apache spark 加载模块时出现 Databricks 错误 [重复]

Spark Databricks 本地文件 API

Azure Datalake Store Gen2 使用 scala spark 库从 Databricks 读取文件

如果 Databricks 或 Spark SQL 中存在表,则插入

在 Azure Databricks 的集群 Spark Config 中设置数据湖连接

如何使用 Python / Pyspark 在 Databricks 笔记本中合并数据帧