在 Databricks 上处理 webhook 的策略

Posted

技术标签:

【中文标题】在 Databricks 上处理 webhook 的策略【英文标题】:Strategy to handle webhooks on Databricks 【发布时间】:2021-11-12 11:19:31 【问题描述】:

上下文:

我正在努力处理来自不同 APP 的数据,以转化为一些见解和可视化。

我们有大约 250 个第三方聊天应用程序。

我们为这些聊天应用程序中发送/接收的每条消息都有事件。

我想使用 webhook 在我的数据块中获取所有聊天信息,然后使用笔记本处理和清理数据,然后让人们可以在某个数据库中查询以在 power bi 上绘图。

我的问题:

Q1) 使用 databricks 生态系统处理 webhook 的良好可扩展实践是什么?是否有任何 http 端点可以处理?

Q2) 我对第 1 阶段:获取数据、第 2 阶段:使用笔记本进行转换、第 3 阶段:插入某个数据库的想法是一种有效的方法吗?有什么建议吗?

【问题讨论】:

【参考方案1】:

我们为这些聊天应用程序中发送/接收的每条消息都有事件。

由于应用程序中已经存在事件,因此最好的解决方案始终是使用流式传输。 例如 spark/databricks 中的结构化流可以从多个源读取。最简单的情况是聊天应用使用 Kafka 之类的东西,但也可以从其他产品读取流。

Kafka 与 Spark 配合得非常好,因此我强烈建议您将所有事件都放到 Kafka 中,而 Databricks 会将其作为流使用: https://docs.databricks.com/spark/latest/structured-streaming/kafka.html

【讨论】:

以上是关于在 Databricks 上处理 webhook 的策略的主要内容,如果未能解决你的问题,请参考以下文章

Databricks:writeStream 不处理数据

Azure Databricks 上的最大消息大小

在databricks中使用cobrix处理大型机文件-Pyspark python 3

PayPal webhook 所有事件仍处于待处理状态

尝试在 Databricks 上安装 H2O。如何在 Databricks 中安装 3rd 方包?

在 Pyspark Databricks 中处理 1000 个 JSON 文件