在 Databricks 上处理 webhook 的策略

Posted 2023-04-15

技术标签:

【中文标题】在 Databricks 上处理 webhook 的策略【英文标题】：Strategy to handle webhooks on Databricks 【发布时间】：2021-11-12 11:19:31 【问题描述】：

上下文：

我正在努力处理来自不同 APP 的数据，以转化为一些见解和可视化。

我们有大约 250 个第三方聊天应用程序。

我们为这些聊天应用程序中发送/接收的每条消息都有事件。

我想使用 webhook 在我的数据块中获取所有聊天信息，然后使用笔记本处理和清理数据，然后让人们可以在某个数据库中查询以在 power bi 上绘图。

我的问题：

Q1) 使用 databricks 生态系统处理 webhook 的良好可扩展实践是什么？是否有任何 http 端点可以处理？

Q2) 我对第 1 阶段：获取数据、第 2 阶段：使用笔记本进行转换、第 3 阶段：插入某个数据库的想法是一种有效的方法吗？有什么建议吗？

【问题讨论】：

【参考方案1】：

我们为这些聊天应用程序中发送/接收的每条消息都有事件。

由于应用程序中已经存在事件，因此最好的解决方案始终是使用流式传输。例如 spark/databricks 中的结构化流可以从多个源读取。最简单的情况是聊天应用使用 Kafka 之类的东西，但也可以从其他产品读取流。

Kafka 与 Spark 配合得非常好，因此我强烈建议您将所有事件都放到 Kafka 中，而 Databricks 会将其作为流使用： https://docs.databricks.com/spark/latest/structured-streaming/kafka.html

【讨论】：

以上是关于在 Databricks 上处理 webhook 的策略的主要内容，如果未能解决你的问题，请参考以下文章