在 Databricks 上处理 webhook 的策略
Posted
技术标签:
【中文标题】在 Databricks 上处理 webhook 的策略【英文标题】:Strategy to handle webhooks on Databricks 【发布时间】:2021-11-12 11:19:31 【问题描述】:上下文:
我正在努力处理来自不同 APP 的数据,以转化为一些见解和可视化。
我们有大约 250 个第三方聊天应用程序。
我们为这些聊天应用程序中发送/接收的每条消息都有事件。
我想使用 webhook 在我的数据块中获取所有聊天信息,然后使用笔记本处理和清理数据,然后让人们可以在某个数据库中查询以在 power bi 上绘图。
我的问题:
Q1) 使用 databricks 生态系统处理 webhook 的良好可扩展实践是什么?是否有任何 http 端点可以处理?
Q2) 我对第 1 阶段:获取数据、第 2 阶段:使用笔记本进行转换、第 3 阶段:插入某个数据库的想法是一种有效的方法吗?有什么建议吗?
【问题讨论】:
【参考方案1】:我们为这些聊天应用程序中发送/接收的每条消息都有事件。
由于应用程序中已经存在事件,因此最好的解决方案始终是使用流式传输。 例如 spark/databricks 中的结构化流可以从多个源读取。最简单的情况是聊天应用使用 Kafka 之类的东西,但也可以从其他产品读取流。
Kafka 与 Spark 配合得非常好,因此我强烈建议您将所有事件都放到 Kafka 中,而 Databricks 会将其作为流使用: https://docs.databricks.com/spark/latest/structured-streaming/kafka.html
【讨论】:
以上是关于在 Databricks 上处理 webhook 的策略的主要内容,如果未能解决你的问题,请参考以下文章
在databricks中使用cobrix处理大型机文件-Pyspark python 3