将平面数据文件从边缘设备摄取到 HDFS 并进行处理

Posted

技术标签:

【中文标题】将平面数据文件从边缘设备摄取到 HDFS 并进行处理【英文标题】:Ingest flat data file from edge device to HDFS and process 【发布时间】:2017-08-10 10:19:27 【问题描述】:

我有一个用例,其中车辆上的设备必须将平面二进制文件发送到云服务器,在它们进入时处理它们并将数据存储到 Hbase 中。我想知道哪些数据摄取框架支持从远程设备上传平面二进制文件,以及需要使用哪些数据处理框架来解析这些文件并将数据存储到 HBase 中。请提出适合我的应用的设计。

【问题讨论】:

【参考方案1】:

看看https://www.confluent.io/product/connectors/ Confluent 平台。您可以通过 kafka 分发所有数据,如果需要,可以使用 kafka 流对其进行处理,然后使用 kafka 连接器将结果存储到 HBase。

【讨论】:

谢谢。我的设备已经通过 REST API 发布日志 bin 文件。 Kafka 可以直接从 REST API 消费而不在设备上进行任何更改吗? @Keerthi AFAIK 您可以尝试使用 Kafka REST 代理,也许它可以帮助您。否则,您始终可以编写自己的 REST 服务,该服务将通过 Kafka 生产者写入 Kafka。

以上是关于将平面数据文件从边缘设备摄取到 HDFS 并进行处理的主要内容,如果未能解决你的问题,请参考以下文章

Pyspark - 将文件从本地(边缘节点)复制到 HDFS 位置时出错

边缘计算物联网关TG462

数据摄取:将动态文件从 S3 加载到 Snowflake

为何要拥抱边缘计算

Sqoop - 是不是可以在 HDFS 中导入平面文件

将数据从平面文件加载到 Sql Server 表,并使用 SSIS 导出到 excel