如何使用 PIG 处理图像文件

Posted

技术标签:

【中文标题】如何使用 PIG 处理图像文件【英文标题】:How to process image files using PIG 【发布时间】:2015-09-01 16:03:37 【问题描述】:

有100个不同颜色的图像文件。我想根据颜色获得独特的图像

【问题讨论】:

获取图像的MD5SUM并删除重复项 参考这篇文章:hadoopsphere.com/2013/02/… 【参考方案1】:

没有用于处理图像数据的内置 Hadoop/Pig API

要使用 Pig/MapReduce 处理图像数据,请使用以下步骤:

    将所有图像转换为序列文件/文件

    键值
    Image_file_id 图片内容

    将此文件加载到 HDFS

    使用任何第三方库进行检测,例如 "Haar Cascades" 作为 UDF in Pig 或调用 MapReduce 中的 Java 库 程序。

【讨论】:

以上是关于如何使用 PIG 处理图像文件的主要内容,如果未能解决你的问题,请参考以下文章

如何让 Pig 将多个文件输入到一个映射器中

如何将 CSV/TSV 文件从 Pig 加载/导出到 Pandas?

在 pig 中创建 udf 以进行图像处理

如何使用 oozie 启动 N 次脚本 Pig?

如何使用 PIG 将 Avro 格式存储在 HDFS 中?

使用 Apache Pig 从文本文件中获取备用行