将图像加载到猪

Posted

技术标签:

【中文标题】将图像加载到猪【英文标题】:Load image to pig 【发布时间】:2013-12-26 06:07:25 【问题描述】:

我是使用 Apache Pig 分析图像的新手。 谁能建议我如何加载和处理图像??

我知道文本文件,

alias = load '/user/Pavan/sample.txt' using PigStorage(" ");

如何处理图片??

【问题讨论】:

您希望以 Pig 元组的形式呈现什么样的图像?您要执行哪种分析? 我需要将图像加载到别名.. 可以吗? 我不认为 Pig 用于图像混叠。 感谢您的回复..那么我们如何分析Hadoop中的图像格式文件?我的意思是将图像存储在 hadoop 中并分析它们.. @Dmitry 我不认为 OP 指的是image aliasing,而是将图像存储到别名,即 Pig 中的变量。 【参考方案1】:

您有几个选择,这实际上取决于您要执行的操作类型:

1) 编写自定义加载函数

Pig can be used for images,但你需要写一个custom load function,这可能比你想做的要多。

2) 使用序列文件(我的建议)

您也可以convert the image to a Sequence File,Pig 有一个加载器文件available in the Piggybank JAR。还可以通过Twitter's Elephant Bird package 获得用于读取和写入序列文件的加载函数和存储函数。

Here's an article about using Sequence Files on Hadoop for astronomical categorization tasks.

3) 使用 MapReduce。

根据您的任务性质,使用原生 MapReduce 可能会更好。

【讨论】:

Piggybank 的 SequenceFileLoader 似乎不适用于实际生产。 grokbase.com/t/pig/user/109vvtx2mc/…

以上是关于将图像加载到猪的主要内容,如果未能解决你的问题,请参考以下文章

将 xlsx 文件加载到猪关系中

如何使用不同的 PigStorage 运算符将数据加载到猪中

Apache Pig - 在猪关系中加载时缺少数字数据

如何在 Pig 中使用 Avro 数据

我如何使用 jsonloader 为数组定义模式?

如何将输入模式附加到猪的输出