如何使用hadoop Map reduce处理/提取.pst

Question

我正在使用MAPI工具（它的微软lib和.NET），然后使用apache TIKA库来处理和从交换服务器中提取pst，这是不可扩展的。

如何使用MR方式处理/提取pst ...是否有可用于我的MR作业的java中可用的工具库。任何帮助都会非常充实。

Jpst Lib内部使用：PstFile pstFile = new PstFile(java.io.File)

问题是Hadoop API我们没有接近java.io.File的任何东西。

以下选项始终存在但效率不高：

  File tempFile = File.createTempFile("myfile", ".tmp");
  fs.moveToLocalFile(new Path (<HDFS pst path>) , new Path(tempFile.getAbsolutePath()) );
  PstFile pstFile = new PstFile(tempFile);

Answer 1

另一答案