将元数据存储到 Jackrabbit 存储库中

Posted

技术标签:

【中文标题】将元数据存储到 Jackrabbit 存储库中【英文标题】:Store metadata into Jackrabbit repository 【发布时间】:2011-07-06 13:26:44 【问题描述】:

谁能给我解释一下,在以下情况下如何进行?

    接收文档(MS docs、ODS、PDF)

    通过 Apache Tika 提取双核心元数据 + 通过 jackrabbit-content-extractors 提取内容

    使用 Jackrabbit 将文档(内容)连同其元数据一起存储到存储库中

    检索文档 + 元数据

我对第 3 点和第 4 点感兴趣...

详情: 该应用程序正在交互处理文档(一些分析 - 语言检测,字数统计等 + 收集尽可能多的细节 - 都柏林核心 + 解析内容/事件处理),以便它将处理结果返回给用户,然后返回提取的内容和元数据(提取和自定义用户元数据)存储到 JCR 存储库中

感谢任何帮助,谢谢

【问题讨论】:

你能提供更多的上下文吗?你能更具体地回答你的问题吗?这个项目列表是从哪里来的? @jzd:我对 JCR 和 jackrabbit 不太熟悉,我也找不到任何关于如何处理的参考。 文档上传到我的应用程序,在每个文档上传时,文档都会被处理和持久化 【参考方案1】:

我是 Jackrabbit 的新手,正在开发 2.4.2。 至于您的解决方案,您可以使用核心 java 逻辑检查类型,并在您的操作中放置定义任何变化的案例。

您无需担心将不同 .txt 或 .pdf 的内容保存为它们的问题 内容被转换成二进制并保存。 这是一个小示例,我在其中上传和下载了一个 pdf 文件到/从 jackrabbit repo 中。

    // Import the pdf file unless already imported 
            // This program is for sample purpose only so everything is hard coded.
        if (!root.hasNode("Alfresco_E0_Training.pdf"))
         
            System.out.print("Importing PDF... "); 

            // Create an unstructured node under which to import the XML 
            //Node node = root.addNode("importxml", "nt:unstructured"); 
            Node file = root.addNode("Alfresco_E0_Training.pdf","nt:file");

            // Import the file "Alfresco_E0_Training.pdf" under the created node 
            FileInputStream stream = new FileInputStream("<path of file>\\Alfresco_E0_Training.pdf");
            Node content = file.addNode("jcr:content","nt:resource");
            Binary binary = session.getValueFactory().createBinary(stream);
            content.setProperty("jcr:data",binary);
            stream.close();
            session.save(); 
            //System.out.println("done."); 
            System.out.println("::::::::::::::::::::Checking content of the node:::::::::::::::::::::::::");
            System.out.println("File Node Name : "+file.getName());
            System.out.println("File Node Identifier : "+file.getIdentifier());
            System.out.println("File Node child : "+file.JCR_CHILD_NODE_DEFINITION);
            System.out.println("Content Node Name : "+content.getName());
            System.out.println("Content Node Identifier : "+content.getIdentifier());
            System.out.println("Content Node Content : "+content.getProperty("jcr:data"));
            System.out.println(":::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::");

        else
        
            session.save();
            Node file = root.getNode("Alfresco_E0_Training.pdf");
            Node content = file.getNode("jcr:content");
            String path = content.getPath();
            Binary bin = session.getNode(path).getProperty("jcr:data").getBinary();
            InputStream stream = bin.getStream();
             File f=new File("C:<path of the output file>\\Alfresco_E0_Training.pdf");

              OutputStream out=new FileOutputStream(f);
              byte buf[]=new byte[1024];
              int len;
              while((len=stream.read(buf))>0)
              out.write(buf,0,len);
              out.close();
              stream.close();
              System.out.println("\nFile is created...................................");


            System.out.println("done."); 
            System.out.println("::::::::::::::::::::Checking content of the node:::::::::::::::::::::::::");
            System.out.println("File Node Name : "+file.getName());
            System.out.println("File Node Identifier : "+file.getIdentifier());
            //System.out.println("File Node child : "+file.JCR_CHILD_NODE_DEFINITION);
            System.out.println("Content Node Name : "+content.getName());
            System.out.println("Content Node Identifier : "+content.getIdentifier());
            System.out.println("Content Node Content : "+content.getProperty("jcr:data"));
            System.out.println(":::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::");
         

        //output the repository content
         
    catch (IOException e)
        System.out.println("Exception: "+e);
    
    finally  
        session.logout(); 
         
         

希望对你有帮助

【讨论】:

【参考方案2】:

我对 JCR 有点生疏,我从未使用过 2.0,但这应该可以帮助您入门。

看到这个link。你会想要打开第二条评论。

您只需将文件存储在节点中并向节点添加其他元数据。以下是如何存储文件:

Node folder = session.getRootNode().getNode("path/to/file/uploads"); 
Node file = folder.addNode(fileName, "nt:file"); 
Node fileContent = file.addNode("jcr:content"); 
fileContent.setProperty("jcr:data", fileStream);
// Add other metadata
session.save();

如何存储元数据取决于您。一个简单的方法是只存储键值对:

fileContent.setProperty(key, value, PropertyType.STRING);

要读取数据,您只需调用getProperty()

fileStream = fileContent.getProperty("jcr:data");
value = fileContent.getProperty(key);

【讨论】:

谢谢。这个用例的问题是,文档的元数据类型完全不同。因此,如果节点树具有“组/用户/类别/文档”或“类别/组/用户/文档”结构(我不确定哪个更好),每个文档都必须有一个属性“ type" 如果它是 pdf/doc/odt/ppt 等,我每次都必须对此进行测试 我很惊讶上面代码 sn-p 中的第 3 行实际上可以工作,因为根据 JCR 规范(JCR 2.0 的第 3.7.11.2 节和 JCR 1.0 的第 6.7.22.6 节) "jcr:content" 节点是强制性的,但不是自动创建的。【参考方案3】:

JCR 2.0 的上传文件与 JCR 1.0 的上传文件基本相同。但是,JCR 2.0 添加了一些有用的附加内置属性定义。

“nt:file”节点类型旨在表示一个文件,并在 JCR 2.0 中具有两个内置属性定义(这两个属性定义都是在创建节点时由存储库自动创建的):

jcr:创建(日期) jcr:createdBy (STRING)

并定义了一个名为“jcr:content”的子节点。这个“jcr:content”节点可以是任何节点类型,但一般来说,与内容本身有关的所有信息都存储在这个子节点上。事实上的标准是使用“nt:resource”节点类型,它定义了以下属性:

jcr:data (BINARY) 必填 jcr:lastModified (DATE) 自动创建 jcr:lastModifiedBy (STRING) 自动创建 jcr:mimeType (STRING) 受保护? jcr:encoding (STRING) protected?

请注意,“jcr:mimeType”和“jcr:encoding”是在 JCR 2.0 中添加的。

特别是,“jcr:mimeType”属性的目的是完全按照您的要求进行 - 捕获内容的“类型”。但是,“jcr:mimeType”和“jcr:encoding”属性定义可以(由 JCR 实现)定义为受保护的(意味着 JCR 实现会自动设置它们) - 如果是这种情况,则不允许您手动设置这些属性。我相信Jackrabbit 和ModeShape 不会将它们视为受保护的。

以下代码展示了如何使用这些内置节点类型将文件上传到 JCR 2.0 存储库:

// Get an input stream for the file ...
File file = ...
InputStream stream = new BufferedInputStream(new FileInputStream(file));

Node folder = session.getNode("/absolute/path/to/folder/node");
Node file = folder.addNode("Article.pdf","nt:file");
Node content = file.addNode("jcr:content","nt:resource");
Binary binary = session.getValueFactory().createBinary(stream);
content.setProperty("jcr:data",binary);

如果 JCR 实现不将“jcr:mimeType”属性视为受保护(即 Jackrabbit 和 ModeShape),则您必须手动设置此属性:

content.setProperty("jcr:mimeType","application/pdf");

元数据可以很容易地存储在“nt:file”和“jcr:content”节点上,但开箱即用的“nt:file”和“nt:resource”节点类型不允许额外的属性。因此,在添加其他属性之前,您首先需要添加一个 mixin(或多个 mixin),其中包含您要存储的各种属性的属性定义。你甚至可以定义一个允许任何属性的 mixin。这是一个定义这样一个 mixin 的 CND 文件:

<custom = 'http://example.com/mydomain'>
[custom:extensible] mixin
- * (undefined) multiple 
- * (undefined) 

注册此节点类型定义后,您可以在您的节点上使用它:

content.addMixin("custom:extensible");
content.setProperty("anyProp","some value");
content.setProperty("custom:otherProp","some other value");

您还可以定义和使用允许任何Dublin Core element 的mixin:

<dc = 'http://purl.org/dc/elements/1.1/'>
[dc:metadata] mixin
- dc:contributor (STRING)
- dc:coverage (STRING)
- dc:creator (STRING)
- dc:date (DATE)
- dc:description (STRING)
- dc:format (STRING)
- dc:identifier (STRING)
- dc:language (STRING)
- dc:publisher (STRING)
- dc:relation (STRING)
- dc:right (STRING)
- dc:source (STRING)
- dc:subject (STRING)
- dc:title (STRING)
- dc:type (STRING)

所有这些属性都是可选的,并且这个 mixin 不允许任何名称或类型的属性。我也没有真正解决这个'dc:metadata'混合的事实,其中一些已经用内置属性表示(例如,“jcr:createBy”,“jcr:lastModifiedBy”,“jcr:created” , "jcr:lastModified", "jcr:mimeType") 并且其中一些可能与内容更相关,而另一些则与文件更相关。

您当然可以定义其他更适合您的元数据需求的 mixin,在需要的地方使用继承。但是要小心使用 mixins 的继承 - 因为 JCR 允许一个节点到多个 mixins,所以通常最好将你的 mixins 设计为具有严格的范围和面向方面(例如,“ex:taggable”、“ex:describable”等)然后只需根据需要将适当的 mixin 应用到节点。

(虽然要复杂得多,但也可以定义一个 mixin,允许在“nt:file”节点下有更多的子节点,并在那里存储一些元数据。)

Mixin 非常棒,为您的 JCR 内容提供了极大的灵活性和强大的功能。

哦,当你创建了所有你想要的节点后,一定要保存会话:

session.save();

【讨论】:

非常感谢您的精彩解释。我现在对如何实现我的应用程序有了一个总体了解。顺便说一句,当文档总是成对出现时,您如何处理用例?例如,如果是翻译公司:源文件 x 目标文件(法语 > 英语)。我是否创建一个父节点“Files”,它是一个文件夹和两个子节点“sourceFile”和“targetFile”? 支持翻译和多种语言很难。我可以想到几种处理方法:1)使用单独的文件,并以某种方式将它们链接在一起。您对“来源”和“目标”的建议是方式;另一个可能是将“translatedFrom”作为 PATH 或 (WEAK)REFERENCE 属性。 2) 将文件视为相同,因此具有一个“nt:file”节点,但具有多个“jcr:content”类型节点(例如,默认语言可能为“jcr:content”,而“ex:content- fr" 和 "ex:content-en")。可能还有其他可能性。 我不得不推迟到现在,因为我需要它也兼容 CMIS。 CMIS 和 OpenCMIS jcr 绑定直到tools.oasis-open.org/issues/browse/CMIS-713 才处理“次要类型”……但这需要更多时间。现在 opencmis 使用文件夹、文件和混合操作:simpleVersionable ... 所以最后我只有一个选择 - 文件夹 > [sourceFolder, targetFolder] > files ...

以上是关于将元数据存储到 Jackrabbit 存储库中的主要内容,如果未能解决你的问题,请参考以下文章

如何将数据从 Magnolia CMS Apache Jackrabbit 内容存储库迁移到普通 SQL SERVER 数据库

JackRabbit Oak:我的应用程序需要很长时间才能启动/重新启动

使用 Laravel 5.0 存储门面将元数据、标头(Expires、CacheControl)添加到上传到 Amazon S3 的文件中

调整 Jackrabbit 数据模型(VERSION_BUNDLE 表)

混合模式下使用 H2 数据库的 Jackrabbit 集群

PL/SQL - 在将元数据假脱机到文件后更新表