PDI 勺步骤中的 HTML 抓取（用户定义的 java 类）

Posted 2023-04-18

技术标签:

【中文标题】PDI 勺步骤中的 HTML 抓取（用户定义的 java 类）【英文标题】：HTML scraping in PDI spoon step (user defined java class) 【发布时间】：2014-08-28 18:51:40 【问题描述】：

您好，我正在使用HTTP Client 步骤获取网站的源代码。我需要刮掉一行的特定部分。

示例行：<a href="....." ......>TEXT I WANT</a>

所以我想我会在 PDI 中使用 UDJC 并首先使用 String[] lines = code.split("\n+"); 将文本块拆分为行，然后循环遍历数组并使用 if 条件（即正则表达式检查）查看我是否有正确的行。

for(String line : lines)
        if line.matches(".*a href.*")
            String outputString = code;
            break;

（我也在作为没有 PDI 的纯 java 在 IDE 中尝试这样做）但我从来没有受到打击。知道如何解决这个问题吗？或者有没有更快更简单的方法来获取我想要的块？

【问题讨论】：

如果您的特定 <a> 标记以某种方式可识别，我建议解析为 XML 并使用 XPath 来查找它。 【参考方案1】：

我在类似的情况下使用过滤步骤做一些你想做的事情

转换步骤：

"<a href"

* for the regex

【讨论】：

以上是关于PDI 勺步骤中的 HTML 抓取（用户定义的 java 类）的主要内容，如果未能解决你的问题，请参考以下文章