使用 preg_match_all PHP 限制结果数

Posted

技术标签:

【中文标题】使用 preg_match_all PHP 限制结果数【英文标题】:Limit the number of results using preg_match_all PHP 【发布时间】:2011-05-27 01:43:22 【问题描述】:

有没有办法限制使用preg_match_all 返回的匹配数?

例如,我只想匹配网页上的前 20 个 <p> 标签,但有 100 个 <p> 标签。

干杯

【问题讨论】:

【参考方案1】:

这是真正的答案;最节省内存的方式。 改为通过preg_replace_callback() 使用引用分配

<?php

$matches = [];

preg_replace_callback(
    '~<p(?:\s.*?)?>(?:.*?)</p>~s',
    function (array $match) use (&$matches) 
        $matches[] = $match[0];
    ,
    $html,
    20,
    $_
);

var_dump($matches);

【讨论】:

当 p 标签有属性或者它们的 innerhtml 跨越超过一行时不起作用。兔子洞开始了。请在解析 html 时建议不要使用正则表达式。 另外,据我统计,preg_replace_callback() 最多有 5 个参数。 ($pattern, $callback, $subject, $limit, and $count) PREG_SET_ORDER 不是必需的,也不会被兑现。我也不认为声明 count 变量对这种情况有价值。 php.net/manual/en/function.preg-replace-callback.php @mickmackusa 我的 sn-p 不适合这个问题,抱歉。那是为了我的工作。 @mickmackusa 这是文档错误。 php-src 说它有 6 个参数。 github.com/php/php-src/blob/… 酷。谢谢你让我知道。尽管如此,最后两个参数并不是真正需要的。【参考方案2】:

为了延续@Gumbo 的建议,使用DOM 解析器而不是正则表达式,下面的sn-p 将使用带有position() 条件的XPath 查询来限制目标标签。

代码:(Demo targeting 4 of 5 p tags)

$html = <<<HTML
<div>
    <p class="classy">1
</p>
    <p>2</p>
    <p data-p="<p>notatag</p>">3</p>
    <span data-monkeywrench='<p'>z</span>
    <p
 data-p="<p>notatag</p>">4</p>
    <p>5</p>
</div>
HTML;

$dom = new DOMDocument();
$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);
$xpath = new DOMXPath($dom);
foreach ($xpath->query('//p[position() <= 4]') as $p) 
    echo var_export($p->nodeValue, true) , "\n---\n";

输出:

'1
'
---
'2'
---
'3'
---
'4'
---

【讨论】:

【参考方案3】:

你可以使用T-Regx库:

pattern('<p>')->match($yourHtml)->only(20);

【讨论】:

【参考方案4】:

我不这么认为,但preg_match 确实有一个offset 参数,还有一个PREG_OFFSET_CAPTURE 标志,当它们组合时,可用于获得“下一场比赛”。

如果您不想获得所有结果然后array_slice() 部分关闭,这主要是有用的:o)

编辑: 好的,这是一些代码(未经测试或以任何方式使用):

$offset = 0;
$matches = array();
for ($i = 0; $i < 20; $i++) 
    $results = preg_match('/<p(?:.*?)>/', $string, PREG_OFFSET_CAPTURE, $offset);
    if (empty($results)) 
        break;
     else 
        $matches[] = $results[0][0];
        $offset += $results[0][1];
    

【讨论】:

【参考方案5】:

您可以使用preg_match_all() 并丢弃您不感兴趣的匹配项,也可以使用带有preg_match() 的循环。如果您担心扫描大字符串的费用,第二个选项会更好。

此示例限制为 2 个匹配项,而整个字符串中实际上有 3 个:

<?php

$str = "ab1ab2ab3ab4c";

for ($offset = 0, $n = 0;
        $n < 2 && preg_match('/b([0-9])/', $str, $matches, PREG_OFFSET_CAPTURE, $offset);
        ++$n, $offset = $matches[0][1] + 1) 

        var_dump($matches);

实际上,while 循环可能比 for 循环反射更清晰;)

【讨论】:

【参考方案6】:

不,preg_match_all 结果集的计算不能被限制。之后您只能使用array_slicearray_splice 限制结果(这需要PREG_SET_ORDER):

preg_match_all($pattern, $subject, $matches, PREG_SET_ORDER);
$firstMatches = array_slice($matches, 0, 20);

但除此之外,你不应该使用正则表达式来解析 HTML。尽管现代正则表达式引擎不再是正则表达式,并且可以处理 HTML 等不规则语言,但它太容易出错。最好使用适当的 HTML 解析器,而不是像 PHP’s DOM library 那样的解析器。然后只需使用计数器最多只能获得 20 个匹配项:

$doc = new DOMDocument();
$doc->loadHTML($code);
$counter = 20;
$matches = array();
foreach ($doc->getElementsByTagName('p') as $elem) 
    if ($counter-- <= 0) 
        break;
    
    $matches[] = $elem;

【讨论】:

干杯 Gumbo,这个 DOM 东西真的很有用。从来没有尝试过在 HTML 上使用它而不是 reg ex,所以试试吧! @SiQ:请注意,DOMDocument 实现了 W3C 指定的 DOM,因此非常广泛;如果你只是需要阅读 DOM,你也可以试试SimpleXML 您的 DOMDocument 解决方案也在事后限制了代码,不是吗?它没有设置限制,但会忽略它收集的额外标签。【参考方案7】:

只匹配所有并切片结果数组:

$allMatches = array ();
$numMatches = preg_match_all($pattern, $subject, $allMatches, PREG_SET_ORDER);
$limit = 20;
$limitedResults = $allMatches;
if($numMatches > $limit)

   $limitedResults = array_slice($allMatches, 0, $limit);


// Use $limitedResults here

【讨论】:

【参考方案8】:
$matches = array();   
preg_match_all ( $pattern , $subject , $matches );
$twenty = array_slice($matches , 0, 20);

【讨论】:

以上是关于使用 preg_match_all PHP 限制结果数的主要内容,如果未能解决你的问题,请参考以下文章

PHP - preg_match_all 没有搜索完整的字符串?

preg_match_all (PHP) 中的 UTF-8 字符

php 'preg_match_all' 和 'str_replace':用数组键替换常量的正则表达式

php 正则获取字符串中的汉字preg_match_all

preg_match_all() php正则匹配图片路径,怎么取完整的图片链接。带http开头,求解决

PHP 正则表达式匹配 preg_match 与 preg_match_all 函数