PHP - BBCode 解析器 - 解析 bbcode 链接标记和未标记链接

Posted 2023-02-24

技术标签:

【中文标题】PHP - BBCode 解析器 - 解析 bbcode 链接标记和未标记链接【英文标题】：PHP - BBCode parser - Parse both bbcode link tag and not tagged link 【发布时间】：2011-03-14 01:18:54 【问题描述】：

我需要这样做：

当用户插入 BBCode 标签时，我会使用 preg_replace 和 regex 进行一些转换。

例如

function forumBBCode($str)
   $format_search=array(
      '#\[url=(.*?)\](.*?)\[/url\]#i'
   );

   $format_replace=array(
      '<a class="lforum" target="_blank" href="$1">$2</a>'
   );

   $str=preg_replace($format_search, $format_replace, $str);
   $str=nl2br($str);
   return $str;

现在我也想要这个：当用户插入带有链接的普通文本时，这也必须被转换。我不能这样做 trought preg_replace 函数，因为如果我编写代码为

$format_search
'#(www\..*?)#i'

$format_replace
'<a class="lforum" target="_blank" href="$1">$1</a>'

它会转换链接 2 次（在 [url] 中并且当链接没有这个标签时）。

所以我认为这个功能：

    function checkLinks($string) 
    $arrelab="";
    $arr=split(' |\r\n', $string);
    for($i=0; $i<sizeof($arr); $i++) 
        echo $i." - ".$arr[$i]."<br/>";
        if ((strpos($arr[$i], 'www.')!==false) or (strpos($arr[$i], 'http://')!==false) or (strpos($arr[$i], 'ftp://')!==false)) 
            if (strpos($arr[$i], '[url=')===false) 
                $arr[$i]='<a class="lforum" target="_blank" href="'.$arr[$i].'">'.$arr[$i].'</a>';
            
        

        $arrelab=$arrelab." ".$arr[$i];
    
    return $arrelab;

问题是我需要拆分换行符和空格。任何帮助将不胜感激。

附言对不起我的英语不好:)

干杯

【问题讨论】：

【参考方案1】：

你的问题可以通过阅读你的标题来识别。解析结合regex

您不能使用正则表达式“解析”html 或 bb 代码，因为它们不是正则语言。

您应该编写（或找到）一个 bb-code 解析器，而不是使用正则表达式。

Google 的 BB 代码解析器的第一个结果是 NBBC: The New BBCode Parser。但我从未使用过它，所以我无法评论质量。

【讨论】：

【参考方案2】：

最简单的选择是首先解析纯文本网址，并确保它们不会立即出现在等号之后。

来自马里奥斯的更新：

preg_replace('#(?<![>/"])(((http|https|ftp)://)?www[a-zA-Z0-9\-_\.]+)#im', '<a href="$1">$1</a>'

【讨论】：

我修复了非贪婪选项。是的，它摇滚！老实说，我不明白它为什么起作用，但我会学习它作为正则表达式的练习！ tnx 再次给你和马里奥 :)【参考方案3】：

使用后向断言很容易解决。

preg_replace('#(?<![>/"])((http://)?www.........)#im', '<a href="$1">$1</a>'

因此，正则表达式将跳过任何包含在 " 或 > 中或以 / 开头的 URL 这是一种解决方法，而不是解决方案。

PS：target="_blank" 是用户的纠缠。剪掉吧。

【讨论】：

呃，我不明白你的代码到底是什么意思。如果我有一个文本没有包含在 " 或 > 表达式没有被评估？应该是一个很好的正则表达式，它不会评估 "http://" 文本，如果它有字符串 [url=，但我不能这样做... 这个正则表达式的作用是确保 url 尚未包含在链接中。在 [url= 正则表达式之后运行它。啊好吧，现在我明白他的意思了 :) 不错，看起来不错 :) ps1。如果我想在 www 之后“允许所有字符”，这应该很好，不是吗？ www\..?* 但它似乎有问题...... ps2。如果我想要http和ftp？我写的是 (?:http|ftp) 而不是 (http://) ? 不，我使用您将使用的正则表达式编辑了我的答案。（如果您使用它，请接受 mario。） tnx mario 和 aaron :) 拍得不错！ p.s.为什么这不是解决方案？只是为了好奇......【参考方案4】：

有一种更简单的方法可以做到这一点。我在 RedBonzai Developers 博客中创建了一个演练。链接在这里：http://www.redbonzai.com/blog/web-development/how-to-create-a-bb-codes-function-in-php/

如果您有任何问题，请告诉我。

红盆栽

【讨论】：

以上是关于PHP - BBCode 解析器 - 解析 bbcode 链接标记和未标记链接的主要内容，如果未能解决你的问题，请参考以下文章