PHP - BBCode 解析器 - 解析 bbcode 链接标记和未标记链接

Posted

技术标签:

【中文标题】PHP - BBCode 解析器 - 解析 bbcode 链接标记和未标记链接【英文标题】:PHP - BBCode parser - Parse both bbcode link tag and not tagged link 【发布时间】:2011-03-14 01:18:54 【问题描述】:

我需要这样做:

当用户插入 BBCode 标签时,我会使用 preg_replace 和 regex 进行一些转换。

例如

function forumBBCode($str)
   $format_search=array(
      '#\[url=(.*?)\](.*?)\[/url\]#i'
   );

   $format_replace=array(
      '<a class="lforum" target="_blank" href="$1">$2</a>'
   );

   $str=preg_replace($format_search, $format_replace, $str);
   $str=nl2br($str);
   return $str;

现在我也想要这个:当用户插入带有链接的普通文本时,这也必须被转换。我不能这样做 trought preg_replace 函数,因为如果我编写代码为

$format_search
'#(www\..*?)#i'

$format_replace
'<a class="lforum" target="_blank" href="$1">$1</a>'

它会转换链接 2 次(在 [url] 中并且当链接没有这个标签时)。

所以我认为这个功能:

    function checkLinks($string) 
    $arrelab="";
    $arr=split(' |\r\n', $string);
    for($i=0; $i<sizeof($arr); $i++) 
        echo $i." - ".$arr[$i]."<br/>";
        if ((strpos($arr[$i], 'www.')!==false) or (strpos($arr[$i], 'http://')!==false) or (strpos($arr[$i], 'ftp://')!==false)) 
            if (strpos($arr[$i], '[url=')===false) 
                $arr[$i]='<a class="lforum" target="_blank" href="'.$arr[$i].'">'.$arr[$i].'</a>';
            
        

        $arrelab=$arrelab." ".$arr[$i];
    
    return $arrelab;

问题是我需要拆分换行符和空格。 任何帮助将不胜感激。

附言对不起我的英语不好:)

干杯

【问题讨论】:

【参考方案1】:

你的问题可以通过阅读你的标题来识别。解析结合regex

您不能使用正则表达式“解析”html 或 bb 代码,因为它们不是正则语言。

您应该编写(或找到)一个 bb-code 解析器,而不是使用正则表达式。

Google 的 BB 代码解析器的第一个结果是 NBBC: The New BBCode Parser。但我从未使用过它,所以我无法评论质量。

【讨论】:

【参考方案2】:

最简单的选择是首先解析纯文本网址,并确保它们不会立即出现在等号之后。

来自马里奥斯的更新:

preg_replace('#(?&lt;![&gt;/"])(((http|https|ftp)://)?www[a-zA-Z0-9\-_\.]+)#im', '&lt;a href="$1"&gt;$1&lt;/a&gt;'

【讨论】:

我修复了非贪婪选项。 是的,它摇滚!老实说,我不明白它为什么起作用,但我会学习它作为正则表达式的练习! tnx 再次给你和马里奥 :)【参考方案3】:

使用后向断言很容易解决。

preg_replace('#(?<![>/"])((http://)?www.........)#im', '<a href="$1">$1</a>'

因此,正则表达式将跳过任何包含在 " 或 > 中或以 / 开头的 URL 这是一种解决方法,而不是解决方案。

PS:target="_blank" 是用户的纠缠。剪掉吧。

【讨论】:

呃,我不明白你的代码到底是什么意思。如果我有一个文本没有包含在 " 或 > 表达式没有被评估?应该是一个很好的正则表达式,它不会评估 "http://" 文本,如果它有字符串 [url=,但我不能这样做... 这个正则表达式的作用是确保 url 尚未包含在链接中。 [url= 正则表达式之后运行它。 啊好吧,现在我明白他的意思了 :) 不错,看起来不错 :) ps1。如果我想在 www 之后“允许所有字符”,这应该很好,不是吗? www\..?* 但它似乎有问题...... ps2。如果我想要http和ftp?我写的是 (?:http|ftp) 而不是 (http://) ? 不,我使用您将使用的正则表达式编辑了我的答案。 (如果您使用它,请接受 mario。) tnx mario 和 aaron :) 拍得不错! p.s.为什么这不是解决方案?只是为了好奇......【参考方案4】:

有一种更简单的方法可以做到这一点。我在 RedBonzai Developers 博客中创建了一个演练。链接在这里:http://www.redbonzai.com/blog/web-development/how-to-create-a-bb-codes-function-in-php/

如果您有任何问题,请告诉我。

红盆栽

【讨论】:

以上是关于PHP - BBCode 解析器 - 解析 bbcode 链接标记和未标记链接的主要内容,如果未能解决你的问题,请参考以下文章

跳过解析 CODE 标签内的 BBCode

通过 Ajax 解析 PHP 文件获取的 JSON 数据时出现问题

php [robots.txt解析器] robots.txt php解析器#php

用于 php 的独立语法和解析器

PHP-XML基于流的解析器及其他常用解析器

PHP XML Expat 解析器