实现简单正则表达式的建议(用于 bbcode/geshi 解析)

Posted

技术标签:

【中文标题】实现简单正则表达式的建议(用于 bbcode/geshi 解析)【英文标题】:Advice for implementing simple regex (for bbcode/geshi parsing) 【发布时间】:2011-05-11 13:26:44 【问题描述】:

我用 php 制作了一个个人笔记软件,这样我就可以存储和组织我的笔记,并希望有一个很好的简单格式来写它们。

我在 Markdown 中做过,但发现它有点混乱,没有简单的语法高亮,所以我之前做过 bbcode,希望实现它。

现在对于我真正希望实现的 GeSHi(语法高亮器),它需要最简单的代码,如下所示:

$geshi = new GeSHi($sourcecode, $language);
$geshi->parse_code();

现在这是简单的部分,但我想做的是让我的 bbcode 调用它。

我当前匹配组成的 [syntax=cpp][/syntax] bbcode 的正则表达式如下:

preg_replace('#\[syntax=(.*?)\](.*?)\[/syntax\]#si' , 'geshi(\\2,\\1)????', text);

你会注意到我捕获了语言和内容,我到底要如何将它连接到 GeSHi 代码?

preg_replace 似乎只能用字符串而不是“表达式”来替换它,我不确定如何将这两行代码用于 GeSHi 与捕获的数据..

我对这个项目感到非常兴奋,并希望克服这一点。

【问题讨论】:

【参考方案1】:

使用 preg_match:

$match = preg_match('#\[syntax=(.*?)\](.*?)\[/syntax\]#si', $text);
$geshi = new GeSHi($match[2], $match[1]);

【讨论】:

【参考方案2】:

在我看来,您已经掌握了正确的正则表达式。你的问题在于调用,所以我建议做一个包装函数:

function geshi($src, $l) 
    $geshi = new GeSHi($sourcecode, $language);
    $geshi->parse_code();
    return $geshi->how_do_I_get_the_results();

现在这通常就足够了,但源代码本身可能包含单引号或双引号。因此,您不能根据需要编写preg_replace(".../e", "geshi('$2','$1')", ...)。 (注意 '$1' 和 '$2' 需要引号,因为 preg_replace 只是替换了 $1,$2 占位符,但这需要是有效的 php 内联代码)。

这就是为什么您需要使用preg_replace_callback 来避免在 /e exec 替换代码中出现转义问题。 比如:

preg_replace_callback('#\[syntax=(.*?)\](.*?)\[/syntax\]#si' , 'geshi_replace', $text);

我会制作第二个包装器,但你可以将它与原始代码结合起来:

function geshi_replace($uu) 
    return geshi($uu[2], $uu[1]);

【讨论】:

这回答了我原来的问题,谢谢!我写这个很晚,找不到任何解决方案,这是有道理的:P【参考方案3】:

我不久前写了这个类,这个类的原因是为了方便定制/解析。也许有点矫枉过正,但效果很好,我的应用程序需要它矫枉过正。用法很简单:

$geshiH = new Geshi_Helper();
$text = $geshiH->geshi($text); // this assumes that the text should be parsed (ie inline syntaxes)

---- 或 ----

$geshiH = new Geshi_Helper();
$text = $geshiH->geshi($text, $lang);  // assumes that you have the language, good for a snippets deal

我必须从我拥有的其他自定义项目中进行一些切割,但在切割没有语法错误之前它应该可以工作。随意使用它。

<?php

require_once 'Geshi/geshi.php';

class Geshi_Helper 

    /**
     * @var array Array of matches from the code block.
     */
    private $_codeMatches = array();

    private $_token = "";

    private $_count = 1;

    public function __construct()
    
        /* Generate a unique hash token for replacement) */
        $this->_token = md5(time() . rand(9999,9999999));
    

    /**
     * Performs syntax highlights using geshi library to the content.
     *
     * @param string $content - The context to parse
     * @return string Syntax Highlighted content
     */
    public function geshi($content, $lang=null)
    
        if (!is_null($lang)) 
            /* Given the returned results 0 is not set, adding the "" should make this compatible */
            $content = $this->_highlightSyntax(array("", strtolower($lang), $content));
        else 
            /* Need to replace this prior to the code replace for nobbc */
            $content = preg_replace('~\[nobbc\](.+?)\[/nobbc\]~ie', '\'[nobbc]\' . strtr(\'$1\', array(\'[\' => \'&#91;\', \']\' => \'&#93;\', \':\' => \'&#58;\', \'@\' => \'&#64;\')) . \'[/nobbc]\'', $content);

            /* For multiple content we have to handle the br's, hence the replacement filters */
            $content = $this->_preFilter($content);

            /* Reverse the nobbc markup */
            $content = preg_replace('~\[nobbc\](.+?)\[/nobbc\]~ie', 'strtr(\'$1\', array(\'&amp;#91;\' => \'[\', \'&amp;#93;\' => \']\', \'&amp;#58;\' => \':\', \'&amp;#64;\' => \'@\'))', $content);

            $content = $this->_postFilter($content);
        

        return $content;
    

    /**
     * Performs syntax highlights using geshi library to the content.
     * If it is unknown the number of blocks, use highlightContent
     * instead.
     *
     * @param string $content - The code block to parse
     * @param string $language - The language to highlight with
     * @return string Syntax Highlighted content
     * @todo Add any extra / customization styling here.
     */
    private function _highlightSyntax($contentArray)
    
        $codeCount = $contentArray[1];

        /* If the count is 2 we are working with the filter */
        if (count($contentArray) == 2) 
            $contentArray = $this->_codeMatches[$contentArray[1]];
        

        /* for default [syntax] */
        if ($contentArray[1] == "")
            $contentArray[1] = "php";

        /* Grab the language */
        $language = (isset($contentArray[1]))?$contentArray[1]:'text';

        /* Remove leading spaces to avoid problems */
        $content = ltrim($contentArray[2]);

        /* Parse the code to be highlighted */
        $geshi = new GeSHi($content, strtolower($language));
        return $geshi->parse_code();
    

    /**
     * Substitute the code blocks for formatting to be done without
     * messing up the code.
     *
     * @param array $match - Referenced array of items to substitute
     * @return string Substituted content
     */
    private function _substitute(&$match)
    
        $index = sprintf("%02d", $this->_count++);
        $this->_codeMatches[$index] = $match;
        return "----" . $this->_token . $index . "----";
    

    /**
     * Removes the code from the rest of the content to apply other filters.
     *
     * @param string $content - The content to filter out the code lines
     * @return string Content with code removed.
     */
    private function _preFilter($content)
    
        return preg_replace_callback("#\s*\[syntax=(.*?)\](.*?)\[/syntax\]\s*#siU", array($this, "_substitute"), $content);
    

    /**
     * Replaces the code after the filters have been ran.
     *
     * @param string $content - The content to replace the code lines
     * @return string Content with code re-applied.
     */
    private function _postFilter($content)
    
        /* using dashes to prevent the old filtered tag being escaped */
        return preg_replace_callback("/----\s*" . $this->_token . "(\d2)\s*----/si", array($this, "_highlightSyntax"), $content);
    

?>

【讨论】:

我希望我能+10,我一定会选择并使用这门课。谢谢。 我不得不将分隔符从/ 替换为# 的正则表达式之一,它工作得很好:) 哪一个?我会修复它,这样其他人就不会遇到同样的困惑。 请原谅格式不好,但是这个函数:private function _preFilter($content) return preg_replace_callback('#\s*\[syntax=(.*?)\](.*?)\[/syntax\]\s*#siU', array($this, "_substitute"), $content); 否则PHP会报出一堆未知的修饰符如y、b等

以上是关于实现简单正则表达式的建议(用于 bbcode/geshi 解析)的主要内容,如果未能解决你的问题,请参考以下文章

近万字正则入门方法学习正则表达式的简单方法,建议收藏!

一个简单的正则表达式解决方案,用于在 javascript 中进行数字分组和验证

用于密码验证的正则表达式

用于重命名文件的正则表达式

用于 VS 2008 无功能包的简单 C++ 正则表达式库 [关闭]

正则表达式匹配不适用于 Pyteomics 解析器的简单字符串