如何使用 PHP 在 GCIDE XML 中进行搜索

Posted

技术标签:

【中文标题】如何使用 PHP 在 GCIDE XML 中进行搜索【英文标题】:How to search inside GCIDE XML using PHP 【发布时间】:2012-05-24 15:34:47 【问题描述】:

我从其website 下载了 GCIDE(GNU 项目出版的 CIDE,即协作国际英语词典)。

该包包含各种 XML 文件。我在我的 Windows PC 中使用 Apache 运行 php。如何使用 PHP 在这些 XML 文件中搜索单词及其定义?

【问题讨论】:

您通过打开文件来执行此操作,对其中的数据执行任何您需要执行的操作(例如搜索),然后给出结果(输入处理输出 - IPO 模型)。请参阅en.wikipedia.org/wiki/IPO_Model - 是的,您可以通过编程 PHP 来实现这一点,对于 XML,请参阅 php.net/XML(也适用于 Windows)。 【参考方案1】:

您的项目引起了我的兴趣,并认为我可能会在某个时候发现它有用,因此进行了一些研究,并找到了以下code on this page。我运行了这个 php,目前我的数据库中有一个功能齐全的字典!

这是我为启动和运行它所做的一切(我将 XML 文件解压缩到包含这些文件的文件夹中名为 XML 的文件夹中)。

表的 SQL - gcide

CREATE TABLE `gcide` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `word` varchar(255) DEFAULT NULL,
  `definition` text,
  `pos` varchar(50) DEFAULT NULL,
  `fld` varchar(50) DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `word` (`word`)
) ENGINE=MyISAM

用于 gcide XML 导入的 PHP - import_gcide_xml.php

 <?php
    $connection = mysql_connect('localhost', 'root', '') or die('Could not connect to MySQL database. ' . mysql_error());
    $db = mysql_select_db('fiddle',$connection);

    mysql_query('TRUNCATE TABLE gcide') or die(mysql_error());

    $xml = array('xml/gcide_a.xml', 'xml/gcide_b.xml', 'xml/gcide_c.xml', 'xml/gcide_d.xml', 'xml/gcide_e.xml','xml/gcide_f.xml','xml/gcide_g.xml', 'xml/gcide_h.xml', 'xml/gcide_i.xml', 'xml/gcide_j.xml', 'xml/gcide_k.xml', 'xml/gcide_l.xml', 'xml/gcide_m.xml', 'xml/gcide_n.xml', 'xml/gcide_o.xml', 'xml/gcide_p.xml', 'xml/gcide_q.xml', 'xml/gcide_r.xml', 'xml/gcide_s.xml', 'xml/gcide_t.xml', 'xml/gcide_u.xml', 'xml/gcide_v.xml', 'xml/gcide_w.xml', 'xml/gcide_x.xml', 'xml/gcide_y.xml', 'xml/gcide_z.xml');
    $numberoffiles = count($xml);

    for ($i = 0; $i <= $numberoffiles-1; $i++) 
        $xmlfile = $xml[$i];
        // original file contents
        $original_file = @file_get_contents($xmlfile);
        // if file_get_contents fails to open the link do nothing
        if(!$original_file) 
        else 
            // find words in original file contents
            preg_match_all("/<hw>(.*?)<\/hw>(.*?)<def>(.*?)<\/def>/", $original_file, $results);
            $blocks = $results[0];
            // traverse blocks array
            for ($j = 0; $j <= count($blocks)-1; $j++) 
                preg_match_all("/<hw>(.*?)<\/hw>/", $blocks[$j], $wordarray);
                $words = $wordarray[0];
                $word = addslashes(strip_tags($words[0]));
                $word = preg_replace('-', ' ', $word);
                $word = preg_replace("/[^a-zA-Z0-9\s]/", "", $word);
                preg_match_all("/<def>(.*?)<\/def>/", $blocks[$j], $definitionarray);
                $definitions = $definitionarray[0];
                $definition = addslashes(strip_tags($definitions[0]));
                $definition = preg_replace('-', ' ', $definition);
                $definition = preg_replace("/[^a-zA-Z0-9\s]/", "", $definition);
                preg_match_all("/<pos>(.*?)<\/pos>/", $blocks[$j], $posarray);
                $poss = $posarray[0];
                $pos = addslashes(strip_tags($poss[0]));
                $pos = preg_replace('-', ' ', $pos);
                $pos = preg_replace("/[^a-zA-Z0-9\s]/", "", $pos);
                preg_match_all("/<fld>(.*?)<\/fld>/", $blocks[$j], $fldarray);
                $flds = $fldarray[0];
                $fld = addslashes(strip_tags($flds[0]));
                $fld = preg_replace('-', ' ', $fld);
                $fld = preg_replace("/[^a-zA-Z0-9\s]/", "", $fld);

                $insertsql = "INSERT INTO gcide (word, definition, pos, fld) VALUES ('$word', '$definition', '$pos', '$fld')";
                $insertresult = mysql_query($insertsql) or die(mysql_error());

                echo $word. " " . $definition ."\n";
            
        
    
    echo 'Done!';
?>

搜索页面的 CSS - gcide.css

body font-family:Arial, Helvetica, sans-serif; 
#search_box  padding:4px; border:solid 1px #666666; margin-bottom:15px; width:300px; height:30px; font-size:18px;-moz-border-radius: 6px;-webkit-border-radius: 6px; 
#search_results  display:none;
.word  font-weight:bold; 
.found  font-weight: bold; 
dl     font-family:serif;
dt     font-weight:bold;
dd     font-weight:normal;
.pos     font-weight: normal;
.fld     margin-right:10px;

搜索页面的 html - index.html

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html>
    <head>
        <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
        <title>PHP, jQuery search of GCIDE</title>
        <link href="gcide.css" rel="stylesheet" type="text/css"/>
        <link href="http://ajax.googleapis.com/ajax/libs/jqueryui/1.8/themes/ui-lightness/jquery-ui.css" rel="stylesheet" type="text/css"/>
        <script type="text/javascript" src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js"></script>
        <script src="http://ajax.googleapis.com/ajax/libs/jqueryui/1.8/jquery-ui.min.js"></script>
        <script type="text/javascript">
            $(function() 
                $("#search_box").keyup(function() 
                    // getting the value that user typed
                    var searchString    = $("#search_box").val();
                    // forming the queryString
                    var data            = 'search='+ searchString;
                    // if searchString is not empty
                    if(searchString) 
                        // ajax call
                        $.ajax(
                            type: "POST",
                            url: "gcide_search.php",
                            data: data,
                            beforeSend: function(html)  // this happens before actual call
                                $("#results").html('');
                                $("#search_results").show();
                                $(".word").html(searchString);
                            ,
                            success: function(html) // this happens after we get results
                                $("#results").show();
                                $("#results").append(html);
                            
                        );
                    
                    return false;
                );
            );
        </script>
    </head>
    <body>
        <div class="ui-widget-content" style="padding:10px;">
            <input id="search_box" class='search_box' type="text" />
            <div id="search_results">Search results for <span class="word"></span></div>
            <dl id="results"></dl>
        </div>
    </body>
</html>

用于 jQuery 搜索的 PHP - gcide_search.php

<?php
    if (isset($_POST['search'])) 
        $db = new pdo("mysql:host=localhost;dbname=fiddle", "root", "");
        // never trust what user wrote! We must ALWAYS sanitize user input
        $word = mysql_real_escape_string($_POST['search']);
        $query = "SELECT * FROM gcide WHERE word LIKE '" . $word . "%' ORDER BY word LIMIT 10";
        $result = $db->query($query);
        $end_result = '';
        if ($result) 
            while ( $r = $result->fetch(PDO::FETCH_ASSOC) ) 
                $end_result                 .= '<dt>' . $r['word'];
                if($r['pos'])   $end_result .= ',&nbsp;<span class="pos">'.$r['pos'].'</span>';
                $end_result                 .= '</dt>';
                $end_result                 .= '<dd>';
                if($r['fld'])   $end_result .= '<span class="fld">('.$r['fld'].')</span>';
                $end_result                 .= $r['definition'];
                $end_result                 .= '</dd>';
            
        
        if(!$end_result) 
            $end_result = '<dt><div class="ui-state-highlight ui-corner-all" style="margin-top: 20px; padding: 0 .7em;">
            <p><span class="ui-icon ui-icon-info" style="float: left; margin-right: .3em;"></span>
            No results found.</p>
            </div></dt>';
        
        echo $end_result;
    
?>

【讨论】:

np...它接近于我需要计划的其他事情,所以值得花时间 - 乐于分享。 这不就是获取每个硬件的第一个定义吗?【参考方案2】:

不久前我碰巧偶然发现了这个PHP and AJAX example——它可能会让你指向正确的方向,但是有了这么多数据,你可能需要考虑将它导入数据库并使用它的搜索功能——那就是它们的设计目的是什么,而性能可能会成为处理 XML 文件的那么多纯文本的问题。查看this answer 以了解 XML 导入。还发现了这个关于importing GCIDE XML的SO答案。

【讨论】:

如何导入? php myadmin 可以吗? 我不使用 phpmyadmin,编辑了我的答案以包含导入 XML 的链接,但您可能需要在 PHP 中编写脚本来执行导入。将是一个相当简单的脚本,因为它是相当简单的数据。无论哪种方式,该示例都可以工作,因为您可以很容易地将实际搜索从 XML 搜索调整为 SQL 语句。

以上是关于如何使用 PHP 在 GCIDE XML 中进行搜索的主要内容,如果未能解决你的问题,请参考以下文章

您如何在 PHP 中解析和处理 HTML/XML?

您如何在 PHP 中解析和处理 HTML/XML?

您如何在 PHP 中解析和处理 HTML/XML?

您如何在 PHP 中解析和处理 HTML/XML?

php中使用ajax进行前后端json数据交互

如何根据 XML 节点中的记录在 PHP 中编辑大型 XML 文件