如何使用 PHP 在 GCIDE XML 中进行搜索
Posted
技术标签:
【中文标题】如何使用 PHP 在 GCIDE XML 中进行搜索【英文标题】:How to search inside GCIDE XML using PHP 【发布时间】:2012-05-24 15:34:47 【问题描述】:我从其website 下载了 GCIDE(GNU 项目出版的 CIDE,即协作国际英语词典)。
该包包含各种 XML 文件。我在我的 Windows PC 中使用 Apache 运行 php。如何使用 PHP 在这些 XML 文件中搜索单词及其定义?
【问题讨论】:
您通过打开文件来执行此操作,对其中的数据执行任何您需要执行的操作(例如搜索),然后给出结果(输入处理输出 - IPO 模型)。请参阅en.wikipedia.org/wiki/IPO_Model - 是的,您可以通过编程 PHP 来实现这一点,对于 XML,请参阅 php.net/XML(也适用于 Windows)。 【参考方案1】:您的项目引起了我的兴趣,并认为我可能会在某个时候发现它有用,因此进行了一些研究,并找到了以下code on this page。我运行了这个 php,目前我的数据库中有一个功能齐全的字典!
这是我为启动和运行它所做的一切(我将 XML 文件解压缩到包含这些文件的文件夹中名为 XML 的文件夹中)。
表的 SQL - gcide
CREATE TABLE `gcide` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`word` varchar(255) DEFAULT NULL,
`definition` text,
`pos` varchar(50) DEFAULT NULL,
`fld` varchar(50) DEFAULT NULL,
PRIMARY KEY (`id`),
KEY `word` (`word`)
) ENGINE=MyISAM
用于 gcide XML 导入的 PHP - import_gcide_xml.php
<?php
$connection = mysql_connect('localhost', 'root', '') or die('Could not connect to MySQL database. ' . mysql_error());
$db = mysql_select_db('fiddle',$connection);
mysql_query('TRUNCATE TABLE gcide') or die(mysql_error());
$xml = array('xml/gcide_a.xml', 'xml/gcide_b.xml', 'xml/gcide_c.xml', 'xml/gcide_d.xml', 'xml/gcide_e.xml','xml/gcide_f.xml','xml/gcide_g.xml', 'xml/gcide_h.xml', 'xml/gcide_i.xml', 'xml/gcide_j.xml', 'xml/gcide_k.xml', 'xml/gcide_l.xml', 'xml/gcide_m.xml', 'xml/gcide_n.xml', 'xml/gcide_o.xml', 'xml/gcide_p.xml', 'xml/gcide_q.xml', 'xml/gcide_r.xml', 'xml/gcide_s.xml', 'xml/gcide_t.xml', 'xml/gcide_u.xml', 'xml/gcide_v.xml', 'xml/gcide_w.xml', 'xml/gcide_x.xml', 'xml/gcide_y.xml', 'xml/gcide_z.xml');
$numberoffiles = count($xml);
for ($i = 0; $i <= $numberoffiles-1; $i++)
$xmlfile = $xml[$i];
// original file contents
$original_file = @file_get_contents($xmlfile);
// if file_get_contents fails to open the link do nothing
if(!$original_file)
else
// find words in original file contents
preg_match_all("/<hw>(.*?)<\/hw>(.*?)<def>(.*?)<\/def>/", $original_file, $results);
$blocks = $results[0];
// traverse blocks array
for ($j = 0; $j <= count($blocks)-1; $j++)
preg_match_all("/<hw>(.*?)<\/hw>/", $blocks[$j], $wordarray);
$words = $wordarray[0];
$word = addslashes(strip_tags($words[0]));
$word = preg_replace('-', ' ', $word);
$word = preg_replace("/[^a-zA-Z0-9\s]/", "", $word);
preg_match_all("/<def>(.*?)<\/def>/", $blocks[$j], $definitionarray);
$definitions = $definitionarray[0];
$definition = addslashes(strip_tags($definitions[0]));
$definition = preg_replace('-', ' ', $definition);
$definition = preg_replace("/[^a-zA-Z0-9\s]/", "", $definition);
preg_match_all("/<pos>(.*?)<\/pos>/", $blocks[$j], $posarray);
$poss = $posarray[0];
$pos = addslashes(strip_tags($poss[0]));
$pos = preg_replace('-', ' ', $pos);
$pos = preg_replace("/[^a-zA-Z0-9\s]/", "", $pos);
preg_match_all("/<fld>(.*?)<\/fld>/", $blocks[$j], $fldarray);
$flds = $fldarray[0];
$fld = addslashes(strip_tags($flds[0]));
$fld = preg_replace('-', ' ', $fld);
$fld = preg_replace("/[^a-zA-Z0-9\s]/", "", $fld);
$insertsql = "INSERT INTO gcide (word, definition, pos, fld) VALUES ('$word', '$definition', '$pos', '$fld')";
$insertresult = mysql_query($insertsql) or die(mysql_error());
echo $word. " " . $definition ."\n";
echo 'Done!';
?>
搜索页面的 CSS - gcide.css
body font-family:Arial, Helvetica, sans-serif;
#search_box padding:4px; border:solid 1px #666666; margin-bottom:15px; width:300px; height:30px; font-size:18px;-moz-border-radius: 6px;-webkit-border-radius: 6px;
#search_results display:none;
.word font-weight:bold;
.found font-weight: bold;
dl font-family:serif;
dt font-weight:bold;
dd font-weight:normal;
.pos font-weight: normal;
.fld margin-right:10px;
搜索页面的 html - index.html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<title>PHP, jQuery search of GCIDE</title>
<link href="gcide.css" rel="stylesheet" type="text/css"/>
<link href="http://ajax.googleapis.com/ajax/libs/jqueryui/1.8/themes/ui-lightness/jquery-ui.css" rel="stylesheet" type="text/css"/>
<script type="text/javascript" src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js"></script>
<script src="http://ajax.googleapis.com/ajax/libs/jqueryui/1.8/jquery-ui.min.js"></script>
<script type="text/javascript">
$(function()
$("#search_box").keyup(function()
// getting the value that user typed
var searchString = $("#search_box").val();
// forming the queryString
var data = 'search='+ searchString;
// if searchString is not empty
if(searchString)
// ajax call
$.ajax(
type: "POST",
url: "gcide_search.php",
data: data,
beforeSend: function(html) // this happens before actual call
$("#results").html('');
$("#search_results").show();
$(".word").html(searchString);
,
success: function(html) // this happens after we get results
$("#results").show();
$("#results").append(html);
);
return false;
);
);
</script>
</head>
<body>
<div class="ui-widget-content" style="padding:10px;">
<input id="search_box" class='search_box' type="text" />
<div id="search_results">Search results for <span class="word"></span></div>
<dl id="results"></dl>
</div>
</body>
</html>
用于 jQuery 搜索的 PHP - gcide_search.php
<?php
if (isset($_POST['search']))
$db = new pdo("mysql:host=localhost;dbname=fiddle", "root", "");
// never trust what user wrote! We must ALWAYS sanitize user input
$word = mysql_real_escape_string($_POST['search']);
$query = "SELECT * FROM gcide WHERE word LIKE '" . $word . "%' ORDER BY word LIMIT 10";
$result = $db->query($query);
$end_result = '';
if ($result)
while ( $r = $result->fetch(PDO::FETCH_ASSOC) )
$end_result .= '<dt>' . $r['word'];
if($r['pos']) $end_result .= ', <span class="pos">'.$r['pos'].'</span>';
$end_result .= '</dt>';
$end_result .= '<dd>';
if($r['fld']) $end_result .= '<span class="fld">('.$r['fld'].')</span>';
$end_result .= $r['definition'];
$end_result .= '</dd>';
if(!$end_result)
$end_result = '<dt><div class="ui-state-highlight ui-corner-all" style="margin-top: 20px; padding: 0 .7em;">
<p><span class="ui-icon ui-icon-info" style="float: left; margin-right: .3em;"></span>
No results found.</p>
</div></dt>';
echo $end_result;
?>
【讨论】:
np...它接近于我需要计划的其他事情,所以值得花时间 - 乐于分享。 这不就是获取每个硬件的第一个定义吗?【参考方案2】:不久前我碰巧偶然发现了这个PHP and AJAX example——它可能会让你指向正确的方向,但是有了这么多数据,你可能需要考虑将它导入数据库并使用它的搜索功能——那就是它们的设计目的是什么,而性能可能会成为处理 XML 文件的那么多纯文本的问题。查看this answer 以了解 XML 导入。还发现了这个关于importing GCIDE XML的SO答案。
【讨论】:
如何导入? php myadmin 可以吗? 我不使用 phpmyadmin,编辑了我的答案以包含导入 XML 的链接,但您可能需要在 PHP 中编写脚本来执行导入。将是一个相当简单的脚本,因为它是相当简单的数据。无论哪种方式,该示例都可以工作,因为您可以很容易地将实际搜索从 XML 搜索调整为 SQL 语句。以上是关于如何使用 PHP 在 GCIDE XML 中进行搜索的主要内容,如果未能解决你的问题,请参考以下文章