PHP htmlentities 并以 xml 格式保存数据
Posted
技术标签:
【中文标题】PHP htmlentities 并以 xml 格式保存数据【英文标题】:PHP htmlentities and saving the data in xml format 【发布时间】:2012-09-08 12:03:51 【问题描述】:我正在尝试使用以下 php 脚本将一些数据保存到 xml 文件中:
<?php
$string = '<a href="google.com/maps">Go to google maps</a> and some special characters ë è & ä etc.';
$string = htmlentities($string, ENT_QUOTES, 'UTF-8');
$doc = new DOMDocument('1.0', 'UTF-8');
$doc->preserveWhiteSpace = false;
$doc->formatOutput = true;
$root = $doc->createElement('top');
$root = $doc->appendChild($root);
$title = $doc->createElement('title');
$title = $root->appendChild($title);
$id = $doc->createAttribute('id');
$id->value = '1';
$text = $title->appendChild($id);
$text = $doc->createTextNode($string);
$text = $title->appendChild($text);
$doc->save('data.xml');
echo 'data saved!';
?>
我正在使用 htmlentities 将所有字符串转换为 html 格式,如果我忽略它,特殊字符将不会被转换为 html 格式。这是输出:
<?xml version="1.0" encoding="UTF-8"?>
<top>
<title id="1">&lt;a href=&quot;google.com/maps&quot;&gt;Go to google maps&lt;/a&gt; and some special characters &euml; &egrave; &amp; &auml; etc.</title>
</top>
html标签的&符号得到一个双html代码:&amp;lt;
和一个&符号变成:&amp;amp;
这是正常行为吗?或者我怎样才能防止这种情况发生?看起来像双重编码。
【问题讨论】:
【参考方案1】:尝试删除该行:
$string = htmlentities($string, ENT_QUOTES, 'UTF-8');
因为传递给 createTextNode() 的文本无论如何都被转义了。
更新: 如果要转义 utf-8 字符。您可以离开该行并尝试直接在 createElement() 中添加 $string。
例如:
$title = $doc->createElement('title', $string);
$title = $root->appendChild($title);
在 PHP documentation 中,它表示 $string 不会被转义。我没试过,但应该可以。
【讨论】:
当我删除该行时,特殊字符不会转换为 HTML 代码。就像 ë 必须变成 ë如果我不写那行,你知道该怎么做吗? 感谢您的回复!你的权利,如果我直接添加它,它不会转义字符串。但是现在我有一个 XML Parsing Error: undefined entity 因为它无法保存 ë在字符串中。 我刚刚在我的服务器上使用这个code 进行了测试,它给了我这个result。显然它有效,只有引号不会被转义。 当我从服务器下载文件并打开它时它可以工作,但是当我在谷歌浏览器中加载它时出现错误:第 3 行第 107 列的错误:未定义实体'euml'。 感谢博扬的所有帮助!除了谷歌浏览器(可能还有其他浏览器),它现在可以工作了。这对我的项目来说已经足够了。【参考方案2】:是htmlentities 将&amp;
变成&amp;
处理 xml 数据时,您不应使用 htmlentities,因为 DOMDocument 将处理 &amp;
而不是 &amp;
。
从 php 5.3 开始,默认编码为 UTF-8,因此无需转换为 UTF-8。
【讨论】:
感谢 DOMDocument 的解释!【参考方案3】:这一行:
$string = htmlentities($string, ENT_QUOTES, 'UTF-8');
... 将字符串编码为 HTML。
这一行:
$text = $doc->createTextNode($string);
... 将您的 HTML 字符串编码为 XML。
这为您提供了 HTML 字符串的 XML 表示。解析 XML 后,您将返回 HTML。
我怎样才能防止这种情况发生?
如果您的目标是在 XML 文档中存储一些文本。删除将其编码为 HTML 的行。
看起来像双重编码。
差不多。它被编码两次,它只是对两次传递中的每一次使用不同(尽管非常相似)的编码方法。
【讨论】:
以上是关于PHP htmlentities 并以 xml 格式保存数据的主要内容,如果未能解决你的问题,请参考以下文章
php htmlentities和htmlspecialchars 的区别
PHP htmlentities 和 htmlspecialchars的区别
PHP Htmlentities函数未使用PDO将字符串编码为数据库
将数据从 js 发送到 php、php 到 mysql 以及 REST json 响应时所需的正确编码/转义/htmlentities 是啥