强制 XDocument 使用 UTF-8 编码写入字符串

Posted

技术标签:

【中文标题】强制 XDocument 使用 UTF-8 编码写入字符串【英文标题】:Force XDocument to write to String with UTF-8 encoding 【发布时间】:2011-04-21 18:24:32 【问题描述】:

我希望能够使用声明和 UTF-8 编码将 XML 写入字符串。这似乎很难完成。

我已经阅读了一些内容并尝试了一些流行的答案,但它们都有问题。我当前的代码正确输出为 UTF-8,但不保持 XDocument 的原始格式(即缩进/空格)!

谁能给点建议?

XDocument xml = new XDocument(new XDeclaration("1.0", "utf-8", "yes"), xelementXML);

MemoryStream ms = new MemoryStream();
using (XmlWriter xw = new XmlTextWriter(ms, Encoding.UTF8))

    xml.Save(xw);
    xw.Flush();

    StreamReader sr = new StreamReader(ms);
    ms.Seek(0, SeekOrigin.Begin);

    String xmlString = sr.ReadToEnd();

XML 要求格式与.ToString() 的格式相同,即

<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<root>
    <node>blah</node>
</root>

我现在看到的是

<?xml version="1.0" encoding="utf-8" standalone="yes"?><root><node>blah</node></root>

更新 我已经设法通过添加XmlTextWriter 设置来实现它...不过看起来很笨拙!

MemoryStream ms = new MemoryStream();
XmlWriterSettings settings = new XmlWriterSettings();
settings.Encoding = Encoding.UTF8;
settings.ConformanceLevel = ConformanceLevel.Document;
settings.Indent = true;
using (XmlWriter xw = XmlTextWriter.Create(ms, settings))

    xml.Save(xw);
    xw.Flush();

    StreamReader sr = new StreamReader(ms);
    ms.Seek(0, SeekOrigin.Begin);
    String blah = sr.ReadToEnd();

【问题讨论】:

什么“格式化”?你还没说格式化! 如果您只是在XDocumentXElement 上使用.ToString(),您会得到通常的空格/格式 请提供一个示例输入文档,以便我们测试答案。 @John - 完成...这只是我在稍后对 XML 进行哈希处理时所困扰的空格格式,因此需要 100% 确保输出是一致的。 我提供了一种相当简单的方法。 【参考方案1】:

试试这个:

using System;
using System.IO;
using System.Text;
using System.Xml.Linq;

class Test

    static void Main()
    
        XDocument doc = XDocument.Load("test.xml",
                                       LoadOptions.PreserveWhitespace);
        doc.Declaration = new XDeclaration("1.0", "utf-8", null);
        StringWriter writer = new Utf8StringWriter();
        doc.Save(writer, SaveOptions.None);
        Console.WriteLine(writer);
    

    private class Utf8StringWriter : StringWriter
    
        public override Encoding Encoding  get  return Encoding.UTF8;  
    

当然,您还没有向我们展示您是如何构建文档的,这使得测试变得困难......我刚刚尝试使用手工构建的 XDocument 并且其中也包含相关的空格。

【讨论】:

工作愉快,谢谢 - 如果不从 StringWriter 继承,就没有办法对编码进行排序吗? @Chris:可能有某种方法可以让 TextWriter 重载以忽略 TextWriter 宣传的编码,但我发现这非常简单破解完成工作。 (你只需要在一个地方......) 是的,我喜欢它——它比我想出的方法要好得多。谢谢【参考方案2】:

试试 XmlWriterSettings:

XmlWriterSettings xws = new XmlWriterSettings();
xws.OmitXmlDeclaration = false;
xws.Indent = true;

然后像这样传递下去

using (XmlWriter xw = XmlWriter.Create(sb, xws))

【讨论】:

【参考方案3】:

另见https://***.com/a/3288376/1430535

return xdoc.Declaration.ToString() + Environment.NewLine + xdoc.ToString();

【讨论】:

以上是关于强制 XDocument 使用 UTF-8 编码写入字符串的主要内容,如果未能解决你的问题,请参考以下文章

强制 XDocument 中的空元素展开

从任何编码强制字符串为 UTF-8

如何防止XDocument添加XML版本和编码信息

VBA 强制 SAX 编码 UTF-8 和缩进

强制从 US-ASCII 编码为 UTF-8 (iconv)

nodejs+mysql,链接mysql处理数据强制使用UTF-8编码避免乱码。