读取 xml 时出现地址越界错误
Posted
技术标签:
【中文标题】读取 xml 时出现地址越界错误【英文标题】:Address Out of bounds error when reading xml 【发布时间】:2016-01-19 08:55:37 【问题描述】:我在使用 libxml 解析文件时遇到了一个奇怪的段错误。当我将它编译为 32 位应用程序时,此代码以前可以工作。我将其更改为 64 位应用程序,但它停止工作。
段错误出现在 "if (xmlStrcmp(cur->name, (const xmlChar *) "servers"))"
cur->name 是一个 const xmlChar *,它指向一个地址,表明它的出界。但是当我调试并转到那个内存位置时,那个数据是正确的。
int XmlGetServers()
xmlDocPtr doc;
xmlNodePtr cur;
doc = xmlParseFile("Pin.xml");
if (doc == NULL)
std::cout << "\n Pin.xml not parsed successfully." << std::endl;
return -1;
cur = xmlDocGetRootElement(doc);
if (cur == NULL)
std::cout << "\n Pin.xml is empty document." << std::endl;
xmlFreeDoc(doc);
return -1;
if (xmlStrcmp(cur->name, (const xmlChar *) "servers"))
std::cout << "\n ERROR: Pin.xml of the wrong type, root node != servers." << std::endl;
xmlFreeDoc(doc);
return -1;
在cur被初始化之前,name参数是
Name : name
Details:0xed11f72000007fff <Address 0xed11f72000007fff out of bounds>
cur初始化后name参数为
Name : name
Details:0x64c43000000000 <Address 0x64c43000000000 out of bounds>
引用的 XML 文件
<?xml version="1.0"?>
<servers>
<server_info>
<server_name>Server1</server_name>
<server_ip>127.0.0.1</server_ip>
<server_data_port>9000</server_data_port>
</server_info>
<server_info>
<server_name>Server2</server_name>
<server_ip>127.0.0.1</server_ip>
<server_data_port>9001</server_data_port>
</server_info>
</servers>
系统:
操作系统:Redhat Enterprise Linux 6.4 64 位
GCC:4.4.7-3
包:libxml2-2.7.6-8.el6_3.4.x86_64
【问题讨论】:
你有64位版本的libxml吗? 是 libxml2-2.7.6-8.el6_3.4.x86_64 您是否尝试过像 Sam Varshavchik 那样使用 valgrind 运行应用程序? 【参考方案1】:我按原样获取了您的代码,并添加了:
#include <libxml/parser.h>
#include <iostream>
然后将该函数重命名为 main() 并在 x86-64 Fedora 22 上编译它,它具有 libxml2 2.9.2
生成的代码使用示例文件成功运行,没有段错误。甚至valgrind 也没有发现内存访问冲突。作为证明,生成的缩写 strace 日志如下:
stat("Pin.xml", st_mode=S_IFREG|0644, st_size=362, ...) = 0
stat("Pin.xml", st_mode=S_IFREG|0644, st_size=362, ...) = 0
stat("Pin.xml", st_mode=S_IFREG|0644, st_size=362, ...) = 0
open("Pin.xml", O_RDONLY) = 3
lseek(3, 0, SEEK_CUR) = 0
read(3, "<?xml version=\"1.0\"?>\n\n<servers>\n\n<server_info>\n\n <server_name>Server1</server_name>\n\n <server_ip>127.0.0.1</server_ip> \n\n <server_data_port>9000</server_data_port> \n\n</server_info>\n\n<server_info>\n\n <server_name>Server2</server_name> \n\n <ser"..., 8192) = 362
read(3, "", 7830) = 0
getcwd("/tmp", 1024) = 5
close(3) = 0
exit_group(0) = ?
+++ exited with 0 +++
虽然这是 Fedora,带有稍微新的 libxml2 和 gcc,但这种差异并不重要。这里的答案是这里显示的代码没有任何问题。我看不出有什么问题。
但它显然是一个更大的应用程序的一部分,并且您的内存损坏发生在应用程序的其他部分,并且只有当您的应用程序执行到该部分时才会显现出来。
关于 C++ 的事情是,仅仅因为代码在某个特定点崩溃,并不意味着这一特定代码行就是问题所在。想出一个简单的例子应该不难:
#include <iostream>
#include <cstring>
int main()
char foo[3];
strcpy(foo, "FoobarbazXXXXXXXXXXXXXXXXXXXXXX");
for (int i=0; i<100; i++)
std::cout << i << std::endl;
return 0;
这里的错误显然出现在strcpy
行中。但是代码会运行得很好,打印从 0 到 99 的 100 个数字,并在 main() 返回时崩溃。但是,很明显,“返回 0”并不是 bug 所在。
这类似于您的应用程序正在发生的事情。在某些时候会发生某种内存损坏,在您的代码尝试解析您的 XML 文件之前,这不会对代码执行产生实质性影响。
欢迎使用 C++。
【讨论】:
谢谢,我没想到问题可能来自其他地方。只是快速跟进,有没有办法重新编译代码以更改发生内存冲突的点? 破坏内存的问题是结果是不可预测的,并且没有任何规则或指导方针可以遵循。确实,没有简单的、按数字绘制、配方或流程来追踪和定位真正的错误。在这种情况下,我尝试的典型做法是使用静态分析工具(如 valgrind),或临时更改代码逻辑以跳过通常执行的大部分代码,以查看内存损坏是否消失。这一切都归结为经验、知识和对 CPU 如何运行代码以及应用程序如何工作的理解。【参考方案2】:问题是我们在代码中使用了#pragma pack(1), 这意味着 DOMParser 中的布尔值被压缩到 1 个字节,而 Xerces 没有 #pragma 打包并获得 4 个字节的默认打包。
【讨论】:
以上是关于读取 xml 时出现地址越界错误的主要内容,如果未能解决你的问题,请参考以下文章