Node.js与HTTP响应主体的unicode问题

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Node.js与HTTP响应主体的unicode问题相关的知识,希望对你有一定的参考价值。

HTTP请求的响应主体使用本机“http”模块,显示unicode字符的问号字符,而不是实际值。这是我正在运行的基本代码片段。

var http = require('http');
var google = http.createClient(80, 'www.google.it');
var request = google.request('GET', '/',
{
 'host': 'www.google.it',
}
  );
request.end();
request.on('response', function (response) {
  response.setEncoding('utf8');
  response.on('data', function (chunk) {
    console.log(chunk);
  });
});

在回复中,有一个以“Pubblicit”开头的特定单词。它的最后一封信是一个奇怪的角色,向我展示了一个问号。这个词应该是Pubblicità,而是显示为Pubblicit?。

我也尝试使用.toString()输出数据:

console.log(chunk.toString());

要么

console.log(chunk.toString('utf8'));

但我得到的结果相同。

任何的想法?

答案

原因可能是,如果我们没有在请求标题上指定“googleKnownAsUTF8OK”用户代理,谷歌会响应内容类型为ISO-8859-1的html文档(对于旧浏览器,机器人?我不知道),所以解码“二进制”的响应缓冲区是正确的。

但是,如果我们通过utf8解码ISO-8859-1编码的缓冲区,那么字节0xe0(à)意味着“连续形成一个3字节的字符”,在我们的例子中它是一个格式错误的字符,因此有一些意想不到的字符(显示取决于环境)。

我们可以尝试“Mozilla / 5.0”作为用户代理的价值。祝好运。

另一答案

我设置response.setEncoding('binary');,它的工作原理。不知道为什么。

参考:http://groups.google.com/group/nodejs/browse_thread/thread/3bd3935b1f42a5f4?pli=1

另一答案

我设置了response.setEncoding('binary');它的工作原理。不知道为什么。

参考:http://groups.google.com/group/nodejs/browse_thread/thread/3bd3935b1f42a5f4?pli=1

在我的情况下,由于旧网页的windows-1252字符集,我有一些错误的字符。

我只是在请求选项中使用了encode:'binary'而且它工作正常!

以上是关于Node.js与HTTP响应主体的unicode问题的主要内容,如果未能解决你的问题,请参考以下文章

Node.js之HTTP请求与响应

node.js中HTTP请求与响应处理

Node JS POST请求返回未定义的主体

如何清理 Node.js 和 Typescript 中的响应正文

“使用 Node.js 直接响应” - 使用不同的 Node.js 进程(不同于主进程)发送 HTTP 响应

node.js http服务器,检测客户端何时断开连接