Encode::Guess 可以从 iso-8859-1 中分辨出 utf-8 吗?

Posted

技术标签:

【中文标题】Encode::Guess 可以从 iso-8859-1 中分辨出 utf-8 吗?【英文标题】:Can Encode::Guess tell utf-8 from iso-8859-1? 【发布时间】:2014-04-11 14:16:58 【问题描述】:

我有一个字符串 $data,用 utf-8 编码。我假设我不知道这个字符串是 utf-8 还是 iso-8859-1。我想使用 Perl Encode::Guess 模块来查看它是一个还是另一个。我无法弄清楚这个模块是如何工作的。

我尝试了以下四种方法(来自http://perldoc.perl.org/Encode/Guess.html):

use Encode::Guess qw/utf8 latin1/;

my $decoder = guess_encoding($data);

print "$decoder\n";

结果: iso-8859-1 或 utf8

use Encode::Guess qw/utf8 latin1/;

my $enc = guess_encoding($data, qw/utf8 latin1/);
ref($enc) or die "Can't guess: $enc";
my $utf8 = $enc->decode($data); 

print "$utf8\n";

结果:无法猜测:encodage-windows.pl 第 25 行第 18110 行的 iso-8859-1 或 utf8。

use Encode::Guess qw/utf8 latin1/;

my $decoder = Encode::Guess->guess($data);
die $decoder unless ref($decoder);
my $utf8 = $decoder->decode($data);

print "$utf8\n";

结果: encodage-windows.pl 第 30 行第 18110 行中的 iso-8859-1 或 utf8。

use Encode::Guess qw/utf8 latin1/;

my $utf8 = Encode::decode("Guess", $data);

print "$utf8\n";

结果: iso-8859-1 或 utf8 位于 /usr/local/lib/perl5/Encode.pm 第 175 行。

我的第一个问题是:我应该使用这些方法中的哪一种(如果有的话)? 我的第二个问题是:我应该做些什么改变才能完成这项工作?

【问题讨论】:

使用 Encode::Guess 太过分了。见***.com/a/22868803/589924 @ikegami 在 utf-8 与 latin1 的情况下是过度杀伤,还是一般的过度杀伤?使用模块似乎比尝试解码更简单,但我可能弄错了。 仅包含 ASCII 字符(范围 0..127)的文本是有效的 ASCII、有效的 Latin-1 和有效的 UTF-8。 @kormak,不,这不适用于任意编码,仅适用于您不必根据内容猜测的编码。 【参考方案1】:

我通常一次检查一个可能的编码,像这样

my $decoder = guess_encoding($data, 'utf8');
$decoder = guess_encoding($data, 'iso-8859-1') unless ref $decoder;
die $decoder unless ref $decoder;

printf "Decoding as %s\n\n", $decoder->name;
$data = $decoder->decode($data);

如果可能,它会选择 UTF-8,否则它会尝试 ISO-8859-1,要么选择那个,要么选择错误,所以对于每种编码,它都变成了一个简单的是/否结果,并且没有办法提出两种可能的结果(这是您得到的错误)。

【讨论】:

谢谢,效果很好!你的解释让我现在更清楚了。 :) @kormak:我很乐意提供帮助。不过,您可能要小心,因为如果编码不明确,它只会使用 UTF-8。在您的情况下,这可能不是正确的做法,也许您可​​以检查其他一些线索

以上是关于Encode::Guess 可以从 iso-8859-1 中分辨出 utf-8 吗?的主要内容,如果未能解决你的问题,请参考以下文章

获取charset字符串的编码器/解码器

史上最难PHPer笔试题,40分就能月薪过万!

php解析xml,并将xml转换为层级数组

java中 El表达式中文乱码

DB2的JDBC连接字符串有数据库字符集编码的配置参数吗

java WEB,项目部署到服务器,IE浏览器页面中文有乱码