PHP Mailparse 阻塞非 ASCII 字符
Posted
技术标签:
【中文标题】PHP Mailparse 阻塞非 ASCII 字符【英文标题】:PHP Mailparse chokes on non-ascii characters 【发布时间】:2014-12-16 00:10:57 【问题描述】:我正在使用 Mailparse 解析电子邮件并将其存储在 mysql 数据库中。电子邮件直接通过管道传输到 php 脚本。超过 99% 的系统电子邮件都被正确解析。但是,我注意到一些电子邮件被截断了。问题似乎是邮件标题和正文之间的 unicode 字符...
Delivered-To: nkafq123@gmail.com
Received: by 10.152.1.193 with SMTP id 1csp311490lao;
Mon, 20 Oct 2014 05:33:31 -0700 (PDT)
Return-Path: <lunalono@telia.com>
Received: from vps4596.inmotionhosting.com (vps4596.inmotionhosting.com. [74.124.217.238])
by mx.google.com with ESMTPS id fb7si7786786pab.30.2014.10.20.05.33.30
for <nkafq123@gmail.com>
(version=TLSv1 cipher=RC4-SHA bits=128/128);
Mon, 20 Oct 2014 05:33:30 -0700 (PDT)
Message-ID: <14FBD481E1074C79A706F0C071746F3D@acerDator>
From: =?utf-8?Q?Annelen_geretschl=C3=A4ger?= <lunalono@telia.com>
To: "neokio" <nkafq123@gmail.com>
References: <CAEMnOreG=99=qx-ONib=g+3mCQnUHC2kgdu2uBdSav5WP303BA@mail.gmail.com>
In-Reply-To: <CAEMnOreG=99=qx-ONib=g+3mCQnUHC2kgdu2uBdSav5WP303BA@mail.gmail.com>
Subject: This message will be broken
Date: Mon, 20 Oct 2014 14:33:24 +0200
MIME-Version: 1.0
Content-Type: multipart/alternative;
boundary="----=_NextPart_000_0018_01CFEC72.CE424470"
X-Priority: 3
X-MSMail-Priority: Normal
Importance: Normal
X-Mailer: Microsoft Windows Live Mail 14.0.8117.416
X-MimeOLE: Produced By Microsoft MimeOLE V14.0.8117.416
X-Source:
X-Source-Args:
X-Source-Dir:
Det här är ett flerdelat meddelande i MIME-format.
------=_NextPart_000_0018_01CFEC72.CE424470
Content-Type: text/plain;
charset="utf-8"
Content-Transfer-Encoding: quoted-printable
This is a test ... the above "Det här är" chunk will be cut off at "Det h", and nothing else will arrive.
------=_NextPart_000_0018_01CFEC72.CE424470
上面的内容将在标题之后被裁剪,到达的只是“Det h”。不知何故,当非 ascii 字符 (ü) 位于标头或多部分包装器之外时,它们会导致 mailparse 阻塞。这可能是客户端使用的 5 年前的瑞典版 Microsoft Windows Live Mail,弄乱了标题等,但这不是借口,我需要能够接收它。
我正在运行 PHP 5.4.30,它在 php.ini 中有 default_charset = "utf-8"
。但我注意到phpinfo()
默认有mailparse.def_charset = "us-ascii"
,即使 php.ini 中没有配置它。添加该行并将其设置为“utf8”后,phpinfo()
正确显示了 utf-8。但是错误仍然存在。我没有想法。
关于如何处理这个错误有什么建议吗?
【问题讨论】:
嗯,很有趣。我还在编写一个邮件列表引擎,它使用mailparse
解析源代码。是的,它在那个地方窒息了..也会尝试找到解决方案)
我有一个问题 - 你从哪里得到的信息?它不符合标准,因为 quoted-printable
文本的版本应该是 This is a test ... the above "Det h=C3=A4r =C3=A4r" chunk will be cut off at "Det h", and nothing else will arrive.
- 试试它而不是你的字符串。
是的,输出说明相同 - Warning: mailparse_msg_extract_part() - filter conversion failed. Input message is probably incorrectly encoded
。您可以根据每个部分的mailparse_msg_get_part_data
标题中的数据直接从文件中提取正文,但您必须自己解码。
您对编码是正确的,我只是在其中添加了它作为参考问题的注释。正如你所指出的那样:)我在这里仍然不知所措。在我看来,解析器的工作是更加容忍格式错误的 MIME 结构,尤其是像 unicode 变体这样简单的东西。这确实只发生在收到的电子邮件中的一小部分……那些使用有问题的电子邮件客户端(在这种情况下为 Microsoft Windows Live)的电子邮件。但它仍然太高而无法忽视。我很高兴你看到了错误,这告诉我这不是我的实现有问题:)
唯一的方法可能是按原样提取消息部分的内容(这很容易),如果设置了相应的编码,则使用 quoted_printable_decode
函数 - 它不关心与编码。
【参考方案1】:
只是我在cmets中提到的一个想法...这部分与message的部分有关。如果由于某种原因解码失败,则内容将“按原样”返回。您可以尝试根据$headers['transfer-encoding'];
对其进行解码或保持不变。 $email
是带有标头的完整消息源。 $section
是mailparse_msg_get_part
获取的数据(manual, examples, google)
$headers = mailparse_msg_get_part_data($section);
$content = '';
set_error_handler(function() use(&$content, $headers, $email)
$start = $headers['starting-pos-body'];
$end = $headers['ending-pos-body'];
$content = substr($email, $start, $end - $start);
);
ob_start();
mailparse_msg_extract_part($section, $email);
$body = ob_get_clean();
restore_error_handler();
if (!empty($content)) $body = $content;
结果(经过一些操作,因为我只留下了我真正需要的标题)
["charset"]=> string(5) "utf-8" ["content-charset"]=> string(5) "utf-8" ["content-type"]=> string(10) "text/plain" ["content"]=> string(108) "This is a test ... the above "Det här är" chunk will be cut off at "Det h", and nothing else will arrive. "
【讨论】:
以上是关于PHP Mailparse 阻塞非 ASCII 字符的主要内容,如果未能解决你的问题,请参考以下文章
PHP 警告:PHP 启动:无法加载动态库 '\xampp\php\ext\php_mailparse.dll' - 找不到指定的模块
如何在不使用 Mailparse PHP 扩展的情况下解析电子邮件