在 Swift 中解码引用的可打印消息

Posted

技术标签:

【中文标题】在 Swift 中解码引用的可打印消息【英文标题】:Decoding quoted-printable messages in Swift 【发布时间】:2015-11-18 00:33:21 【问题描述】:

我有一个带引号的可打印字符串,例如“成本为 =C2=A31,000”。如何将其转换为“成本为 1,000 英镑”。

我现在只是手动转换文本,这并不涵盖所有情况。我确信只有一行代码可以帮助解决这个问题。

这是我的代码:

func decodeUTF8(message: String) -> String

    var newMessage = message.stringByReplacingOccurrencesOfString("=2E", withString: ".", options: NSStringCompareOptions.LiteralSearch, range: nil)
    newMessage = newMessage.stringByReplacingOccurrencesOfString("=E2=80=A2", withString: "•", options: NSStringCompareOptions.LiteralSearch, range: nil)
    newMessage = newMessage.stringByReplacingOccurrencesOfString("=C2=A3", withString: "£", options: NSStringCompareOptions.LiteralSearch, range: nil)
    newMessage = newMessage.stringByReplacingOccurrencesOfString("=A3", withString: "£", options: NSStringCompareOptions.LiteralSearch, range: nil)
    newMessage = newMessage.stringByReplacingOccurrencesOfString("=E2=80=9C", withString: "\"", options: NSStringCompareOptions.LiteralSearch, range: nil)
    newMessage = newMessage.stringByReplacingOccurrencesOfString("=E2=80=A6", withString: "…", options: NSStringCompareOptions.LiteralSearch, range: nil)
    newMessage = newMessage.stringByReplacingOccurrencesOfString("=E2=80=9D", withString: "\"", options: NSStringCompareOptions.LiteralSearch, range: nil)
    newMessage = newMessage.stringByReplacingOccurrencesOfString("=92", withString: "'", options: NSStringCompareOptions.LiteralSearch, range: nil)
    newMessage = newMessage.stringByReplacingOccurrencesOfString("=3D", withString: "=", options: NSStringCompareOptions.LiteralSearch, range: nil)
    newMessage = newMessage.stringByReplacingOccurrencesOfString("=20", withString: "", options: NSStringCompareOptions.LiteralSearch, range: nil)
    newMessage = newMessage.stringByReplacingOccurrencesOfString("=E2=80=99", withString: "'", options: NSStringCompareOptions.LiteralSearch, range: nil)

    return newMessage

谢谢

【问题讨论】:

这不是一个完整的解决方案,但我只是想确保您已经看到了一个稍微不同的问题的答案:***.com/a/19088341/4323 Base 64 编码我很擅长,它是 text/plain;引用打印,我有一个问题。谢谢 【参考方案1】:

一个简单的方法是使用(NS)String 方法 stringByRemovingPercentEncoding 用于此目的。 这是观察到的 decoding quoted-printables, 所以第一个解决方案主要是翻译答案 该线程到 Swift。

这个想法是用引号替换可打印的“=NN”编码 百分比编码“%NN”,然后使用现有方法去除 百分比编码。

续行单独处理。 此外,输入字符串中的百分比字符必须首先进行编码, 否则他们将被视为百分比中的主角 编码。

func decodeQuotedPrintable(message : String) -> String? 
    return message
        .stringByReplacingOccurrencesOfString("=\r\n", withString: "")
        .stringByReplacingOccurrencesOfString("=\n", withString: "")
        .stringByReplacingOccurrencesOfString("%", withString: "%25")
        .stringByReplacingOccurrencesOfString("=", withString: "%")
        .stringByRemovingPercentEncoding

对于无效输入,该函数返回一个可选字符串 nil。 无效输入可以是:

后面没有两个十六进制数字的“=”字符, 例如“=XX”。 “=NN”序列未解码为有效的 UTF-8 序列, 例如“=E2=64”。

例子:

if let decoded = decodeQuotedPrintable("=C2=A31,000") 
    print(decoded) // £1,000


if let decoded = decodeQuotedPrintable("=E2=80=9CHello =E2=80=A6 world!=E2=80=9D") 
    print(decoded) // “Hello … world!”


更新 1: 上面的代码假设消息使用 UTF-8 用于引用非 ASCII 字符的编码,如您的大多数示例:C2 A3 是“£”的 UTF-8 编码,E2 80 A4 的 UTF-8 编码。

如果输入是"Rub=E9n",则消息使用 Windows-1252 编码。 要正确解码,您必须替换

.stringByRemovingPercentEncoding

通过

.stringByReplacingPercentEscapesUsingEncoding(NSWindowsCP1252StringEncoding)

还有一些方法可以从“Content-Type”中检测编码 标头字段,比较例如https://***.com/a/32051684/1187415.


更新 2:stringByReplacingPercentEscapesUsingEncoding 方法被标记为已弃用,因此上面的代码将始终生成 编译器警告。不幸的是,似乎没有替代方法 由 Apple 提供。

所以这里有一个新的、完全独立的解码方法,它 不会导致任何编译器警告。这次我写了 作为String 的扩展方法。解释 cmets 在 代码。

extension String 

    /// Returns a new string made by removing in the `String` all "soft line
    /// breaks" and replacing all quoted-printable escape sequences with the
    /// matching characters as determined by a given encoding. 
    /// - parameter encoding:     A string encoding. The default is UTF-8.
    /// - returns:                The decoded string, or `nil` for invalid input.

    func decodeQuotedPrintable(encoding enc : NSStringEncoding = NSUTF8StringEncoding) -> String? 

        // Handle soft line breaks, then replace quoted-printable escape sequences. 
        return self
            .stringByReplacingOccurrencesOfString("=\r\n", withString: "")
            .stringByReplacingOccurrencesOfString("=\n", withString: "")
            .decodeQuotedPrintableSequences(enc)
    

    /// Helper function doing the real work.
    /// Decode all "=HH" sequences with respect to the given encoding.

    private func decodeQuotedPrintableSequences(enc : NSStringEncoding) -> String? 

        var result = ""
        var position = startIndex

        // Find the next "=" and copy characters preceding it to the result:
        while let range = rangeOfString("=", range: position ..< endIndex) 
            result.appendContentsOf(self[position ..< range.startIndex])
            position = range.startIndex

            // Decode one or more successive "=HH" sequences to a byte array:
            let bytes = NSMutableData()
            repeat 
                let hexCode = self[position.advancedBy(1) ..< position.advancedBy(3, limit: endIndex)]
                if hexCode.characters.count < 2 
                    return nil // Incomplete hex code
                
                guard var byte = UInt8(hexCode, radix: 16) else 
                    return nil // Invalid hex code
                
                bytes.appendBytes(&byte, length: 1)
                position = position.advancedBy(3)
             while position != endIndex && self[position] == "="

            // Convert the byte array to a string, and append it to the result:
            guard let dec = String(data: bytes, encoding: enc) else 
                return nil // Decoded bytes not valid in the given encoding
            
            result.appendContentsOf(dec)
        

        // Copy remaining characters to the result:
        result.appendContentsOf(self[position ..< endIndex])

        return result
    

示例用法:

if let decoded = "=C2=A31,000".decodeQuotedPrintable() 
    print(decoded) // £1,000


if let decoded = "=E2=80=9CHello =E2=80=A6 world!=E2=80=9D".decodeQuotedPrintable() 
    print(decoded) // “Hello … world!”


if let decoded = "Rub=E9n".decodeQuotedPrintable(encoding: NSWindowsCP1252StringEncoding) 
    print(decoded) // Rubén


Swift 4(及更高版本)更新:

extension String 

    /// Returns a new string made by removing in the `String` all "soft line
    /// breaks" and replacing all quoted-printable escape sequences with the
    /// matching characters as determined by a given encoding.
    /// - parameter encoding:     A string encoding. The default is UTF-8.
    /// - returns:                The decoded string, or `nil` for invalid input.

    func decodeQuotedPrintable(encoding enc : String.Encoding = .utf8) -> String? 

        // Handle soft line breaks, then replace quoted-printable escape sequences.
        return self
            .replacingOccurrences(of: "=\r\n", with: "")
            .replacingOccurrences(of: "=\n", with: "")
            .decodeQuotedPrintableSequences(encoding: enc)
    

    /// Helper function doing the real work.
    /// Decode all "=HH" sequences with respect to the given encoding.

    private func decodeQuotedPrintableSequences(encoding enc : String.Encoding) -> String? 

        var result = ""
        var position = startIndex

        // Find the next "=" and copy characters preceding it to the result:
        while let range = range(of: "=", range: position..<endIndex) 
            result.append(contentsOf: self[position ..< range.lowerBound])
            position = range.lowerBound

            // Decode one or more successive "=HH" sequences to a byte array:
            var bytes = Data()
            repeat 
                let hexCode = self[position...].dropFirst().prefix(2)
                if hexCode.count < 2 
                    return nil // Incomplete hex code
                
                guard let byte = UInt8(hexCode, radix: 16) else 
                    return nil // Invalid hex code
                
                bytes.append(byte)
                position = index(position, offsetBy: 3)
             while position != endIndex && self[position] == "="

            // Convert the byte array to a string, and append it to the result:
            guard let dec = String(data: bytes, encoding: enc) else 
                return nil // Decoded bytes not valid in the given encoding
            
            result.append(contentsOf: dec)
        

        // Copy remaining characters to the result:
        result.append(contentsOf: self[position ..< endIndex])

        return result
    

示例用法:

if let decoded = "=C2=A31,000".decodeQuotedPrintable() 
    print(decoded) // £1,000


if let decoded = "=E2=80=9CHello =E2=80=A6 world!=E2=80=9D".decodeQuotedPrintable() 
    print(decoded) // “Hello … world!”


if let decoded = "Rub=E9n".decodeQuotedPrintable(encoding: .windowsCP1252) 
    print(decoded) // Rubén

【讨论】:

这就是我正在看的那种东西。我把它放在我的代码中尝试一下,立即遇到了问题。 抱歉返回太早... decodeQuotedPrintable("Rub=E9n") 应该返回 Rubén。我在motobit.com/util/quoted-printable-decoder.asp 上试过这个,这个网站解码它OK。有什么想法吗? @iphaaw:这取决于消息中使用的编码(或字符集)。该在线解码器似乎会自动检测编码,可能是通过尝试不同的编码。我在答案中添加了一些信息,如果有帮助,请告诉我。 谢谢你,但编译器在 10.11 中抱怨 stringByReplacingPercentEscapesUsingEncoding 已被弃用。文档相当无益地不建议更换:-( 非常感谢您的深入解答。这是一个非常优雅的解决方案,我希望它也能帮助许多其他人。你的赏金是当之无愧的。安德鲁【参考方案2】:

不幸的是,我的回答有点晚了。不过,这可能对其他人有所帮助。

var string = "The cost would be =C2=A31,000"

var finalString: String? = nil

if let regEx = try? NSRegularExpression(pattern: "=1?([a-f0-9]2?)", options: NSRegularExpressionOptions.CaseInsensitive)

    let intermediatePercentEscapedString = regEx.stringByReplacingMatchesInString(string, options: NSMatchingOptions.WithTransparentBounds, range: NSMakeRange(0, string.characters.count), withTemplate: "%$1")
    print(intermediatePercentEscapedString)
    finalString = intermediatePercentEscapedString.stringByRemovingPercentEncoding
    print(finalString)

【讨论】:

【参考方案3】:

这种编码称为“quoted-printable”,您需要做的是使用 ASCII 编码将字符串转换为 NSData,然后只需迭代数据,将所有 3 符号方(如 '=A3')替换为 byte/char 0xA3,然后使用 NSUTF8StringEncoding 将结果数据转换为字符串。

【讨论】:

这有点工作,但从我的例子中你可以看到我有时会得到两个字节的字符。我原以为会有一个单行方法可以调用来更有效地执行此操作。 BTW 感谢您指出正确的编码名称。谢谢 单个字符需要 2 个字节,因为在 UTF-8 编码中需要两个字节。只有英文字母/数字/逗号等被编码为一个字节。【参考方案4】:

为了给出一个适用的解决方案,需要更多信息。所以,我会做一些假设。

例如,在 html 或邮件消息中,您可以将一种或多种编码应用于某种源数据。例如,您可以对二进制文件进行编码,例如一个带有 base64 的 png 文件,然后压缩它。顺序很重要。

在您所说的示例中,源数据是一个字符串,并且已通过 UTF-8 编码。

在 HTTP 消息中,您的 Content-Type 因此是 text/plain; charset = UTF-8。在您的示例中,似乎还应用了额外的编码, “内容传输编码”:Content-transfer-encoding 可能是 quoted-printablebase64(但不确定)。

为了恢复它,您需要以相反的顺序应用相应的解码。

提示

在查看邮件的原始来源时,您可以查看邮件的标题(Contente-typeContent-Transfer-Encoding)。

【讨论】:

Base 64 编码我很擅长,它是 text/plain;我遇到问题的引用打印。谢谢【参考方案5】:

您还可以查看此工作解决方案 - https://github.com/dunkelstern/QuotedPrintable

let result = QuotedPrintable.decode(string: quoted)

【讨论】:

以上是关于在 Swift 中解码引用的可打印消息的主要内容,如果未能解决你的问题,请参考以下文章

引用的可打印 MIME 消息中的 CRLF

在 Rust 中解码带引号的可打印电子邮件字符串(如 =?UTF-8?Q??=D1=81_=D0)

如何在 Swift 4 中引用通用的可解码结构

在 Java 中解码“引用可打印”字符串

解码 8bit 邮件消息:Content-Transfer-Encoding: 8bit

将 MIMEText 编码为引用的可打印文件