如何测试文本片段是不是是 Quoted-printable 编码的
Posted
技术标签:
【中文标题】如何测试文本片段是不是是 Quoted-printable 编码的【英文标题】:How to test if a text fragment is Quoted-printable encoded如何测试文本片段是否是 Quoted-printable 编码的 【发布时间】:2011-11-11 22:22:06 【问题描述】:我正在寻找一种在 Java 中测试文本片段是否为quoted-printable encoded 的稳健方法。最直接的方法是测试字符串是否包含与以下正则表达式匹配的字符序列:(=[A–F0-9][A–F0-9])|(=[\r][\n])
(编码字符 + =
和换行符的软中断)。
【问题讨论】:
在给定任意字符串片段的情况下,没有可靠的方法来检测这种情况,为什么需要它?文字从何而来? 可以在此处找到文本片段的示例:en.wikipedia.org/wiki/Quoted-printable#Example。我在一个电子邮件数据库工作 - isi.edu/~adibi/Enron/Enron.htm。有些电子邮件是引用可打印编码的,有些则不是。 电子邮件标头指示编码。 cs.cmu.edu/~enron 看起来与标题具有相同的语料库。也许您可以与 ISI 人员取得联系并指出他们的错误,和/或更详细地解释他们(认为他们)是如何清理语料库的。 【参考方案1】:我会否定测试;包含 = 后跟换行符或两个十六进制数字以外的任何内容的文本不是 QP;但这仍然是一个弱启发式 - 有人可以将=3D
放入未编码的文本中,只是为了它(我只是这样做了)。底线:如果你不知道编码,你就不知道编码。
【讨论】:
我正在慢慢得出同样的结论。谢谢。以上是关于如何测试文本片段是不是是 Quoted-printable 编码的的主要内容,如果未能解决你的问题,请参考以下文章
如何在文本区域标签中的特定光标位置插入选择标签下拉值作为文本片段?