修复无效 JSON 的最有效方法

Posted

技术标签:

【中文标题】修复无效 JSON 的最有效方法【英文标题】:Most efficient way to fix an invalid JSON 【发布时间】:2015-04-07 15:22:26 【问题描述】:

我陷入了一个不可能的境地。我有一个来自外太空的 JSON(他们不可能改变它)。这是 JSON


    user:'180111',
    title:'I\'m sure "E pluribus unum" means \'Out of Many, One.\' \n\nhttp://en.wikipedia.org/wiki/E_pluribus_unum.\n\n\'',
    date:'2007/01/10 19:48:38',
    "id":"3322121",
    "previd":112211,
    "body":"\'You\' can \"read\" more here [url=http:\/\/en.wikipedia.org\/?search=E_pluribus_unum]E pluribus unum[\/url]'s. Cheers \\*/ :\/",
    "from":"112221",
    "username":"mikethunder",
    "creationdate":"2007\/01\/10 14:04:49"

“它远不是一个有效的 JSON”,我说。他们的回答是“emmm!但是 javascript 可以毫无怨言地读取它”

<html>
<script type="text/javascript">
    var obj = "PUT JSON FROM UP THERE HERE";

    document.write(obj.title);
    document.write("<br />");
    document.write(obj.creationdate + " " + obj.date);
    document.write("<br />");
    document.write(obj.body);
    document.write("<br />");
</script>
<body>
</body>
</html>

问题

我应该通过 .NET(4) 读取和解析这个字符串,它破坏了Json.org 的 C# 部分中提到的 14 个库中的 3 个(没有尝试其他库)。为了解决这个问题,我编写了以下函数来解决单引号和双引号的问题。

public static string JSONBeautify(string InStr)
    bool inSingleQuote = false;
    bool inDoubleQuote = false;
    bool escaped = false;

    StringBuilder sb = new StringBuilder(InStr);
    sb = sb.Replace("`", "<°)))><"); // replace all instances of "grave accent" to "fish" so we can use that mark later. 
                                        // Hopefully there is no "fish" in our JSON
    for (int i = 0; i < sb.Length; i++) 
        switch (sb[i]) 

            case '\\':
                if (!escaped)
                    escaped = true;
                else 
                    escaped = false;
                break;
            case '\'':
                if (!inSingleQuote && !inDoubleQuote) 
                    sb[i] = '"';            // Change opening single quote string markers to double qoute
                    inSingleQuote = true;
                 else if (inSingleQuote && !escaped) 
                    sb[i] = '"';            // Change closing single quote string markers to double qoute
                    inSingleQuote = false;
                 else if (escaped) 
                    escaped = false;
                
                break;
            case '"':
                if (!inSingleQuote && !inDoubleQuote) 
                    inDoubleQuote = true;   // This is a opening double quote string marker
                 else if (inSingleQuote && !escaped) 
                    sb[i] = '`';            // Change unescaped double qoute to grave accent
                 else if (inDoubleQuote && !escaped) 
                    inDoubleQuote = false; // This is a closing double quote string marker
                 else if (escaped) 
                    escaped = false;
                
                break;
            default:
                escaped = false;
                break;
        
    
    return sb.ToString()
        .Replace("\\/", "/")        // Remove all instances of escaped / (\/) .hopefully no smileys in string
        .Replace("`", "\\\"")       // Change all "grave accent"s to escaped double quote \"
        .Replace("<°)))><", "`")   // change all fishes back to "grave accent"
        .Replace("\\'","'");        // change all escaped single quotes to just single quote

现在 JSONlint 只抱怨属性名称,我可以同时使用 JSON.NET 和 SimpleJSON 库来解析 JSON。

问题

我确信我的代码不是修复提到的 JSON 的最佳方法。 有没有我的代码可能会中断的情况?有更好的方法吗?

【问题讨论】:

JSON 在很多层面上都是错误的。但是我们可以修复它。 我完全同意你的观点,但由于他们来自外太空,他们不会说我们的语言,让他们明白这是错误的......完全不可能。 【参考方案1】:

您需要通过 JavaScript 运行它。在 .net 中启动一个 JavaScript 解析器。将字符串作为 JavaScript 的输入,并使用 JavaScript 的原生 JSON.stringify 进行转换:

obj = 
    "user":'180111',
    "title":'I\'m sure "E pluribus unum" means \'Out of Many, One.\' \n\nhttp://en.wikipedia.org/wiki/E_pluribus_unum.\n\n',
    "date":'2007/01/10 19:48:38',
    "id":"3322121",
    "previd":"112211",
    "body":"\'You\' can \"read\" more here [url=http:\/\/en.wikipedia.org\/?search=E_pluribus_unum]E pluribus unum[\/url]'s. Cheers \\*/ :\/",
    "from":"112221",
    "username":"mikethunder",
    "creationdate":"2007\/01\/10 14:04:49"


console.log(JSON.stringify(obj));
document.write(JSON.stringify(obj));

请记住,您获得的字符串(或者更确切地说是对象)不是有效的 JSON,无法使用 JSON 库进行解析。它需要首先转换为有效的 JSON。但是它是有效的 JavaScript。

要完成这个答案:您可以在 .Net 中使用JavaScriptSerializer。对于此解决方案,您需要以下程序集:

System.Net

System.Web.Script.Serialization

var webClient = new WebClient();
string readHtml = webClient.DownloadString("uri to your source (extraterrestrial)");
var a = new JavaScriptSerializer();

Dictionary<string, object> results = a.Deserialize<Dictionary<string, object>>(readHtml);

【讨论】:

很好的答案。如果您想一路走下去,请包含一个示例或 .Net json 解析器列表(甚至可能只使用简单的 WebBrowser?)。答案中的 js sn-ps 巧妙的技巧,我喜欢。 把工作交给知道怎么做的人是个好主意,但是关于如何在 .net 中运行 Javascript 解析器有什么建议吗? Javascript.NETJint 是否正确处理了这个 java 对象? @BobSort,看看更新的答案。这将解析可怕的 JSONish 对象并输出一个不错的 .Net 字典列表。我用你的源试了一下,效果很好。 你的答案都很好。我特别喜欢内联运行 sn-p。顺便说一句,您的代码的第二部分不能处理所有类型的 JSON,例如数组 [...] 好吧,我不能使用字典,上面提到的 JSON 是更大对象数组的一部分。但是,如果我使用对象而不是字典,我可以获得结果。【参考方案2】:

这个怎么样:

 string AlienJSON = "your alien JSON";
 JavaScriptSerializer js = new JavaScriptSerializer();
 string ProperJSON = js.Serialize(js.DeserializeObject(AlienJSON));

或者只是在反序列化后使用对象,而不是将其转换回字符串并将其传递给 JSON 解析器以增加头痛

正如 Mouser 还提到的,您需要使用 System.Web.Script.Serialization,可通过在您的项目中包含 system.web.extensions.dll 来使用,为此您需要将项目属性中的 Target framework 更改为 .NET Framework 4

编辑

使用反序列化对象的技巧是使用dynamic

JavaScriptSerializer js = new JavaScriptSerializer();
dynamic obj = js.DeserializeObject(AlienJSON);

对于您问题中的 JSON,只需使用

string body = obj["body"];

或者如果你的 JSON 是一个数组

if (obj is Array) 
    foreach(dynamic o in obj)
        string body = obj[0]["body"];
        // ... do something with it
    

【讨论】:

反序列化后如何使用对象? 您是否尝试将 JavaScript 字符串放入 .Net 字符串中?不起作用。您需要从外部加载它。于是有了网络客户端。【参考方案3】:

这是我制作的一个可以修复损坏的 json 的函数:

function fixJSON(json)
    function bulkRegex(str, callback)
        if(callback && typeof callback === 'function')
            return callback(str);
        else if(callback && Array.isArray(callback))
            for(let i = 0; i < callback.length; i++)
                if(callback[i] && typeof callback[i] === 'function')
                    str = callback[i](str);
                elsebreak;
            
            return str;
        
        return str;
    
    if(json && json !== '')
        if(typeof json !== 'string')
            try
                json = JSON.stringify(json);
            catch(e)return false;
        
        if(typeof json === 'string')
            json = bulkRegex(json, false, [
                str => str.replace(/[\n\t]/gm, ''),
                str => str.replace(/,\/gm, ''),
                str => str.replace(/,\]/gm, ']'),
                str => 
                    str = str.split(/(?=[,\\]])/g);
                    str = str.map(s => 
                        if(s.includes(':') && s)
                            let strP = s.split(/:(.+)/, 2);
                            strP[0] = strP[0].trim();
                            if(strP[0])
                                let firstP = strP[0].split(/([,\\[])/g);
                                firstP[firstP.length-1] = bulkRegex(firstP[firstP.length-1], false, p => p.replace(/[^A-Za-z0-9\-_]/, ''));
                                strP[0] = firstP.join('');
                            
                            let part = strP[1].trim();
                            if((part.startsWith('"') && part.endsWith('"')) || (part.startsWith('\'') && part.endsWith('\'')) || (part.startsWith('`') && part.endsWith('`')))
                                part = part.substr(1, part.length - 2);
                            
                            part = bulkRegex(part, false, [
                                p => p.replace(/(["])/gm, '\\$1'),
                                p => p.replace(/\\'/gm, '\''),
                                p => p.replace(/\\`/gm, '`'),
                            ]);
                            strP[1] = ('"'+part+'"').trim();
                            s = strP.join(':');
                        
                        return s;
                    );
                    return str.join('');
                ,
                str => str.replace(/(['"])?([a-zA-Z0-9\-_]+)(['"])?:/g, '"$2":'),
                str => 
                    str = str.split(/(?=[,\\]])/g);
                    str = str.map(s => 
                        if(s.includes(':') && s)
                            let strP = s.split(/:(.+)/, 2);
                            strP[0] = strP[0].trim();
                            if(strP[1].includes('"') && strP[1].includes(':'))
                                let part = strP[1].trim();
                                if(part.startsWith('"') && part.endsWith('"'))
                                    part = part.substr(1, part.length - 2);
                                    part = bulkRegex(part, false, p => p.replace(/(?<!\\)"/gm, ''));
                                
                                strP[1] = ('"'+part+'"').trim();
                            
                            s = strP.join(':');
                        
                        return s;
                    );
                    return str.join('');
                ,
            ]);
            try
                json = JSON.parse(json);
            catch(e)return false;
        
        return json;
    
    return false;

【讨论】:

以上是关于修复无效 JSON 的最有效方法的主要内容,如果未能解决你的问题,请参考以下文章

解析 JSON 对象的最有效方法 [重复]

(预)处理存储在 json 中的大型数据集的最有效方法是啥?

从大型 JSON 文件创建树状结构的最有效方法

在正则表达式 C# 中转换 json 的最有效方法

在 Android 上调用返回 JSON 响应的 HTTP Web API 调用的最有效方法是啥?

在NodeJS中将许多文件中的JSON对象插入MongoDB的最有效方法