当数据集尚未完全编码时,如何将数据从 CAT 导出到 R?

Posted

技术标签:

【中文标题】当数据集尚未完全编码时,如何将数据从 CAT 导出到 R?【英文标题】:How to export data from CAT to R when datasets have not been coded completely? 【发布时间】:2014-07-16 12:09:53 【问题描述】:

我使用了 Solomon Messing 的教程(参见下面的链接),了解如何将数据从 CAT 导出到 R,并取得了巨大成功。然而,当只有 3/4 的编码人员完成了对数据集的编码时,我遇到了问题。即使我删除了所有编码人员尚未编码的那些文档,R 似乎也无法解析 XML 文件。我的猜测是,来自 CAT 的 XML 文件是为初始数量的文档和编码器设置的,因此当删除文档和编码器时,R 脚本不再兼容。有没有办法修改 XML 文件,甚至删除某些编码人员的编码?控制台输出如下所示: (当所有编码人员都完成编码时,我对奇数字符没有任何问题。)

doc

xmlParseCharRef:无效的 xmlChar 值 0

xmlParseCharRef:无效的 xmlChar 值 0

xmlParseCharRef:无效的 xmlChar 值 0

xmlParseCharRef:无效的 xmlChar 值 0

错误:1:xmlParseCharRef:无效的 xmlChar 值 0

2: xmlParseCharRef: 无效的 xmlChar 值 0

3: xmlParseCharRef: 无效的 xmlChar 值 0

4: xmlParseCharRef: 无效的 xmlChar 值 0

5: xmlParseCharRef: 无效的 xmlChar 值 0

6: xmlParseCharRef: 无效的 xmlChar 值 0

http://solomonmessing.wordpress.com/2013/02/04/cat-r-for-content-analysislabels-for-text-mining/

【问题讨论】:

如果这解决了您的问题,请检查并支持答案。 【参考方案1】:

谢谢所罗门!这解决了我的问题。但是,R 在查找“paragraphCodes”时遇到了一些麻烦,所以我重新排列并稍微修改了初始脚本,如下所示:

paragraphTag

paragraphIds

pgnum

alldat$pgnum

alldat$paragraphTag

现在它可以完美运行了!

【讨论】:

【参考方案2】:

我怀疑 R 对您从 Wordpress 复制的文本感到窒息。当我从该博客复制文本时,在 0 和 ; 之间有一个看不见的坏字符。在行中:

grep("", 文档)

doc

确保其中没有坏字符,然后重新运行脚本。当我 grep 为“​;” (删除不可见的额外字符后)我在您的 xml 文档中的第 22443 行找到了其中一个人。删除它后,我没有收到这些错误。

【讨论】:

以上是关于当数据集尚未完全编码时,如何将数据从 CAT 导出到 R?的主要内容,如果未能解决你的问题,请参考以下文章

如何从 c# 将 SQL Server 数据库转换/导出到 MSAccess

将数据集放入文件夹时出错[关闭]

gis导出栅格数据集失败

将 10 个数据集(每个数据集有 80 个表)从 bigquery 导出到 google 存储的有效方法?

将对象从一个应用程序导出到另一个应用程序:XML 还是编码?

将数据从 PySpark 加载到 Redshift 时如何执行列编码