MySQL 表中带有重音符号的字符串在 R (RODBC) 中返回为 NA

Posted

技术标签:

【中文标题】MySQL 表中带有重音符号的字符串在 R (RODBC) 中返回为 NA【英文标题】:String with accents in MySQL table returned as NA in R (RODBC) 【发布时间】:2016-12-03 09:38:26 【问题描述】:

我有一个名为“segments”的表存储在 mysql 数据库中。该表采用 UTF-8 编码(字符集 utf8,排序规则 utf8_general_ci),“标签”列包含带重音符号的字符串,如“Fidèles”、“Arrêtés”等。

我使用 R 和 RODBC 包查询该表,使用一个简单的方法:

data = sqlQuery(channel = myodbcconnection, query = "SELECT label FROM segments")

这样做会导致所有包含重音符号的字符串都被替换为 NA 值。不仅重音被填充字符取代。整个字符串变为 NA。

从 MySQL Workbench 运行查询返回正确的字符串,因此该表正常 R 文件采用 utf-8 编码,来源采用 utf-8 编码等。 ODBC 连接使用 MySQL ODBC UNICODE 驱动程序

甚至奇怪的是,如果我从 R 对数据库运行 UPDATE,则类似于:

sqlQuery(channel = myodbcconnection, query = "UPDATE segments SET label = 'Testé et approuvé' WHERE id = 70")

数据库已正确更新。但如果我选择它回来,它会返回一个 NA 值。

这快把我逼疯了。 ;-) 任何帮助将不胜感激。

【问题讨论】:

我尝试了as.isstringAsFactors的所有组合(以防万一),但无济于事。 我还应该补充一点,当我使用odbcConnect 创建我的 ODBC 连接时,我指定了DBMSencoding = "UTF-8" 【参考方案1】:

经过一番痛苦,我找到了自己问题的部分答案。

正如预期的那样,问题出在 ODBC 连接及其编码 utf8 通信的方式上。在 ODBC 连接字符串中,您必须指定 CharSet=utf8。例如:

Driver=MySQL ODBC 3.51 驱动程序;Server=localhost;Database=myDataBase; User=myUsername;Password=myPassword;Option=3;CharSet=utf8;

注意:

仅选择 ODBC Unicode(兼容 utf8)驱动程序是不够的。 在 odbcConnect 函数中将“DBMSencoding”指定为 utf8 也是不够的。 这解决了我的本地主机上的问题,但没有解决我的生产环境 (Ubuntu/AWS) 中的问题,原因不明。

【讨论】:

以上是关于MySQL 表中带有重音符号的字符串在 R (RODBC) 中返回为 NA的主要内容,如果未能解决你的问题,请参考以下文章

在 JavaScript 中删除字符串中的重音符号/变音符号

删除 mysql 查询中字符串字段的重音符号

在Windows上的Python 2中运行名称中带有重音字符的cmd文件

文件名中带有重音字符的 PHP ZipArchive

R-Shiny 应用程序中的重音符号

MySQL REGEXP 查询 - 不区分重音的搜索