Linux上的pyodbc fast_executemany在插入时出现乱码

Posted 2023-03-23

技术标签:

【中文标题】Linux上的pyodbc fast_executemany在插入时出现乱码【英文标题】：pyodbc fast_executemany on Linux garbles strings on insert 【发布时间】：2020-11-16 04:36:52 【问题描述】：

我有以下代码，在 Windows 上运行良好，在 Linux 上失败：

import pyodbc

conn = pyodbc.connect(p_str = None, server = ..., app = ..., databsae = ...,
                      driver = 'ODBC Driver 17 for SQL Server',
                      Trusted_Connection = 'yes')

conn.setdecoding(pyodbc.SQL_CHAR, encoding = 'utf-8')
conn.setdecoding(pyodbc.SQL_WCHAR, encoding = 'utf-8')
conn.setencoding(encoding = 'utf-8')

sql = 'INSERT INTO TestStrTbl(idKey,idValue) VALUES (?,?)'
data = [('one', 'value1'), ('two', 'value2')]

cursor = conn.cursor()
cursor.connection.autocommit = False
cursor.fast_executemany = True
cursor.executemany(sql, data)
cursor.commit()

我正在插入并清空使用以下 SQL 创建的 SQL Server 表：

CREATE TABLE TestStrTbl
(
    idKey   varchar(20) NOT NULL PRIMARY KEY,
    idValue varchar(20) NOT NULL
)

返回的错误是：

违反主键约束“PK__TestStrT__3FBEE7404FA9AB3B”。无法在对象“dbo.TestStrTbl”中插入重复键。复制品键值为 (?)。

当我使用相同的连接读取，或使用完整的字符串插入时，比如

sql = "INSERT INTO TestStrTbl(idKey,idValue) VALUES ('%s','%s')"
cursor.connection.autocommit = False
cursor.fast_executemany = True
for row in data:
    cursor.execute(sql % row)
cursor.commit()

这很好用。另一种可能性是让cursor.fast_executemany = False，那么它也可以在Linux 上运行。我能做些什么来解决这个问题？

我在 Ubuntu Linux 上使用pyodbc==4.0.24 运行 Python 3.7.8。感谢您的帮助。

更新

这里是 unixODBC 设置：

18:48:56 $> odbcinst -j
unixODBC 2.3.1
DRIVERS............: /usr/local/etc/odbcinst.ini
SYSTEM DATA SOURCES: /usr/local/etc/odbc.ini
FILE DATA SOURCES..: /usr/local/etc/ODBCDataSources
USER DATA SOURCES..: /home/myUserId/.odbc.ini
SQLULEN Size.......: 8
SQLLEN Size........: 8
SQLSETPOSIROW Size.: 8

【问题讨论】：

根据错误消息，? 被作为文字字符串传递，而不是被参数值替换。这是 ODBC 驱动程序正上方的那一层，因为 T-SQL 不接受不带引号的?，所以你必须真正努力才能弄错。要查看此理论是否正确，请仅使用单行数据尝试此操作（[('one', 'value1')] - 你应该在你的行中以文字结束?。或者，如果问题是编码问题，你仍然应该在行中获取一个值，告诉您出了什么问题。此外，2019 年之前的 SQL Server 不支持 UTF-8，即便如此，也仅支持用于字段的特殊排序规则。 SQL Server 中的所有 Unicode 字符串都是 UTF-16。我对pyodbc 几乎一无所知，但如果那些setdecoding/setencoding 调用是必要的和/或正确的，我会感到惊讶。 Microsoft 提供的示例似乎不包括它们。 @JeroenMostert 一直困扰着我的是，除了具有快速执行的 Linux 之外，所有情况下都可以正常工作。 Windows（在任一模式下）或将 fast executemany 设置为 False 的 Linux 就像一个魅力。我也尝试使用latin 而不是utf-8，结果相同。您绝对需要摆脱 conn.setdecoding 和 conn.setencoding 语句。 SQL Server ODBC 不使用 UTF-8 编码。（它使用 UTF-16LE，这是 pyodbc 的默认设置。）另外，从终端提示符运行 odbcinst -j 以检查您的 unixODBC 版本，如果它是旧的，请考虑升级它。 @GordThompson 谢谢。我用 unixODBC 设置更新了问题（在底部），我需要从那里升级吗？ 【参考方案1】：

在使用 Microsoft 的 SQL Server ODBC 驱动程序时，无需调用 conn.setdecoding 和 conn.setencoding。 pyodbc 的默认编码是 UTF16-LE，这是 Microsoft 的 ODBC 驱动程序使用的。

至于unixODBC，版本 2.3.5 (2018-01-02) 之前的任何内容都应该被视为“旧”，因为这是一个主要的错误修复版本。版本 2.3.7 (2018-08-10) 修复了几个错误，目前是推荐的版本。

【讨论】：

以上是关于Linux上的pyodbc fast_executemany在插入时出现乱码的主要内容，如果未能解决你的问题，请参考以下文章