规范化 SQL Server 中的 unicode 字符串?

Posted

技术标签:

【中文标题】规范化 SQL Server 中的 unicode 字符串?【英文标题】:Normalize unicode string in SQL Server? 【发布时间】:2011-12-10 08:24:45 【问题描述】:

SQL Server 中是否有规范化 unicode 字符串的函数?例如

UPDATE Orders SET Notes = NormalizeString(Notes, 'FormC')

Unicode 规范化形式:

C​作曲(C):A + ¨ 变为 Ä D​ecomposition(D):Ä 变为 A + ¨ 兼容组合(KC):A + ¨ + + n 变为 Ä + f + i + n 兼容分解(KD):Ä + + n 变为A + ¨ + f + i + n

我找不到任何内置函数,所以我假设没有。


理想情况下,如果只能有一个,那么我今天恰好需要Form C:

Unicode 规范化形式 C,规范组合。将每个分解的分组(由一个基本字符加上组合字符组成)转换为规范的预组合等价物。例如,A + ¨ 变成 Ä。

另见

Unicode Normalization in Windows How do I remove diacritics (accents) from a string in .NET? NormalizeString function Sorting it all out: What normalization form does SQL Server use

【问题讨论】:

【参考方案1】:

抱歉,没有,迄今为止的任何 SQL Server 版本(2012 测试版本)中都没有这样的功能。比较可以正确地对组合不敏感,但没有将字符组合用法转换为一种正常形式的功能。

已建议在语法NORMALIZE(string, NFC) 下将其用于ANSI 标准的未来版本,但要使其成为现实世界还需要很长时间。现在,如果您想进行规范化,您必须使用具有更好字符串处理能力的适当编程语言来完成,方法是从数据库中提取字符串或编写 CLR 存储过程来完成。

【讨论】:

【参考方案2】:

试试这个 CLR 函数

using System.Data.SqlClient;
using System.Data.SqlTypes;
using Microsoft.SqlServer.Server;

public partial class UserDefinedFunctions

    [Microsoft.SqlServer.Server.SqlFunction]
    public static SqlString fnRemoveDiacritics(string text)
    
        string stringFormD = text.Normalize(System.Text.NormalizationForm.FormD);
        System.Text.StringBuilder retVal = new System.Text.StringBuilder();
        for (int index = 0; index < stringFormD.Length; index++)
        
            if (System.Globalization.CharUnicodeInfo.GetUnicodeCategory(stringFormD[index]) != System.Globalization.UnicodeCategory.NonSpacingMark)
                retVal.Append(stringFormD[index]);
        
        return retVal.ToString().Normalize(System.Text.NormalizationForm.FormC);
    

在 SQL 中

SELECT dbo.fnRemoveDiacritics('Äěščřžýáíé')
-- Returns: Aescrzyaie

感谢 http://www.dotnetportal.cz/blogy/4/Tomas-Jecha/663/NET-Tip-6-Ciste-odstraneni-diakritiky

【讨论】:

如果你从sql中硬编码字符串,你应该指定N'Äěščřžýáíé'(对于nvarchar @IanBoyd 我不明白你说的那个图片是什么意思。我不是说出于性能原因,我的意思是字符串会丢失信息:https://i.imgur.com/6QbzEgV.png @DavidS。啊,i see what you're driving at【参考方案3】:

我有点问题,

我用 C# 编写了一个新的 CRL 函数,并像 SQL 函数一样使用。

我的 C# 代码(规范化为 NFC 或 NFD)。另外,正确处理NULL字符串。:

using Microsoft.SqlServer.Server;
using System.Data.SqlTypes;
using System.Text;

    public static class CLRUnicodeNormalize
    
        [SqlFunction]
        public static SqlString UnicodeNormalizeC(SqlString inStr)
        
            if (inStr.IsNull) return SqlString.Null;
            return inStr.ToString().Normalize(NormalizationForm.FormC);
        
        public static SqlString UnicodeNormalizeD(SqlString inStr)
        
            if (inStr.IsNull) return SqlString.Null;
            return inStr.ToString().Normalize(NormalizationForm.FormD);
        
    

在 SQL 查询中使用示例(形成任何对 C 的规范化):

UPDATE o SET o.ObjectName=dbo.UnicodeNormalizeC(o.ObjectName)

使用前安装规范化功能(在这种情况下您不需要 C#...二进制文件包含可使用的 .Net 代码,请参见上面的源代码):

/* 
GO
DROP FUNCTION [dbo].UnicodeNormalize
GO
DROP ASSEMBLY [CLRUnicodeNormalize]
GO
*/


CREATE ASSEMBLY [CLRUnicodeNormalize]
FROM 
WITH PERMISSION_SET = UNSAFE
GO

CREATE FUNCTION [dbo].UnicodeNormalizeC(@inStr nvarchar(max)) RETURNS nvarchar(max) 
AS EXTERNAL NAME [CLRUnicodeNormalize].[CLRUnicodeNormalize].[UnicodeNormalizeC]
GO
CREATE FUNCTION [dbo].UnicodeNormalizeD(@inStr nvarchar(max)) RETURNS nvarchar(max) 
AS EXTERNAL NAME [CLRUnicodeNormalize].[CLRUnicodeNormalize].[UnicodeNormalizeD]
GO

使用 .Net 版本编译:4.6

我对上面的二进制代码的使用不承担任何责任!

测试示例:

DECLARE @str_nfd nvarchar(10) = dbo.UnicodeNormalizeD('á');
SELECT LEN(@str_nfd);   -- NFD normalization, return: 2
SELECT LEN(dbo.UnicodeNormalizeC(@str_nfd)); -- back to NFC, return: 1

【讨论】:

【参考方案4】:

在 SQL Server 中没有内置解决方案的情况下,如果您不想编写 C# 函数,您可以使用 translate 函数手动执行此操作:

select translate(last_name, 'éêëèàäçïîìôöòûù', 'eeeeaaciiiooouu') from employees

您也可以使用以下解决方案:https://coderwall.com/p/a6koxq/how-to-remove-diacritics-in-sql-server

在 SQL Server 中从字符串中删除变音符号的最简单方法是 使用不包含的字符集整理字符串 变音符号,例如:

SELECT 'àéêöhello!' Collate SQL_Latin1_General_CP1253_CI_AI

这将输出:

aeeohello!

仅当您不使用 unicode 字符串时才有效,因此将其转换为 如果你有一个 unicode 字符串,首先是 varchar。

【讨论】:

以上是关于规范化 SQL Server 中的 unicode 字符串?的主要内容,如果未能解决你的问题,请参考以下文章

表迁移到 SQL Server 后,Access 无法筛选 Unicode 字符

sql server 存入中文前加N

在 sql server 2008 中使用 unicode 文本

Windows 中的 Unicode 规范化

在Oracle 中有类似 sqlserver 中的unicode 的函数吗

将 Unicode 从 R 写入 SQL Server