如何在 Unicode 中将字符串设置为大写/小写?
Posted
技术标签:
【中文标题】如何在 Unicode 中将字符串设置为大写/小写?【英文标题】:How do you set strings to uppercase / lowercase in Unicode? 【发布时间】:2010-09-22 19:11:33 【问题描述】:这主要是一个我很好奇的理论问题。 (我不是想通过自己编码或任何东西来做到这一点,我不是在重新发明***。)
我的问题是大写/小写等值表如何用于 Unicode。
例如,如果我必须在 ASCII 中执行此操作,我会取一个字符,如果它落在 [a-z] 范围内,我会将 A 和 a 之间的差求和。
如果它不在那个范围内,我会为 10 个左右的重音字符加上 ñ 提供一个小的等价表。 (或者,我可以有一个包含 256 个条目的完全等价数组,其中大部分与输入相同)
但是,鉴于有数十万个字符,我猜想有更好的方法来指定 Unicode 中的等效项,并且理论上可以添加一种新语言或一组字符(我希望发生这种情况时您不需要修补窗口)。
Windows 是否对每个字符都有一个巨大的硬编码等价表?或者这是如何实现的?
一个相关的问题是 SQL Server 如何实现基于 Unicode 的不区分重音和不区分大小写的查询。它是否有一个内部表告诉它 é ë è E É È 和 Ë 都等价于“e”?
在比较字符串时听起来不是很快。
它如何快速访问索引?它是否已经对转换为“基本”字符的值进行索引,对应于该字段的排序规则?
有人知道这些东西的内部原理吗?
谢谢!
【问题讨论】:
我认为如果窗口向 unicode 添加了新字符集,您将需要修补它们,但这将是一个非常低优先级的修补程序,因为最初没有人会使用这些字符。 “10 个左右的重音字符加上 ñ 的小等价表”——你必须明白,“小”的意思是大约 100 倍于你的意思。 我不完全确定我理解为什么我无法用键盘轻松键入的 e 上的所有变体都等于“e”。我可以从数据库的角度理解它(用于搜索忽略特殊口音),但从语言的角度来看,这些都是不同的字符...... 当您的问题是理论上的时,为什么您总是谈论“windows ...”?如果您想要一个好的算法,请不要在某些操作系统中的某个地方执行它,而是搜索 unicode 库或仅搜索算法。抱歉,但这个问题听起来有点像“我知道 Windows 会做事,所以它一定是这样做的”...... 【参考方案1】:我将解决这个问题的 MS SQL Server 部分,但“正确”答案实际上取决于支持的语言和应用程序。
当您在 SQL Server 中创建表时,每个文本字段都具有隐式或显式指定的排序规则。这会影响排序顺序和比较行为。对于大多数英语(美国)语言环境,默认设置是 Latin1_General_CI_AS,或拉丁语 1、不区分大小写、区分重音。这意味着,例如,a=A,但 a!=Ä 和 a!=ä。您还可以使用不区分重音 (Latin1_General_CI_AI),它将“A”的所有变音符号变体视为相同。
一些语言环境支持其他类别的比较;例如,法语对包含变音符号的单词的排序与德语略有不同。土耳其语认为无点 i 和带点 i 在语义上是不同的,因此如果您使用土耳其语、不区分大小写、区分重音的排序规则,即使不区分大小写比较,我和 i 也不匹配。
您可以更改每个数据库、每个表、每个字段的排序规则,甚至可以更改每个查询的排序规则。我的理解是索引根据指定的排序顺序进行规范化,这意味着索引基本上保持原始字符串的扁平版本。例如,对于不区分大小写的排序规则,Apple 和 apple 存储为 apple。查询在搜索之前使用相同的排序规则进行展平。
在日语中,还有另一类规范化,其中全角和半角字符(如 ア=ア),在某些情况下,两个半角字符被展平为一个语义等效的字符 (バ=バ)。最后,对于某些语言,还有另一个带有复合字符的蜡球,其中孤立的变音符号可以与其他字符组成(例如,ä 中的变音符号是一个字符,由简单形式 a 组成)。越南语、泰语和其他一些语言有此类别的变体。如果存在规范形式,则 Unicode 规范化允许将组合形式和分解形式视为等效形式。 Unicode 规范化通常在进行任何比较之前应用。
总而言之,对于不区分大小写的比较,您可以执行与比较 ASCII 范围字符串时类似的操作:将比较的左侧和右侧展平为“小写”(例如),然后比较数组作为二进制数组。不同的是你需要 1) 将字符串标准化为相同的 unicode 形式(kC 或 kD) 2)根据该语言环境的规则将字符串标准化为相同的大小写 3)根据重音敏感规则对重音进行规范化 4)根据二进制比较进行比较 4) 如果适用,例如在排序的情况下,使用附加的二级和三级排序规则进行比较,其中包括类似于某些语言中“Mc”在“M”之前排序的内容。
是的,Windows 存储所有这些规则的表。默认情况下,您不会在每次安装中都获得所有这些,除非您通过控制面板中的东亚语言支持和复杂脚本支持添加对它们的支持。
【讨论】:
梦幻般的答案,令人着迷。谢谢。【参考方案2】:有一个映射文件包含所有具有 1:1 映射比率的案例映射。通常操作系统/框架/库支持特定版本的 Unicode,并且由于这种情况下的映射文件是版本化的,因此您将获得特定操作系统/框架/库/所支持的任何版本的 Unicode 的映射。
有关 Unicode 大小写映射的更多信息,请参阅:http://www.unicode.org/faq/casemap_charprop.html
【讨论】:
【参考方案3】:大多数书写系统没有单独的大写和小写字母。根据***,例外情况包括“罗马字母、希腊字母、西里尔字母和亚美尼亚字母”。
所以没有那么多信件需要担心。 This page 表明大范围的字符遵循一个简单的方案,即在大写字符上加 1 以获得等效的小写字母(当然也有一些例外)。
【讨论】:
【参考方案4】:正确的答案稍微复杂一些,这取决于你要做什么。
在比较字符串时,对于排序或搜索应用程序,要使用的正确算法在UTS #10: "Unicode Collation Algorithm". 中指定将各种表示视为等效。
排序规则取决于区域设置。当您对结果进行排序以显示给用户时,这主要是一个问题。忽略规则可能会让用户感到沮丧,甚至会导致安全漏洞。
如果您只是为了显示目的而尝试将单词大写,那么那里的规则也可能很棘手;存在一对多转换等问题。根据地区的不同,同一个字母的大小写可能不同。字母在单词中的位置会有所不同。还有一个独特的“标题大小写”概念,您只想将每个单词的第一个字母大写。有时,一个字符的首字母大写与其大写字母不同。
【讨论】:
以上是关于如何在 Unicode 中将字符串设置为大写/小写?的主要内容,如果未能解决你的问题,请参考以下文章
如何在javascript中将字符串的每个单词的第一个字符大写? [复制]
我如何在 nginx Web 服务器的重写规则中将大写字母转换为小写字母?