为啥 Swift String.Index 保持其索引值比真实值大 4 倍?

Posted

技术标签:

【中文标题】为啥 Swift String.Index 保持其索引值比真实值大 4 倍?【英文标题】:Why does Swift String.Index keeps its index value 4 times bigger than real?为什么 Swift String.Index 保持其索引值比真实值大 4 倍? 【发布时间】:2017-11-07 09:01:07 【问题描述】:

我试图在 Swift Playground 中实现 Boyer-Moore 算法,我经常使用 Swift String.Index,但开始困扰我的事情是为什么索引要保持比看起来应该大 4 倍的原因。

例如:

let why = "is s on 4th position not 1st".index(of: "s")

Swift Playground 中的这段代码将生成 _compoundOffset 4 而不是 1。我确信这样做是有原因的,但我在任何地方都找不到解释。

这不是解释如何在 Swift 中获取 char 索引的任何问题的重复,我知道,我使用 index(of:) 函数只是为了说明问题。我想知道为什么使用 String.Index 时第二个字符的值是 4 而不是 1。

所以我猜它保存索引的方式是私有的,我不需要知道内部实现,它可能与 UTF16 和 UTF32 编码有关。

【问题讨论】:

Finding index of character in Swift String的可能重复 可能是因为在 Swift 中每个字符都由 UTF-32 字符表示...? String.Index 应被视为不透明类型。因为按照 Unicode 的工作方式,即使是 4 位也不一定会上升。 你显示的不是你比较的真实索引。真正的索引是 1 并且是 whyencodedOffset 值,这就是您认为应该是的真正索引。 【参考方案1】:

首先,永远不要假设_compoundOffset 只是一个实现细节。 _compoundOffsetString.Index 的一个内部属性,它使用位掩码在这个数字中存储两个值:

encodedOffset,它是索引在 UTF-16 代码单元方面的字节偏移量。这个是公开的,可以信赖。在您的情况下,encodedOffset1,因为这是该字符的偏移量,以 UTF-16 代码单元衡量。请注意,内存中字符串的编码无关紧要! encodedOffset 始终为 UTF-16。

transcodedOffset,它将索引的偏移量存储在当前 UTF-16 代码单元。这也是您无法访问的内部属性。对于大多数索引,该值通常为0,除非您在字符串的 UTF-8 视图中有一个索引,该索引引用了一个不属于 UTF-16 边界的代码单元。在这种情况下,transcodedOffset 将以字节为单位存储与encodedOffset 的偏移量。

现在为什么是_compoundOffset == 4?因为它将transcodedOffset 存储在两个最低有效位中,而encodedOffset 存储在62 个最高有效位中。所以encodedOffset == 1, transcodedOffset == 0 的位模式是0b100,也就是4

你可以验证这一切in the source code for String.Index

【讨论】:

我认为这种表示是因为 Swift 4 中不同视图之间的新“共享索引”? @MartinR:是的,完全正确。提议于SE-0180。

以上是关于为啥 Swift String.Index 保持其索引值比真实值大 4 倍?的主要内容,如果未能解决你的问题,请参考以下文章

Swift截取字符串(转载)

Swift字符串截取与Range使用

为啥 elisp 局部变量在这种情况下保持其值?

为啥 UITableView contentOffset 在 tableview reloadData 期间变化很大,而不是保持不变? reloadData 后如何使其保持不变?

为啥在 Swift 中的铸造成本如此之高,而不是……将其保留为 AnyObject?

AutoLayout - 使用水平约束保持图像的比例(Swift Xcode 6)