我已经看到了一些非常聪明的代码,用于在 Unicode 代码点和 UTF-8 之间进行转换,所以我想知道是否有人拥有(或喜欢设计)这个。
- 给定一个 UTF-8 字符串,相同字符串的 UTF-16 编码需要多少字节。
- 假设 UTF-8 字符串已经过验证。它没有 BOM,没有过长的序列,没有无效的序列,是空终止的。它不是CESU-8。
- 必须支持带有代理项的完整 UTF-16。
具体来说,我想知道是否有捷径可以知道何时需要代理对,而无需将 UTF-8 序列完全转换为代码点。
我见过的最好的 UTF-8 到代码点代码使用矢量化技术,所以我想知道这是否也可能在这里。