c - C：从 UTF-8 字符串中确定 UTF-16 字符串需要多少字节的最有效方法

Question

我已经看到了一些非常聪明的代码，用于在 Unicode 代码点和 UTF-8 之间进行转换，所以我想知道是否有人拥有（或喜欢设计）这个。

具体来说，我想知道是否有捷径可以知道何时需要代理对，而无需将 UTF-8 序列完全转换为代码点。

我见过的最好的 UTF-8 到代码点代码使用矢量化技术，所以我想知道这是否也可能在这里。

score 5 · Accepted Answer

效率始终是速度与大小的权衡。如果速度比大小更受青睐，那么最有效的方法就是根据源字符串的长度进行猜测。

有4种情况需要考虑，简单取最坏的情况作为最终的缓冲区大小：

最坏的情况扩展因素是在将 U+0000-U+007f 从 utf8 转换为 utf16 时：缓冲区，按字节计算，只需要是源字符串的两倍大。当编码为 utf16 为 utf8 时，每个其他 unicode 代码点都会产生相同的大小或较小的字节分配。

score 3 · Accepted Answer

非常简单：计算头字节数，重复计算字节数F0和向上。

在代码中：

size_t count(unsigned char *s)
{
    size_t l;
    for (l=0; *s; s++) l+=(*s-0x80U>=0x40)+(*s>=0xf0);
    return l;
}

注意：此函数以 UTF-16 代码单元返回长度。如果您想要所需的字节数，请乘以 2。如果您要存储一个空终止符，您还需要为此考虑空间（一个额外的代码单元/两个额外的字节）。

score 2 · Accepted Answer

这不是算法，但如果我理解正确，规则如下：

具有 MSB 的每个字节0增加 2 个字节（1 个 UTF-16 代码单元）
- 该字节表示 U+0000 - U+007F 范围内的单个 Unicode 代码点
每个具有 MSB 的字节110或1110添加 2 个字节（1 个 UTF-16 代码单元）
- 这些字节分别以 2 和 3 字节序列开始，它们代表 U+0080 - U+FFFF 范围内的 Unicode 代码点
具有 4 个 MSB 集的每个字节（即以开头1111）添加 4 个字节（2 个 UTF-16 代码单元）
- 这些字节开始 4 字节序列，覆盖 Unicode 范围的“其余部分”，可以用 UTF-16 中的低和高代理表示
10可以跳过每隔一个字节（即以开头的字节）
- 这些字节已经与其他字节一起计算。

我不是 C 专家，但这看起来很容易矢量化。

3 回答 3