我正在使用 C++ ICU 库。我希望将一个 utf-8 字符串分成大致相等的块。但是,我希望在字素簇边界处划分块。我不希望将整个字符串转换为 utf-16 以实现内存和速度效率。相反,我想将靠近我估计的块边界的少量 utf-8 代码点转换为 utf-16。然后我可以使用 ICU 的BreakIterator来计算出确切的边界。
可以构成字素簇的代码点数量是否有硬性上限?如果是这样,它是什么?为了确定需要从 utf-8 转换为 utf-16 的最小代码点,我需要知道这一点。
我正在使用 C++ ICU 库。我希望将一个 utf-8 字符串分成大致相等的块。但是,我希望在字素簇边界处划分块。我不希望将整个字符串转换为 utf-16 以实现内存和速度效率。相反,我想将靠近我估计的块边界的少量 utf-8 代码点转换为 utf-16。然后我可以使用 ICU 的BreakIterator来计算出确切的边界。
可以构成字素簇的代码点数量是否有硬性上限?如果是这样,它是什么?为了确定需要从 utf-8 转换为 utf-16 的最小代码点,我需要知道这一点。