问题标签 [breakiterator]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
30 浏览

java - 如何从字符串中提取字形?

我尝试从 String 中提取 5 个字形,但无法正确实现。我有这样的字符串:

我最后一次尝试是使用 BreakIterator:

有人可以帮我完成这项任务吗?

先感谢您。

0 投票
1 回答
48 浏览

c++ - 字素簇中的最大代码点数

我正在使用 C++ ICU 库。我希望将一个 utf-8 字符串分成大致相等的块。但是,我希望在字素簇边界处划分块。我不希望将整个字符串转换为 utf-16 以实现内存和速度效率。相反,我想将靠近我估计的块边界的少量 utf-8 代码点转换为 utf-16。然后我可以使用 ICU 的BreakIterator来计算出确切的边界。

可以构成字素簇的代码点数量是否有硬性上限?如果是这样,它是什么?为了确定需要从 utf-8 转换为 utf-16 的最小代码点,我需要知道这一点。

0 投票
0 回答
41 浏览

java - 带括号的 Java 中断迭代器

使用 Java BreakIterator,我能够从字符串中提取单词。但是,给定以下使用括号表示单词可以是复数的字符串,括号被识别为它们自己的单词。

输出:

当我期望:

是否可以使用中断迭代器的自定义实现,以便实际上将具有“可选复数”的单词视为一个单词?