7

在我最近构建的一个 Web 应用程序中,当我们的一个用户决定使用它来创建完全用日语的东西时,我感到非常惊喜。然而,文字被奇怪而笨拙地包裹起来。显然浏览器不能很好地处理日文文本的换行,可能是因为它包含的空格很少,因为每个字符构成一个完整的单词。但是,这并不是一个真正安全的假设,因为某些单词是由多个字符构成的,并且将某些字符组分成不同的行是不安全的。

谷歌搜索并没有真正帮助我更好地理解这个问题。在我看来,一个人需要一本牢不可破的模式字典,并假设其他任何地方都可以安全地破解。但是我担心我对日语的了解不够,无法真正了解所有单词,我通过一些搜索了解到,这些单词非常复杂。

你会如何处理这个问题?您是否知道已经存在任何可以令人满意的方式处理此问题的库或算法?

4

2 回答 2

12

日语自动换行规则称为kinsoku shori,非常简单。他们实际上主要关心标点符号,并且根本不尝试保持单词不间断。

我刚查了一本日本小说,确实,音节假名脚本中的单词和由多个汉字组成的单词都被包裹在中间词中而不受惩罚。

于 2010-01-19T00:57:03.057 回答
0

下面列出的项目对于解决日语自动换行(或从另一个角度来看的分词)很有用。

mikan 使用基于正则表达式的方法,而 budou 使用自然语言处理。

于 2020-01-14T13:17:46.377 回答