我不知道如何添加多字节编码支持,而且对多字节语言知之甚少。在研究搜索引擎时,我的应用程序会扫描所有编程语言的代码。一些源代码的注释部分可能有 CJK 编码。为方便起见,我将 java 作为源代码示例,我的应用程序也在 java 中。
首先,我想编写测试用例来查看要索引的源代码是否具有 CJK 编码以及它是否由我的应用程序编码。如果不包括支持,我希望我的测试失败,以便将来添加。
但我不知道如何测试它,如何在单元测试的输入样本中输入 CJK 以及在 Java 应用程序控制台中输出什么。
字节顺序标记的存在可能有用,但它们是可选的。使用 UTF 时,还有其他确定编码的方法。这可能有用:Java:如何确定流的正确字符集编码。