2

我有一个包含大引号的字符串。我想用 HTML 实体替换它们,以确保它们不会混淆其他下游系统。对于我的第一次尝试,我只是为要替换的字符添加了匹配,直接在我的代码中输入它们:

public static String escapeXml(String s) {
    StringBuilder sb = new StringBuilder();
    char characters[] = s.toCharArray();
    for ( int i = 0; i < characters.length; i++ ) {
        char c = characters[i];
        switch (c) {
            // other escape characters deleted for clarity
            case '“':
                sb.append("&#8220;");
                break;
            case '”':
                sb.append("&#8221;");
                break;
            case '‘':
                sb.append("&#8216;");
                break;
            case '’':
                sb.append("&#8217;");
                break;
            default:
                sb.append(c);
                break;
        }
    }
    return sb.toString();
}

这在我的 Mac 上编译并运行良好,但是当我们的 CI 服务器(在 Linux 上运行)尝试构建它时,它阻塞了:

Out.java:[347,16] duplicate case label

显然,Linux 机器上的构建链的某些部分无法识别和区分这些花哨的字符。

我的下一个尝试是使用 Unicode 转义。不幸的是,这甚至无法在我的 Mac 上编译:

...
            case '\u8220':
                sb.append("&#8220;");
                break;
            case '/u8221':
                sb.append("&#8221;");
                break;
...

我的编译器抛出了这个抱怨:

Out.java:[346,21] unclosed character literal

我对如何进行这种替换并让它跨平台可靠地工作感到困惑。有人有任何指示吗?提前致谢。

4

5 回答 5

4

Unicode 文字是十六进制的:

case '\u201c':
    sb.append("&#8220;");
    break;
....

而且,正如其他答案中提到的那样,您的一个文字中有 a/而不是 a \

于 2009-11-13T21:08:11.447 回答
4

您可以使用文字字符(即,'‘'),但您的构建过程需要在编译期间指定正确的源编码。命令javac选项是. -encoding(Antjavac任务的属性是相同的。)这应该与您的 IDE 在保存文件时使用的任何编码相匹配。

例如,如果您的 IDE 使用 UTF-8,但构建机器使用其平台默认编码的 US-ASCII,则特殊字符将被解码为?. 由于现在多个案例具有相同的标签,因此您会收到原始错误消息。

于 2009-11-13T21:14:26.297 回答
3

编译器问题是因为你有 '/u8221' 而不是 '\u8221' - 正斜杠而不是反斜杠。

我不完全相信使用实体会有所帮助,但你可以尝试......我想这取决于下游代码的破坏程度。

编辑:Doh,我没有发现你的 Unicode 值是十进制的。是的,它们需要使用十六进制 :) 我将把这个答案留在这里,因为它解释了编译器抱怨的原因 - '\u8221' 是一个完美的字符转义序列,而不是你想要的那个:)

于 2009-11-13T21:07:29.930 回答
0

默认编码因平台而异 - Windows 使用其自己的 ISO-Latin-1 方言(至少我使用过的方言)。Linux 经常使用 UTF-8(这很可能是您的问题),而 Mac 使用 MacRoman。您可以通过保持纯 7 位 ASCII 来规避大多数问题,如果您在源代码中需要它,可以使用 \u 来处理任何上述问题。

就我个人而言,我会将任何“国家”的东西保留在 Java 源代码之外,并使用本地化功能来查找简单键的翻译字符串,并将它们放置在您的 Java 代码中。

于 2009-11-13T21:52:23.127 回答
0

更好的方法是使用 Apache Commons Lang http://commons.apache.org/lang/api/org/apache/commons/lang/StringEscapeUtils.html

于 2009-11-14T10:03:59.690 回答