java - 如何 HTML 转义 Java 字符串中的花括号

Question

我有一个包含大引号的字符串。我想用 HTML 实体替换它们，以确保它们不会混淆其他下游系统。对于我的第一次尝试，我只是为要替换的字符添加了匹配，直接在我的代码中输入它们：

public static String escapeXml(String s) {
    StringBuilder sb = new StringBuilder();
    char characters[] = s.toCharArray();
    for ( int i = 0; i < characters.length; i++ ) {
        char c = characters[i];
        switch (c) {
            // other escape characters deleted for clarity
            case '“':
                sb.append("&#8220;");
                break;
            case '”':
                sb.append("&#8221;");
                break;
            case '‘':
                sb.append("&#8216;");
                break;
            case '’':
                sb.append("&#8217;");
                break;
            default:
                sb.append(c);
                break;
        }
    }
    return sb.toString();
}

这在我的 Mac 上编译并运行良好，但是当我们的 CI 服务器（在 Linux 上运行）尝试构建它时，它阻塞了：

Out.java:[347,16] duplicate case label

显然，Linux 机器上的构建链的某些部分无法识别和区分这些花哨的字符。

我的下一个尝试是使用 Unicode 转义。不幸的是，这甚至无法在我的 Mac 上编译：

...
            case '\u8220':
                sb.append("&#8220;");
                break;
            case '/u8221':
                sb.append("&#8221;");
                break;
...

我的编译器抛出了这个抱怨：

Out.java:[346,21] unclosed character literal

我对如何进行这种替换并让它跨平台可靠地工作感到困惑。有人有任何指示吗？提前致谢。

score 4 · Accepted Answer

Unicode 文字是十六进制的：

case '\u201c':
    sb.append("&#8220;");
    break;
....

而且，正如其他答案中提到的那样，您的一个文字中有 a/而不是 a \。

score 4 · Accepted Answer

您可以使用文字字符（即，'‘'），但您的构建过程需要在编译期间指定正确的源编码。命令javac选项是. -encoding（Antjavac任务的属性是相同的。）这应该与您的 IDE 在保存文件时使用的任何编码相匹配。

例如，如果您的 IDE 使用 UTF-8，但构建机器使用其平台默认编码的 US-ASCII，则特殊字符将被解码为?. 由于现在多个案例具有相同的标签，因此您会收到原始错误消息。

score 3 · Accepted Answer

编译器问题是因为你有 '/u8221' 而不是 '\u8221' - 正斜杠而不是反斜杠。

我不完全相信使用实体会有所帮助，但你可以尝试......我想这取决于下游代码的破坏程度。

编辑：Doh，我没有发现你的 Unicode 值是十进制的。是的，它们需要使用十六进制 :) 我将把这个答案留在这里，因为它解释了编译器抱怨的原因 - '\u8221' 是一个完美的字符转义序列，而不是你想要的那个:)

score 0 · Accepted Answer

默认编码因平台而异 - Windows 使用其自己的 ISO-Latin-1 方言（至少我使用过的方言）。Linux 经常使用 UTF-8（这很可能是您的问题），而 Mac 使用 MacRoman。您可以通过保持纯 7 位 ASCII 来规避大多数问题，如果您在源代码中需要它，可以使用 \u 来处理任何上述问题。

就我个人而言，我会将任何“国家”的东西保留在 Java 源代码之外，并使用本地化功能来查找简单键的翻译字符串，并将它们放置在您的 Java 代码中。

score 0 · Accepted Answer

更好的方法是使用 Apache Commons Lang http://commons.apache.org/lang/api/org/apache/commons/lang/StringEscapeUtils.html。

java - 如何 HTML 转义 Java 字符串中的花括号

5 回答 5

Related

Reference