我有一张包含 ITPC 数据的图像,并使用以下命令将 IPTC 提取为文本数据:
convert image.jpg IPTCTEXT:iptc.txt
问题是这似乎使用实体来表示“特殊字符”:
2#120#Caption="Beschreibung für den Import aus IPTC"
其实这里应该是“für”。但是没有得到正确的实体 ü 对于“ü”字符,我得到两个实体(可能 UTF-8 编码字符的两个字节都转换为实体分隔)。这两个实体我无法正确解析。
有没有办法获得正确的实体或禁用完全返回 UTF-8 字符的实体?
编辑:我尝试在 Java 中使用 StringEscapeUtils.unescapeXml 解析实体,但我得到两个字符(“ü”)而不是“ü”,因为两个实体都是非转义分隔的。
Edit2:此处的示例图片:http: //fs1.directupload.net/images/150615/5eiv6wwf.jpg