我想问的事情很简单。我有一个托管在 webbrowser 控件中的 HTML 文档。
现在,当我使用 MSHTML 范围属性选择一个韩语单词时,我可以得到
range.htmlText
和range.Text
. 他们都显示了韩语单词。我要做的就是将其转换为 unicode 格式。
可能吗?
仅供参考,我正在使用 C# WinForms 完成所有这些工作。
你能提供更多信息吗?当你阅读它时,“韩语单词”是什么格式的?(我假设与 HTML 文档标题相同。)您能否发布一个示例 HTML 页面以供您阅读?
如果问题是你得到的字符串只是在不同的代码页中,你可以使用 .Net 中的 Encoding 类来转换它。例如,您的文本可能在 iso-2022-kr 中。这是一个转换字符串的示例,在下面的代码中称为“stringInKoreanIsoEncoding”:
Encoding koreanEncoding = Encoding.GetEncoding(50225); // 50225 is the code page for iso-2022-kr
byte[] convertedToUtf8 = Encoding.Convert(koreanEncoding, Encoding.UTF8, koreanEncoding.GetBytes(stringInKoreanIsoEncoding));
string utf8String = Encoding.UTF8.GetString(convertedToUtf8);