4

有没有办法(程序、库)大致知道文档是用哪种语言编写的?

我有一堆混合语言的文本文档(~500K)要导入启用 i18n 的 CMS(Drupal)..

我不需要完美匹配,只需要一些猜测。

4

5 回答 5

6

有一种非常简单的方法可以做到这一点,因为您拥有需要识别的所有不同语言的语料库数据。这称为 n-gram 建模。不过,我认为Lingua::Identify已经这样做了,因此这是您最好的选择,而不是自己实施。

于 2008-11-02T18:10:34.437 回答
0

似乎有一个 Perl 模块:Lingua::Identify

保罗。

于 2008-11-02T18:05:13.030 回答
0

我会说你最好的选择是寻找你正在寻找的语言所独有的关键词——文章之类的东西。例如,“Un”将同时出现在西班牙语和法语中,但“une”可识别为法语,而“unos”例如可识别为西班牙语。变音符号也很有用——你会在西班牙语和可能的葡萄牙语中看到“ñ”,在法语中看到“ç”以及其他一些……诸如此类的东西。

编辑 - 保罗的解决方案可能是最好的;看起来它使用了我概述的方法,再加上一些额外的方法。

于 2008-11-02T18:06:15.600 回答
0

通过运行 Google 搜索“确定文档语言”,我发现了许多不同的网站可以帮助您。第一页上的第三个链接最终将我引向了 Google Code API 中的一个函数,这正是您所需要的。

于 2008-11-02T18:07:52.120 回答
0

Google Translation API 很酷,并且有一个 REST 接口。但我需要向它发送大量 BIG 文档(是的,我可以使用摘录),即使 Google 是 Google,我也认为这不公平。

文件也不是我的,我问我的客户是否可以将它们发送给第三方(即使 G 迟早得到它们;))。

我想我会走 Perl 的道路......

于 2008-11-02T18:15:59.920 回答