我从 twitter 流 api 获取推文,我发现其中一些将语言代码“in”作为参数。语言代码应该符合 ISO 639-1 标准,但我无法找到它对应的语言。有人知道吗?
3 回答
根据维基百科,“in”是印度尼西亚语的前 ISO 639-1 语言代码(“id”自 1989 年 11 月 3 日起使用),但这似乎很奇怪。
我所做的是这个搜索:它给你一堆用这种奇怪的“in”语言的推文,你只需要点击灰色的“显示翻译”东西让 Bing 为你做这项工作。由于我点击的所有推文都是马来语或印度尼西亚语(这似乎是马来语的标准化寄存器,无论这意味着什么),我会说“in”包含它们,这似乎是两种主要语言在印度尼西亚。
在大多数情况下,如果您不知道语言是什么,只需在 Google 翻译中输入几行内容,并让它自动为您检测语言,这至少会给您一个很大的提示。
如 Twitter 开发人员文档中所述,“in”用于印度尼西亚语(网络存档链接以供将来参考):
在他们的文档中,他们说他们正在使用 BCP 47 标准,该标准指的是 ISO 639,其中,正如其他答案之一所述,只有一个古老的版本将印度尼西亚语称为“in”。看起来有点像他们开发了一些东西,然后试图找到一个标准来描述他们开发的东西......
无论如何,我不知道 Twitter 的“in”语言检测的精度,所以在你把它作为你的应用程序的一个重要因素之前,你自己检查一下它的效果如何。根据我自己的经验,我知道 Twitter 语言检测不支持的“斯瓦希里语”推文通常被分配他加禄语(“tl”),这使得“tl”分类非常不可靠......
我在亚洲播放了大约 6 小时的推文,然后看了看——令人讨厌的是,“in”代码捕获了印度尼西亚语(印度尼西亚语)、马来语(马来西亚语)的推文——两种类似的语言——以及印地语,但输入的是罗马语信件(我与精通印地语的人核对过)。
我还查看了标记为来自马来西亚(国家代码“MY”)的推文,主要语言是马来语/马来西亚语(代码“我的”),绝大多数推文都被标记为“in”。考虑到这两种语言的接近程度,我并不感到惊讶,无论 Twitter 在此处使用“in”代码所做的任何事情都将它们归类为同一种语言。
此外,印尼语有很多来自印地语的借词。