2

最终,我正在创建一个使用三种语言的网站:英语、俄语和中文。我希望如果我在应用程序和数据库中使用 UTF-8,输入输出不会有任何问题(会有吗?)

但其中最可怕的部分是搜索。它应该足够酷。应该是全文,应该是索引等等。希望它会理解形态学,使用词干提取等。

首先,我查看了 Zend_Search_Lucene,但我从http://framework.zend.com/issues/browse/ZF/component/10021意识到它有中文问题。:(

现在我在想狮身人面像。它支持英语和俄语词干。我不确定它对中文有多好,我不知道添加对它的支持对我来说有多难。http://www.sphinxsearch.com/forum/view.html?id=1554是一线希望,但作为没有经验的 Sphinx 用户,我认为我不明白那里所说的内容。


所以,

有没有人在这种“与语言无关”的搜索方面有任何经验,可以与我分享吗?

你能给我一些东西来测试搜索吗?作为一个母语为俄语的人,对英语有一些基本的了解,我可以自己测试俄语和英语搜索,但我什至不知道这张中国图片的哪些部分是单词。请给我一些中文字符串以将它们放入索引和一些具有预期结果的查询!

4

4 回答 4

5

中文或日文等语言中的表意字符需要两个终端字符位置,因此遇到 UTF8 问题,您应该使用 UTF16 代替

除此之外,任何支持 UTF16 和您的要求(例如词干)的搜索引擎都应该可以正常工作 - 也就是说,如果您喜欢 Sphinx,那就去吧!

于 2009-11-02T13:49:31.763 回答
0

来自 Xapian 文档:

Xapian 使用雪球词干算法。目前,这些支持丹麦语、荷兰语、英语、芬兰语、法语、德语、匈牙利语、意大利语、挪威语、葡萄牙语、罗马尼亚语、俄语、西班牙语、瑞典语和土耳其语。也有 Lovins 的英语词干分析器、Porter 的原始英语词干分析器、Kraaij-Pohlmann 荷兰语词干分析器以及将变音符号标准化的德语词干分析器的变体。

或者世界上的一些语言,比如汉语,词干的概念是不适用的,但是对于印欧语系的许多语言来说肯定是有意义的。

http://xapian.org/docs/stemming.html

于 2009-10-29T19:37:19.973 回答
0

Google 用户搜索还不足以满足您的需求吗?你到底不喜欢它的什么?

于 2009-11-02T11:55:53.443 回答
0

我正在维护一个基于sphinx的开源项目,以提供更好的中文支持。您可以查看http://code.google.com/p/sphinx-for-chinese/。我对俄语不太了解,但是如果俄语单词是空格分隔的,那就没问题了。如果您有任何问题,请给我留言

于 2011-07-27T16:33:41.710 回答