最终,我正在创建一个使用三种语言的网站:英语、俄语和中文。我希望如果我在应用程序和数据库中使用 UTF-8,输入输出不会有任何问题(会有吗?)
但其中最可怕的部分是搜索。它应该足够酷。应该是全文,应该是索引等等。希望它会理解形态学,使用词干提取等。
首先,我查看了 Zend_Search_Lucene,但我从http://framework.zend.com/issues/browse/ZF/component/10021意识到它有中文问题。:(
现在我在想狮身人面像。它支持英语和俄语词干。我不确定它对中文有多好,我不知道添加对它的支持对我来说有多难。http://www.sphinxsearch.com/forum/view.html?id=1554是一线希望,但作为没有经验的 Sphinx 用户,我认为我不明白那里所说的内容。
所以,
有没有人在这种“与语言无关”的搜索方面有任何经验,可以与我分享吗?
你能给我一些东西来测试搜索吗?作为一个母语为俄语的人,对英语有一些基本的了解,我可以自己测试俄语和英语搜索,但我什至不知道这张中国图片的哪些部分是单词。请给我一些中文字符串以将它们放入索引和一些具有预期结果的查询!