我正在使用几天前的 Solr 4 主干构建。
根据 LukeRequestHandler 的 Wiki 页面(第一个示例输出),我们应该获取每个或任何指定字段的令牌计数。我想用它来计算我所有文档中每个单词出现的次数。例如,如果单词“is”出现在两个 MS Word 文档中,第一个出现两次,第二个出现 3 次,我会得到如下输出:
<lst name="text">
<str name="type">text</str>
<str name="schema">IT-M---------</str>
<str name="index">(unstored field)</str>
<int name="docs">2</int>
<int name="distinct">42</int>
<lst name="topTerms">
<int name="is">5</int>
这是因为“is”这个词在两个文档中总共出现了五次。但是我实际得到的是<int name="is">2</int>
. 我认为这是因为它明显地(按文档)总共发生了两次。
但同样,根据 Wiki,我们应该得到一个总计数,将所有文档相加,这正是我真正想要的。
如何获得所有索引文档中每个单词出现的总次数?
参考: