1

我正在上传文档以在 solr 中进行索引,它运行良好,在卢克的帮助下,我可以获得 solr 创建的所有索引项。

我的要求是获取分析器创建的令牌列表。就像我通过“这是简单的 HTML 文档”一样,tokenizer 将创建类似这样的标记:

[简单][html][文档]。我想要这个列表用于我的索引文档。

我怎么能得到这个。

谢谢

4

3 回答 3

2

你可以尝试使用

术语向量组件 (TVC) 是一个 SearchComponent,旨在返回有关在字段上设置 termVector 属性时存储的文档的信息:

<field name="features" type="text" indexed="true" stored="true" multiValued="true" termVectors="true" termPositions="true" termOffsets="true"/>

solrconfig.xml 中所需的更改

您需要在您的 solr 配置中启用 TermVectorComponent(这已经在示例 solrconfig.xml 中):

<searchComponent name="tvComponent" class="org.apache.solr.handler.component.TermVectorComponent"/>

使用此组件的 RequestHandler 配置可能如下所示:

<requestHandler name="tvrh" class="org.apache.solr.handler.component.SearchHandler">
        <lst name="defaults">
                <bool name="tv">true</bool>
        </lst>
        <arr name="last-components">
                <str>tvComponent</str>
        </arr>
</requestHandler>

更多信息:https ://wiki.apache.org/solr/TermVectorComponent

于 2017-07-26T15:47:08.217 回答
1

有不同的方法来实现这一点:

1)如果您为感兴趣的领域启用了术语向量,您可以使用术语向量组件。

2)您可以探索模式浏览器功能并查看索引标记

3)您可以使用 luke 来探索每个文档/字段的索引标记

4) 您可以使用分析工具即时运行分析

于 2017-07-26T14:49:39.013 回答
0

您可以在 Solr 管理页面的分析选项卡中获取该信息

于 2017-07-26T13:26:26.967 回答