我正在上传文档以在 solr 中进行索引,它运行良好,在卢克的帮助下,我可以获得 solr 创建的所有索引项。
我的要求是获取分析器创建的令牌列表。就像我通过“这是简单的 HTML 文档”一样,tokenizer 将创建类似这样的标记:
[简单][html][文档]。我想要这个列表用于我的索引文档。
我怎么能得到这个。
谢谢
你可以尝试使用
术语向量组件 (TVC) 是一个 SearchComponent,旨在返回有关在字段上设置 termVector 属性时存储的文档的信息:
<field name="features" type="text" indexed="true" stored="true" multiValued="true" termVectors="true" termPositions="true" termOffsets="true"/>
solrconfig.xml 中所需的更改
您需要在您的 solr 配置中启用 TermVectorComponent(这已经在示例 solrconfig.xml 中):
<searchComponent name="tvComponent" class="org.apache.solr.handler.component.TermVectorComponent"/>
使用此组件的 RequestHandler 配置可能如下所示:
<requestHandler name="tvrh" class="org.apache.solr.handler.component.SearchHandler">
<lst name="defaults">
<bool name="tv">true</bool>
</lst>
<arr name="last-components">
<str>tvComponent</str>
</arr>
</requestHandler>
有不同的方法来实现这一点:
1)如果您为感兴趣的领域启用了术语向量,您可以使用术语向量组件。
2)您可以探索模式浏览器功能并查看索引标记
3)您可以使用 luke 来探索每个文档/字段的索引标记
4) 您可以使用分析工具即时运行分析
您可以在 Solr 管理页面的分析选项卡中获取该信息