问题标签 [luke]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
lucene - Lucene 搜索会跳过一些结果
我正在尝试构建一个通过 Lucene 索引实现搜索系统的应用程序。现在索引已建立,我可以在索引上搜索文档,一切似乎都工作正常,但是当我使用许多文档中使用的字段进行搜索时,分析器只返回一些文档。我尝试使用 Luke 进行相同的搜索并且行为方式相同。
即:我的索引有 2 个字段:
字段 A:唯一的标识符。字段 B:一个字符串。
第一个例子:
我们有 5 个文件:
文件 1:字段A:1;字段B:你好世界
文件 2:字段 A:2;FieldB:世界你好!
文件 3:字段 A:3;字段B:你好世界
文件 4:字段 A:4;字段B:任何东西
文件 5:字段 A:5;字段B:你好世界
当我进行像“B:hello world”这样的搜索时,它应该返回文档 1、3 和 5,但它只返回 1 和 3。
当我进行像“A:5”这样的搜索时,它会返回文档 5,字段 B 的值是“hello world”。
第二个例子:(一个令牌)
文件 6:字段 A:6;字段B:令牌
文件 7:字段A:7;字段B:令牌
文件 8:字段 A:8;字段B:TOKEN
Doc 9: FieldA:9 FieldB: token
当我搜索 FieldB:"token" 时,它只返回 Doc 6 和 Doc 9。我能找到 Doc 7 的唯一方法是通过其 FieldA 进行搜索。
我正在使用 WhitespaceAnalyzer 并且两个字段都不是 NOT_ANALYZED。
索引生成器主
CreateLuceneDocument 方法:
我注意到未返回的文档的分值较低。假设在创建索引时这是一个问题,因为 Luke 的行为方式与应用程序相同,那么我做错了什么?
提前致谢!
search - Lucene 未找到索引中存在的结果
我正在和 Luke 一起检查 Lucene 索引。
所有文档都有一个“标题”字段,我想搜索搜索表达式 Title:Power,我想通过它查找标题包含单词的所有文档Power
。
在卢克中,我转到“搜索”选项卡并输入+Title:Power
搜索时,没有结果。但是,当我按另一个字段搜索时,我确实找到了该文档:+ContentType:MyContentType
在列Title
中,我可以清楚地看到文档的值是:Power Quality Guide
。
在标题上搜索时我没有找到此文档的原因可能是什么?
lucene - Luke 说我的 Lucene 索引目录无效
我正在尝试了解 Lucene,并希望使用 Luke 进行调查。我尝试使用 Lucene 4.3 中的 IndexFiles 演示构建索引,然后尝试使用最新版本的 Luke 查看索引,我收到以下消息:
任何想法有什么问题以及如何解决?我的 Lucene 版本对卢克来说太新了吗?有没有办法告诉 Lucene 编写旧版本的索引?提前致谢,--马克
indexing - 如何使用卢克核对指数
我正在使用 nutch 1.7 版本。
抓取结束,我有结果文件。
我是否打开这个目录下的任何文件都会出现这个错误。
请问,如何在这个结果文件中使用卢克检查索引?
lucene - 提交对 Lucene 索引 v2.3 的更改会损坏它 - 未知索引格式 -11
我有兴趣编辑 Sitecore (6.5) 安装的搜索索引。到目前为止,我已经使用 1.0.0 和 3.1.0 版本的 Luke 打开 index 文件夹。卢克报告了以下细节
这是使用 lukeall-3.1.0.jar 完成的
我尝试通过 Luke GUI 对索引进行简单的更改,即。右键单击 Set Norm,然后将 0.5 更改为 0.1。我重新打开索引,它现在说
此索引格式现在与 Sitecore 不兼容 - 无论如何都要对索引进行更改并保留其版本?
谢谢!
lucene - Luke 4.6.1 FormatTooNew 错误?
所以我第一次尝试使用卢克,我遇到了一些麻烦。我将它指向我想要的目录,但是看到这个:
org.apache.lucene.index.IndexFormatTooNewException:不支持格式版本(资源:SimpleFSIndexInput(path="C:\Users*me*\Chat Data\chat-data\index\segments.gen")):-3(需要介于 -2 和 -2 之间)
有谁知道如何解决这一问题?是兼容性问题吗?我迷路了。
java - 弹性搜索和卢克
如何使用卢克打开弹性搜索索引?
我尝试了从 3.5 到 4.8 的卢克,使用 elasticsearch 1.1 到 1.2,但似乎没有任何效果。
唯一似乎适用的资源是http://rosssimpson.com/blog/2014/05/06/using-luke-with-elasticsearch/不幸的是没有用。
solr - Solr 字段名称中的 $
我在 Solr 中有一个带有 $ 登录字段名称的索引。重新索引不是一种选择。Solr 中有功能查询,其中 $ 是变量标识符(请参见此处)。当我调用查询来检索特定字段(fl=$created_dt,name)时,solr 将返回错误
解析字段名时出错:解析函数“$created_dt,$name”时缺少参数 created_dt
我知道这是因为 Solr 将其解释为变量。有什么办法可以解决吗?
lucene - Lucene 工具 Luke 如何确定文件计数?
使用 Luke,它在 Lucene 索引中显示 348K 文件。我们的存储库在通过 ACCE(IBM Connections 在 Connections Content Manager [ie. FileNet] 中存储文件)使用 SQL 命令进行查询后返回用户上传的 345K 文件。有什么方法可以解释 3K 的区别吗?Luke 会报告比实际存储库包含的更多文档,这似乎很奇怪。
有控制文档吗?版本?我可以看到 Luke 页面上列出的 325 个文档表明它也在计算删除,但仍然存在 3K 的差异(实际差异在计算删除时最初接近 3.5K)。随着时间的推移,我们一直在监控用户添加的文档数量的增长情况,并且它们正以一致的速度增长。但是,Luke 与 ACCE 返回的文件数之间的差异正在增加。即使不考虑卢克列出的删除,我们现在也接近 4K。我们如何解释这种异常现象?
谢谢。
lucene - 在 Excel 文件中导出 Luke 的“排名靠前的术语”
我们可以在 Luke 的概述页面上看到特定领域的“顶级坦克术语”。我想知道是否有任何方法可以将这个术语列表导出到 excel 文件中?
我认为这应该是一个标准要求,并且在 Luke 中肯定应该有一种方法,但我没有找到它。
我也做了谷歌,但找不到任何有用的东西。