5

I am new to IR techniques.

I looking for a Java based API or tool that does the following.

  1. Download the given set of URLs
  2. Extract the tokens
  3. Remove the stop words
  4. Perform Stemming
  5. Create Inverted Index
  6. Calculate the TF-IDF

Kindly let me know how can Lucene be helpful to me.

Regards Yuvi

4

2 回答 2

4

您可以尝试使用Word Vector Tool - 自最新版本以来已经有一段时间了,但它在这里工作正常。它应该能够执行您提到的所有步骤。但是,我自己从未使用过爬虫部分。

于 2011-02-14T12:14:47.153 回答
3

实际上,TF-IDF是对文档中的一个术语的评分,而不是对整个文档的评分。如果您只想要文档中每个术语的 TF-IDF,可以使用这种方法,而无需接触 Lucene。如果你想创建一个搜索引擎,你需要做更多的事情(比如从给定的 URL 中提取文本,其对应的文档可能不包含原始文本)。如果是这种情况,请考虑使用Solr

于 2011-02-14T11:06:22.757 回答