如果您无法枚举所有可能的功能(例如比较用户时的 Facebook 点赞数),我会尝试将注意力集中在局部敏感散列上。有解决这个问题的解决方案吗?
到目前为止,我所看到的局部敏感散列算法依赖于长度的有限向量,k
其中k
是特征(例如单词)的总数。就我而言,我事先不知道全部特征集,但我仍然想在我的数据库中找到新项目的 n 最近邻。给定数据库的目标大小,重新计算每个插入的成对相似性是不可行的。
我该如何解决这个问题?有没有人遇到过类似的问题并找到了解决方案?
如果您无法枚举所有可能的功能(例如比较用户时的 Facebook 点赞数),我会尝试将注意力集中在局部敏感散列上。有解决这个问题的解决方案吗?
到目前为止,我所看到的局部敏感散列算法依赖于长度的有限向量,k
其中k
是特征(例如单词)的总数。就我而言,我事先不知道全部特征集,但我仍然想在我的数据库中找到新项目的 n 最近邻。给定数据库的目标大小,重新计算每个插入的成对相似性是不可行的。
我该如何解决这个问题?有没有人遇到过类似的问题并找到了解决方案?