web-services - 检索给定 URL 的最流行的 GET 参数变体列表？

Question

我正在围绕链接传播构建智能，因为我需要处理许多需要从确切 URL 地址进行反向查找的短 URL 服务，所以我需要能够解析同一 URL 的多个近似版本。

当然，在某些情况下更改 GET 参数可能会引用完全不同的页面，尤其是当相关的 GET 参数引用配置文件或内容 ID 时。

但是对页面的快速解析将很快确定这些页面彼此之间的相似程度。使用一点机器学习，可以很快清楚哪些 GET 参数不会影响给定站点返回的页面内容。

我假设只有谷歌或雅虎（或 Twitter）等公司才能提供发送 URL 并获取非常相似 URL 列表的服务，但它们似乎不提供此功能，我也没有找到任何其他服务。

如果您知道任何以上述方式将几乎相同的 URL 组聚集在一起的服务，请告诉我。

我的赏金是一个拥抱。

score 0 · Accepted Answer

每个 URL 都类似于 Internet 上数据位置的“地址”。URL 的“主机”部分（在您的示例中为“www.example.com”）是一个网络服务器，或世界某处的一组网络服务器。如果我们将 URL 视为“地址”，那么主机可能是“国家”。

该国本身可能会跟踪进入它的每一封邮件。有些会，有些不会。我说的是网络服务器！当然，真实的国家不会记录您收到的每一封邮件！:-)

但是，即使那个“国家”跟踪每封邮件——我真的怀疑他们是否有任何机制可以将该列表发送给您。

至于那些可能自己收获的组织，我认为最好的选择是谷歌，但即使在那里，情况也相当严峻。你看，因为谷歌不是世界上每个网络服务器（“国家”）的所有者，他们无法知道访问该网络服务器的每个 URL。

但他们可以反其道而行之。由于他们可以为遇到的每个页面编制索引，因此他们可以很好地了解 Web 上公共 HTML 页面中出现的每个 URL。当然，这不包括人们在聊天、短信或电子邮件中相互发送的 URL。但是，他们仍然可以很好地了解存在哪些 URL。

我想我想说的是，你正在寻找的东西并不存在，真的。获取用于访问单个网站的所有 URL 的唯一方法是成为该网站的所有者。

不好意思，朋友。

score 0 · Accepted Answer

听起来您需要在页面之间创建某种离散的相似度等级。这可以通过查找两页之间相似词的数量并将值标准化到有界范围然后将范围的某些部分映射到不同的相似度等级来完成。

您还需要知道每对您比较它们的共同 GET 参数或它们的接近程度。此信息将成为定义每个实例的属性（与上述排名一起存储）。在你积累了几百对比较之后，你也许可以做一些特征子集选择来识别最能识别两个页面有多相似的 GET 参数。

当然，这最终可能根本找不到任何有用的东西，因为该数据集可能包含大量噪音。

如果您对这种方法感兴趣，您应该研究一下 Infogain 和一般的特征子集选择。这是我的教授讲义的链接，可能会派上用场。http://stuff.ttoy.net/cs591o/FSS.html

2 回答 2