像鞋子这样的产品有许多不同的尺寸。商品编号将相同,但 EAN 会根据鞋子的每个尺码而变化。EAN 用于识别产品的每个变体。我正在寻找一种更容易获取给定变体的 productpage/productid 的方法。
联系谷歌,他们说productid是一个随机生成的数字。没有官方的方式来获得这些。
然而,有几种方法可以刮掉它们。
我试图用scrapy(python)刮掉它们,但有很多障碍。
例如,搜索结果在范围广泛的可能匹配产品中。
因此,前置条件是 GTIN == “0”+EAN 的列表。有了这些,您可以检查正确的匹配。
使用 EAN 搜索会限制搜索,通常比使用文章名称搜索要好。
此外,您可以通过传递“merchagg”参数来限制搜索结果。这样你就可以选择在谷歌购物上列出这些文章(例如足球鞋)的公司。搜索结果非常有限且更准确的可能性很大。
然后开始搜索可能的 productid:
您可以抓取结果并检查所有提供的包含 productid 的 href。
https://www.google.com/shopping/product/4900146535495143190 + /specs
您可以附加“/specs”以查看有关此产品变体的更多详细信息。
下一步是检查所有结果并再次抓取它们以搜索您给定的 EAN 搜索查询。产品页面提供有关您的产品(变体)的详细信息,并共享信息,例如 EAN、颜色、变体、货号等。
您可以猜到,可能的产品页面链接数量可能会很高,并且谷歌有机器人保护来阻止您抓取他们的搜索结果。您很可能会在几次搜索中被禁止使用 google 搜索…
有什么想法可以和我分享吗?提前致谢