Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我希望有人能帮我解决这个问题(请):我想在一些文章特征(作者、类别、年份、影响因子、引文)之间做相似性,但我不知道如何为名义数据做这件事,因为我可以做余弦相似度的数字特征,但我怎么能做名义上的呢?提前感谢大家!
虽然我不想推荐这种方法,但它似乎很受欢迎:
将您的类别编码为二进制属性。IE:
A1=Car -> (1,0,0) A1=Truck -> (0,1,0) A1=Bike -> (0,0,1)
然后您可以像处理文本一样继续。这实际上与将它们视为三个不同的词相同。
它会起作用,但恕我直言,在连续数值之外没有“相关”的概念。已经在文本上,与其说是一种好的方法,不如说是一种制作东西的技巧。