这是原型向量的草图:
首先要注意的是,维基百科中的一个词可以是维基百科页面的超链接(我们将其称为实体)。该实体以某种方式与单词相关,但同一个单词可以链接到不同的实体。
“对于每个与特定实体至少链接 10 次的单词或短语”
在整个维基百科中,我们计算word_A链接到的次数entity_B,如果超过 10 次,我们继续(写下它们链接的实体的位置):
[(wordA, entityA1), (wordA, entityA2),...]
这里wordA发生在entityA1它链接到的地方entityB,等等。
“出现在相应链接的邻域之一中的所有术语的列表”
在entityA1,wordA左右各有 10 个单词(我们在两边只显示 4 个):
are developed and the entity relationships between these data
wordA
link # (to entityB)
['are', 'developed, 'and', 'the', 'relationships', 'between', 'these', 'data']
每对(wordA, entityAi)都给我们这样一个列表,将它们连接起来。
“tf.idf 加权、标准化列表”
基本上,tf.idf意味着您应该比不常见的词赋予常用词更少的“权重”。例如,'and'and'the'是非常常见的词,因此我们赋予它们的意义(在它们旁边'entity')比'relationships'or少'between'。
归一化,意味着我们应该(基本上)计算一个单词出现的次数(它出现的次数越多,我们认为它与wordA.将最常见的最不常见的词放在顶部。
“请注意,同一个单词或短语可以有多个这样的原型向量”
这不仅依赖于,wordA而且entityB,您可以将其视为映射。
(wordA, entityB) -> tf.idf-weighted, normalized list (as described above)
(wordA, entityB2) -> a different tf.idf-weighted, normalized list
这表明从单词中与猫的链接比与猫女人'cat'的链接更不可能有邻居。'batman'