我正在做一个需要做一些自然语言处理的项目。我为此目的使用stanford MaxEnt分类器。但我不确定最大熵模型和逻辑回归是同时还是某种特殊的逻辑回归?
谁能想出一个解释?
我正在做一个需要做一些自然语言处理的项目。我为此目的使用stanford MaxEnt分类器。但我不确定最大熵模型和逻辑回归是同时还是某种特殊的逻辑回归?
谁能想出一个解释?
这是完全相同的模型。NLP 社会更喜欢使用最大熵这个名称,并使用稀疏公式,它允许在不直接投影到 R^n 空间的情况下计算所有内容(因为 NLP 通常具有大量特征和非常稀疏的向量)。
您可能想阅读这篇文章中的附件,它给出了一个简单的推导: http: //www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum-entropy-楷模/
Daniel Jurafsky 和 James H. Martin 的“Speech and Language Processing”引用了一个解释:
每个特征都是一个指示函数,它挑选出训练观察的一个子集。对于每个特征,我们在总分布上添加一个约束,指定这个子集的分布应该与我们在训练数据中看到的经验分布相匹配。然后我们选择符合这些约束的最大熵分布。
伯杰等人。(1996) 表明,这个优化问题的解决方案恰好是多项逻辑回归模型的概率分布,其权重 W 最大化训练数据的可能性!
在 Max Entropy 中,特征用 f(x,y) 表示,这意味着您可以使用标签 y 和可观察特征 x 来设计特征,而如果 f(x,y) = x 这是逻辑回归中的情况.
在像 POS 这样的 NLP 任务中,设计特征的组合标签是很常见的。例如:当前单词以“ous”结尾,下一个单词是名词。可以预测当前单词是否是 adj 的特征