machine-learning - 为分类问题生成假数据的最佳方法是什么？

Question

我正在做一个项目，我有一个用户击键时间数据的子集。这意味着用户进行了 n 次尝试，我将在各种分类算法中使用这些记录的尝试时间数据，以供未来用户尝试验证登录过程由用户或其他人完成。（简单地说，这是生物识别）

我有 3 次不同的用户登录尝试过程，当然这是无限数据的子集。

到目前为止，这是一个简单的分类问题，我决定使用 WEKA，但据我了解，我必须创建一些假数据来提供分类算法。用户的测量尝试将为 1，假数据将为 0。

我可以使用一些优化算法吗？或者有什么方法可以创建这个假数据来获得最少的误报？

谢谢

score 5 · Accepted Answer

有几种不同的方法可以解决这个问题。

收集负面示例- 一种简单的解决方案是仅从其他人那里收集可用作负面示例的击键时间数据。如果您想以非常便宜的价格收集大量样品，例如大约 1000 个样品，大约 10 美元，您可以使用Amazon Mechanical Turk 之类的服务。

也就是说，您可以将人类智能任务 (HIT) 放在一起，让人们输入随机密码，如序列。要获取时间信息，您需要使用External Question，因为常规问题的受限 HTML 不支持 JavaScript。

使用生成模型- 或者，您可以针对用户的击键行为训练生成概率模型。例如，您可以针对用户击键之间的延迟训练高斯混合模型 (GMM) 。

这样的模型将为您提供特定用户生成的击键时间信息的概率估计。然后，您只需要设置时间信息的可能性阈值，以便用户通过身份验证。

使用 1 类 SVM - 最后，1 类 SVM允许您仅使用正例来训练类似 SVM 的分类器。要在 WEKA 中学习一类 SVM，如果您使用的是 v3.6，请使用 LibSVM 包装器。如果您使用的是最前沿的开发者版本，则有weka.classifiers.meta.OneClassClassifier.

machine-learning - 为分类问题生成假数据的最佳方法是什么？

1 回答 1

Related

Reference