“anomaly-detection”的相关标签问题

0 投票

0 回答

429 浏览

r - 异常检测 - 相关变量

我正在研究 R 中的“异常”检测任务。我的数据集有大约 30,000 条记录，其中大约 200 条是异常的。它有大约 30 列，都是定量的。一些变量高度相关（~0.9）。异常是指某些记录的某些列具有异常（高/低）值，而有些记录的相关变量未按预期运行。下面的例子会给出一些想法。

假设车速和心率高度正相关。通常车速在 40 和 60 之间变化，而心率在 55-70 之间。

在这里，我们有两种类型的异常。第 4 条记录的 heart_rate 值非常高，而第 5 条记录看起来还不错，如果我们查看各个列。但是我们可以看到 heart_rate 随着速度的增加而增加，我们预计第 5 条记录的心率较低，而我们的值较高。

我可以使用箱线图等识别列级异常，但发现很难识别第二种类型。我在某处读到了基于 PCA 的异常检测，但我在 R 中找不到它的实现。

在这种情况下，您能否帮助我在 R 中进行基于 PCA 的异常检测。我的谷歌搜索主要是抛出与时间序列相关的东西，这不是我想要的。

注意：Microsoft Azure 机器学习中有一个类似的实现——“基于 PCA 的信用风险异常检测”可以完成这项工作，但我不知道它背后的逻辑并在 R 中复制相同的逻辑。

r pca anomaly-detection

2017-03-28T10:46:36.137

0 投票

0 回答

172 浏览

tensorflow - TensorFlow 自动编码器，每个输入神经元一个向量

我是张量流和深度神经网络的新手。我目前正在尝试使用自动编码器对轨迹进行异常检测，但我的模型有问题。

我无法获得正确的权重矩阵/不知道该怎么做。

这是我的模型：

我的编码器的每个输入神经元都会收到一个具有 4 个特征的向量（这个向量对应于一个观察，它是我轨迹的一部分）。
输入神经元的数量对应于观察的数量（即 289）。
我总共有 336 条轨迹对应于我的批次

因此我的输入数据形状就像 (336,289,4)

我有两个隐藏层；在每一个上，我们将前面神经元的数量除以 2，因此对于h1，我们有144 个神经元，而h2 有 72 个神经元

对于我的体重，我有：

我的激活函数是一个 sigmoid

但我担心这会通过轨迹给出一个重量矩阵，或者我想要的是我所有轨迹的权重矩阵，它应该是一个二维张量，但我不知道如何进行。

我尝试了很多事情，例如从我的体重形状中删除 336 部分，但 tensorflow 说它不可能在 3d 和 2d 张量上做 matmul。

你有什么想法吗？

在此先感谢您的帮助

tensorflow neural-network deep-learning autoencoder anomaly-detection

2017-04-06T10:37:06.177

0 投票

1 回答

5022 浏览

tensorflow - 图像的深度学习异常检测

我对深度学习的世界还比较陌生。我想为图像异常检测创建一个深度学习模型（最好使用 Tensorflow/Keras）。通过异常检测，我的意思是，本质上是一个OneClassSVM.

我已经使用图像中的 HOG 特征尝试了 sklearn 的 OneClassSVM。我想知道是否有一些例子可以说明我如何在深度学习中做到这一点。我查了一下，但找不到一个可以处理这种情况的代码片段。

tensorflow scikit-learn keras autoencoder anomaly-detection

2017-04-16T19:46:25.030

0 投票

0 回答

236 浏览

apache-spark - 火花异常检测多元高斯阈值

我有一个数据集，我将在其上使用 Apache Spark 进行异常检测。我已经使用 Spark ML 计算了概率分布函数，接下来我想根据它们的概率来识别异常值。如何选择分发的 epsilon（阈值）？

apache-spark anomaly-detection

2017-04-18T11:35:52.923

0 投票

2 回答

1297 浏览

python - 实现特征选择

我在尝试使用特征选择数据集进行预测时遇到的一个问题是，一旦您选择了某些特征，如果您要在测试数据集上进行预测，测试数据集的特征将不会对齐，因为训练数据集会由于特征选择而具有较少的特征。您如何正确实施特征选择，以使测试数据集具有与训练数据集相同的特征？

例子：

python machine-learning scikit-learn anomaly-detection

2017-04-18T18:11:47.650

0 投票

1 回答

581 浏览

machine-learning - 传感器异常检测的最新技术

我正在研究异常检测问题，我需要您的帮助和专业知识。我有一个记录情节时间序列数据的传感器。例如，传感器偶尔会激活 10 秒并以毫秒为间隔记录值。我的任务是确定记录的模式是否不正常。换句话说，与其他记录的模式相比，我需要检测该模式中的异常情况。

最先进的方法是什么？

machine-learning time-series deep-learning anomaly-detection

2017-04-22T21:48:12.267

0 投票

1 回答

154 浏览

amazon-web-services - 是否可以使用 datadog 异常值检测来检测不良实例？

我想使用 datadog 的异常值检测来检测错误/错误的 aws 实例。那可能吗？我正在尝试使用 datadog 创建一个自动故障转移方案。任何建议，将不胜感激。

amazon-web-services amazon-ec2 amazon datadog anomaly-detection

2017-04-26T18:02:50.317

0 投票

0 回答

151 浏览

elasticsearch - 具有可视化和异常检测的 Scalabe 日志管理

目前，我正处于项目的工具/堆栈决定阶段。

目标：

由于市场上有很多用于日志管理的工具和堆栈，有人可以根据我的用例和要求指导我朝着正确的方向发展吗？

我正在考虑选择 ELK 堆栈，但不确定它对 200 多台服务器的可扩展性，而且我对 ELK 堆栈顶部的异常检测表示怀疑。有比 ELK 堆栈更好的开源选项吗？提前致谢。

elasticsearch logstash data-visualization elastic-stack anomaly-detection

2017-05-10T15:54:53.777

0 投票

1 回答

471 浏览

r - Microsoft rxOneClassSVM 的预测分数是什么意思？

我正在尝试使用 Microsoft ML 包构建一类 SVM 模型以进行新奇检测，并设法获得了一些结果。使用测试数据预测的结果包含“Score”列，我不太清楚这里的含义。当我在网上搜索时，对此没有很好的解释。

作为机器学习的初学者，我猜这个分数代表了数据点是真正异常的概率，因为分数越高，数据输入越有可能是异常。如果我错了，请纠正我，我也想知道确定阈值的算法。我知道一些，例如 GA，但对于如何选择合适的使用感到非常困惑。

谢谢！

r machine-learning svm microsoft-r anomaly-detection

2017-05-23T01:48:04.147

0 投票

1 回答

331 浏览

r - 使用 R 工具在 Alteryx 中进行异常检测（Twitter 包）输出

在 Alteryx 中使用 R 的 twitter 异常检测包时，我无法输出在 R Studio 中运行以下代码时得到的异常。输入基本上是一个数据框，第一列为时间戳，另一列为分数（数字）。

错误：“WriteYXDBStreaming 中出现错误”。该代码在没有 write.alteryx 语句的情况下运行。我正在寻找由时间戳和分数组成的异常数据框（基于原始数据框）。

r alteryx anomaly-detection

2017-05-25T18:09:51.613

问题标签 [anomaly-detection]

Reference