问题标签 [anomaly-detection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
429 浏览

r - 异常检测 - 相关变量

我正在研究 R 中的“异常”检测任务。我的数据集有大约 30,000 条记录,其中大约 200 条是异常的。它有大约 30 列,都是定量的。一些变量高度相关(~0.9)。异常是指某些记录的某些列具有异常(高/低)值,而有些记录的相关变量未按预期运行。下面的例子会给出一些想法。

假设车速和心率高度正相关。通常车速在 40 和 60 之间变化,而心率在 55-70 之间。

在这里,我们有两种类型的异常。第 4 条记录的 heart_rate 值非常高,而第 5 条记录看起来还不错,如果我们查看各个列。但是我们可以看到 heart_rate 随着速度的增加而增加,我们预计第 5 条记录的心率较低,而我们的值较高。

我可以使用箱线图等识别列级异常,但发现很难识别第二种类型。我在某处读到了基于 PCA 的异常检测,但我在 R 中找不到它的实现。

在这种情况下,您能否帮助我在 R 中进行基于 PCA 的异常检测。我的谷歌搜索主要是抛出与时间序列相关的东西,这不是我想要的。

注意:Microsoft Azure 机器学习中有一个类似的实现——“基于 PCA 的信用风险异常检测”可以完成这项工作,但我不知道它背后的逻辑并在 R 中复制相同的逻辑。

0 投票
0 回答
172 浏览

tensorflow - TensorFlow 自动编码器,每个输入神经元一个向量

我是张量流和深度神经网络的新手。我目前正在尝试使用自动编码器对轨迹进行异常检测,但我的模型有问题。

我无法获得正确的权重矩阵/不知道该怎么做。

这是我的模型:

  • 我的编码器的每个输入神经元都会收到一个具有 4 个特征的向量(这个向量对应于一个观察,它是我轨迹的一部分)。
  • 输入神经元的数量对应于观察的数量(即 289)。
  • 我总共有 336 条轨迹对应于我的批次

因此我的输入数据形状就像 (336,289,4)

  • 我有两个隐藏层;在每一个上,我们将前面神经元的数量除以 2,因此对于h1,我们有144 个神经元,而h2 有 72 个神经元

对于我的体重,我有:

我的激活函数是一个 sigmoid

但我担心这会通过轨迹给出一个重量矩阵,或者我想要的是我所有轨迹的权重矩阵,它应该是一个二维张量,但我不知道如何进行。

我尝试了很多事情,例如从我的体重形状中删除 336 部分,但 tensorflow 说它不可能在 3d 和 2d 张量上做 matmul。

你有什么想法吗?

在此先感谢您的帮助

0 投票
1 回答
5022 浏览

tensorflow - 图像的深度学习异常检测

我对深度学习的世界还比较陌生。我想为图像异常检测创建一个深度学习模型(最好使用 Tensorflow/Keras)。通过异常检测,我的意思是,本质上是一个OneClassSVM.

我已经使用图像中的 HOG 特征尝试了 sklearn 的 OneClassSVM。我想知道是否有一些例子可以说明我如何在深度学习中做到这一点。我查了一下,但找不到一个可以处理这种情况的代码片段。

0 投票
0 回答
236 浏览

apache-spark - 火花异常检测多元高斯阈值

我有一个数据集,我将在其上使用 Apache Spark 进行异常检测。我已经使用 Spark ML 计算了概率分布函数,接下来我想根据它们的概率来识别异常值。如何选择分发的 epsilon(阈值)?

0 投票
2 回答
1297 浏览

python - 实现特征选择

我在尝试使用特征选择数据集进行预测时遇到的一个问题是,一旦您选择了某些特征,如果您要在测试数据集上进行预测,测试数据集的特征将不会对齐,因为训练数据集会由于特征选择而具有较少的特征。您如何正确实施特征选择,以使测试数据集具有与训练数据集相同的特征?

例子:

0 投票
1 回答
581 浏览

machine-learning - 传感器异常检测的最新技术

我正在研究异常检测问题,我需要您的帮助和专业知识。我有一个记录情节时间序列数据的传感器。例如,传感器偶尔会激活 10 秒并以毫秒为间隔记录值。我的任务是确定记录的模式是否不正常。换句话说,与其他记录的模式相比,我需要检测该模式中的异常情况。

最先进的方法是什么?

0 投票
1 回答
154 浏览

amazon-web-services - 是否可以使用 datadog 异常值检测来检测不良实例?

我想使用 datadog 的异常值检测来检测错误/错误的 aws 实例。那可能吗?我正在尝试使用 datadog 创建一个自动故障转移方案。任何建议,将不胜感激。

0 投票
0 回答
151 浏览

elasticsearch - 具有可视化和异常检测的 Scalabe 日志管理

目前,我正处于项目的工具/堆栈决定阶段。

目标:

由于市场上有很多用于日志管理的工具和堆栈,有人可以根据我的用例和要求指导我朝着正确的方向发展吗?

我正在考虑选择 ELK 堆栈,但不确定它对 200 多台服务器的可扩展性,而且我对 ELK 堆栈顶部的异常检测表示怀疑。有比 ELK 堆栈更好的开源选项吗?提前致谢。

0 投票
1 回答
471 浏览

r - Microsoft rxOneClassSVM 的预测分数是什么意思?

我正在尝试使用 Microsoft ML 包构建一类 SVM 模型以进行新奇检测,并设法获得了一些结果。使用测试数据预测的结果包含“Score”列,我不太清楚这里的含义。当我在网上搜索时,对此没有很好的解释。

作为机器学习的初学者,我猜这个分数代表了数据点是真正异常的概率,因为分数越高,数据输入越有可能是异常。如果我错了,请纠正我,我也想知道确定阈值的算法。我知道一些,例如 GA,但对于如何选择合适的使用感到非常困惑。

谢谢!

0 投票
1 回答
331 浏览

r - 使用 R 工具在 Alteryx 中进行异常检测(Twitter 包)输出

在 Alteryx 中使用 R 的 twitter 异常检测包时,我无法输出在 R Studio 中运行以下代码时得到的异常。输入基本上是一个数据框,第一列为时间戳,另一列为分数(数字)。

错误:“WriteYXDBStreaming 中出现错误”。该代码在没有 write.alteryx 语句的情况下运行。我正在寻找由时间戳和分数组成的异常数据框(基于原始数据框)。

在此处输入图像描述