问题标签 [anomaly-detection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 异常检测 - 相关变量
我正在研究 R 中的“异常”检测任务。我的数据集有大约 30,000 条记录,其中大约 200 条是异常的。它有大约 30 列,都是定量的。一些变量高度相关(~0.9)。异常是指某些记录的某些列具有异常(高/低)值,而有些记录的相关变量未按预期运行。下面的例子会给出一些想法。
假设车速和心率高度正相关。通常车速在 40 和 60 之间变化,而心率在 55-70 之间。
在这里,我们有两种类型的异常。第 4 条记录的 heart_rate 值非常高,而第 5 条记录看起来还不错,如果我们查看各个列。但是我们可以看到 heart_rate 随着速度的增加而增加,我们预计第 5 条记录的心率较低,而我们的值较高。
我可以使用箱线图等识别列级异常,但发现很难识别第二种类型。我在某处读到了基于 PCA 的异常检测,但我在 R 中找不到它的实现。
在这种情况下,您能否帮助我在 R 中进行基于 PCA 的异常检测。我的谷歌搜索主要是抛出与时间序列相关的东西,这不是我想要的。
注意:Microsoft Azure 机器学习中有一个类似的实现——“基于 PCA 的信用风险异常检测”可以完成这项工作,但我不知道它背后的逻辑并在 R 中复制相同的逻辑。
tensorflow - TensorFlow 自动编码器,每个输入神经元一个向量
我是张量流和深度神经网络的新手。我目前正在尝试使用自动编码器对轨迹进行异常检测,但我的模型有问题。
我无法获得正确的权重矩阵/不知道该怎么做。
这是我的模型:
- 我的编码器的每个输入神经元都会收到一个具有 4 个特征的向量(这个向量对应于一个观察,它是我轨迹的一部分)。
- 输入神经元的数量对应于观察的数量(即 289)。
- 我总共有 336 条轨迹对应于我的批次
因此我的输入数据形状就像 (336,289,4)
- 我有两个隐藏层;在每一个上,我们将前面神经元的数量除以 2,因此对于h1,我们有144 个神经元,而h2 有 72 个神经元
对于我的体重,我有:
我的激活函数是一个 sigmoid
但我担心这会通过轨迹给出一个重量矩阵,或者我想要的是我所有轨迹的权重矩阵,它应该是一个二维张量,但我不知道如何进行。
我尝试了很多事情,例如从我的体重形状中删除 336 部分,但 tensorflow 说它不可能在 3d 和 2d 张量上做 matmul。
你有什么想法吗?
在此先感谢您的帮助
tensorflow - 图像的深度学习异常检测
我对深度学习的世界还比较陌生。我想为图像异常检测创建一个深度学习模型(最好使用 Tensorflow/Keras)。通过异常检测,我的意思是,本质上是一个OneClassSVM
.
我已经使用图像中的 HOG 特征尝试了 sklearn 的 OneClassSVM。我想知道是否有一些例子可以说明我如何在深度学习中做到这一点。我查了一下,但找不到一个可以处理这种情况的代码片段。
apache-spark - 火花异常检测多元高斯阈值
我有一个数据集,我将在其上使用 Apache Spark 进行异常检测。我已经使用 Spark ML 计算了概率分布函数,接下来我想根据它们的概率来识别异常值。如何选择分发的 epsilon(阈值)?
python - 实现特征选择
我在尝试使用特征选择数据集进行预测时遇到的一个问题是,一旦您选择了某些特征,如果您要在测试数据集上进行预测,测试数据集的特征将不会对齐,因为训练数据集会由于特征选择而具有较少的特征。您如何正确实施特征选择,以使测试数据集具有与训练数据集相同的特征?
例子:
machine-learning - 传感器异常检测的最新技术
我正在研究异常检测问题,我需要您的帮助和专业知识。我有一个记录情节时间序列数据的传感器。例如,传感器偶尔会激活 10 秒并以毫秒为间隔记录值。我的任务是确定记录的模式是否不正常。换句话说,与其他记录的模式相比,我需要检测该模式中的异常情况。
最先进的方法是什么?
amazon-web-services - 是否可以使用 datadog 异常值检测来检测不良实例?
我想使用 datadog 的异常值检测来检测错误/错误的 aws 实例。那可能吗?我正在尝试使用 datadog 创建一个自动故障转移方案。任何建议,将不胜感激。
elasticsearch - 具有可视化和异常检测的 Scalabe 日志管理
目前,我正处于项目的工具/堆栈决定阶段。
目标:
由于市场上有很多用于日志管理的工具和堆栈,有人可以根据我的用例和要求指导我朝着正确的方向发展吗?
我正在考虑选择 ELK 堆栈,但不确定它对 200 多台服务器的可扩展性,而且我对 ELK 堆栈顶部的异常检测表示怀疑。有比 ELK 堆栈更好的开源选项吗?提前致谢。
r - Microsoft rxOneClassSVM 的预测分数是什么意思?
我正在尝试使用 Microsoft ML 包构建一类 SVM 模型以进行新奇检测,并设法获得了一些结果。使用测试数据预测的结果包含“Score”列,我不太清楚这里的含义。当我在网上搜索时,对此没有很好的解释。
作为机器学习的初学者,我猜这个分数代表了数据点是真正异常的概率,因为分数越高,数据输入越有可能是异常。如果我错了,请纠正我,我也想知道确定阈值的算法。我知道一些,例如 GA,但对于如何选择合适的使用感到非常困惑。
谢谢!