问题标签 [fuzzy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1726 浏览

fuzzy - 模糊剪辑示例

我正在学习如何使用 NRC 的fuzzyCLIPS 版本。如果有人能指出一些 ftp/web 站点的示例和使用模糊CLIPS 的代码,我将不胜感激。我发现手册很难学习

0 投票
1 回答
745 浏览

c# - 如何将自然语言转换为 sql 查询?不精确的模糊查询.SQLf

我想实现一个功能,允许用户输入如下内容:

等于:

您是否知道任何对我有用的解决方案?我的第二个问题是我应该在应用程序结构的哪个位置进行转换?在应用程序代码中还是在数据库中?

我的应用程序是用 C# 编写的,并通过 ADO.NET 连接到 SQL Server 2008。

我会非常感谢任何提示、伪代码等。

提前致谢 !

0 投票
1 回答
637 浏览

fuzzy - Jess 和 FuzzyJ 协助

我正在尝试学习 Jess 和 FuzzyJ,但是在运行一个简单的程序时遇到了问题。我已经看了好几个小时,不太确定它为什么不运行。如果有人能指出我正确的方向,将不胜感激。

0 投票
2 回答
722 浏览

.net - .NET 的模糊日期/时间管理库

我正在寻找一个 .NET 库,它可以存储和管理模糊(即不确定)日期/时间,即不遵循通常精确的日、月、年、小时、分钟、秒模式的时间表达式。我需要一些可以处理日期/时间值的东西,例如:

  • 1985年第二季度
  • 1930 年代初期
  • 十七世纪下半叶

该库可能会实现一个 FuzzyDateTime 类型或类似的东西,并允许多种方式从文本和/或常规 DateTime 值构造它的实例。还需要比较和排序功能。

所以,我的问题是:你知道任何符合这个描述的可用产品吗?我很乐意考虑各种产品,即商业、开源、免费软件等。

有任何想法吗?非常感谢。

0 投票
6 回答
10759 浏览

algorithm - 在不到指数的时间内进行模糊匹配重复数据删除?

我有一个大型数据库(可能有数百万条记录),其中包含相对较短的文本字符串(按街道地址、名称等顺序)。

我正在寻找一种删除不精确重复的策略,模糊匹配似乎是首选方法。我的问题:许多文章和 SO 问题都涉及将单个字符串与数据库中的所有记录进行匹配。我希望立即对整个数据库进行重复数据删除。

前者将是一个线性时间问题(将一个值与一百万个其他值进行比较,每次都计算一些相似性度量)。后者是一个指数时间问题(将每条记录的值与其他每条记录的值进行比较;对于一百万条记录,与前一个选项的 1,000,000 次计算相比,这大约是 5 x 10^11 计算)。

我想知道除了我提到的“蛮力”方法之外是否还有另一种方法。我正在考虑可能生成一个字符串来比较每个记录的值,然后对具有大致相等相似性度量的字符串进行分组,然后通过这些组运行蛮力方法。我不会达到线性时间,但它可能会有所帮助。此外,如果我考虑得当,这可能会错过字符串 A 和 B 之间潜在的模糊匹配,因为它们与字符串 C(生成的检查字符串)的相似性非常不同,尽管它们彼此非常相似。

有任何想法吗?

PS 我意识到我可能使用了错误的时间复杂度术语——这是一个我基本掌握的概念,但还不够好,所以我可以当场将算法归入正确的类别。如果我用错了术语,我欢迎更正,但希望我至少能明白我的意思。

编辑

一些评论者问,鉴于记录之间的模糊匹配,我的策略是选择删除哪些记录(即给定“foo”、“boo”和“coo”,它们将被标记为重复并删除)。我应该注意,我不是在这里寻找自动删除。这个想法是在一个 60 多万条记录数据库中标记潜在的重复项,以供人工审查和评估。如果有一些误报是可以的,只要它是一个大致可预测/一致的数量。我只需要了解重复项的普遍性。但是如果模糊匹配传递需要一个月的时间来运行,那么这甚至不是一个选项。

0 投票
0 回答
706 浏览

matlab - 具有模糊聚类神经网络的贝叶斯信念网络/系统

许多研究认为,与传统方法相比,人工神经网络 (ANN) 可以提高入侵检测系统 (IDS) 的性能。但是对于基于ANN的IDS,检测精度,尤其是低频攻击的检测精度和检测稳定性仍有待提高。一种新的方法叫做FC-ANN,基于ANN和模糊聚类,来解决这个问题,帮助IDS实现更高的检测率、更少的误报率和更强的稳定性。FC-ANN的一般过程如下:首先使用模糊聚类技术生成不同的训练子集。随后,基于不同的训练子集,训练不同的人工神经网络模型,形成不同的基础模型。最后,使用元学习器模糊聚合模块来聚合这些结果。

问题:

是否可以将贝叶斯信念网络/系统与模糊聚类神经网络结合起来进行入侵检测?

谁能预见我可能遇到的任何问题?您的意见将是最有价值的。

0 投票
1 回答
2384 浏览

lucene - 在 solr 查询结果中返回模糊匹配百分比

我已经为我的系统实现了 solr/lucene 模糊匹配,并且运行良好。

我需要在查询发回响应后显示百分比模糊匹配。例如,如果我的索引数据是“rushikupadhyay”并且我的查询是“rushikupadhya”~0.8,我应该得到准确的百分比作为响应的一部分,例如 0.85 或 85%。

我想将百分比结果用作应用程序的一部分并根据返回值执行其他步骤,例如百分比匹配是 70-80% 做 X,80-90% 做 Y,以及 > 90% 做 Z。

任何指针表示赞赏。

0 投票
1 回答
1476 浏览

machine-learning - 模糊 c- 表示分类数据

可以将模糊 c 均值应用于非数值数据集吗?即分类或混合数字和分类..如果是(我希望如此:():

  • 我们如何计算聚类中心?

如果否,有什么替代方法..如何对这些数据进行模糊聚类?

我需要回复请帮忙

注意:我已经使用 Jacard 的系数来计算 2 点之间的距离,但仍然没有得到计算聚类中心的方法,请参阅附件在此处输入图像描述 杰卡德系数

0 投票
1 回答
2975 浏览

matlab - 聚类和matlab

我正在尝试从 KDD 1999 cup 数据集中收集一些数据

文件的输出如下所示:

该格式有 48,000 条不同的记录。我已经清理了数据并删除了仅保留数字的文本。输出现在看起来像这样:

在此处输入图像描述

我在 excel 中创建了一个逗号分隔文件并保存为 csv 文件,然后从 matlab 中的 csv 文件创建了一个数据源,我尝试通过 matlab 中的 fcm 工具箱运行它(findcluster 输出 38 种数据类型,预计有 38 列)。

然而,集群看起来不像集群,或者它不接受和按我需要的方式工作。

任何人都可以帮助找到集群吗?我是 matlab 新手,所以没有任何经验,我也是集群新手。

方法:

  1. 选择的簇数 (K)
  2. 初始化质心(从数据集中随机选择的 K 个模式)
  3. 将每个模式分配给具有最近质心的集群
  4. 计算每个集群的平均值作为它的新质心
  5. 重复步骤 3,直到满足停止条件(没有模式移动到另一个集群)

这就是我想要实现的目标:

在此处输入图像描述

这就是我得到的:

在此处输入图像描述

0 投票
1 回答
1846 浏览

matlab - Matlab 聚类和数据格式

从上一个问题开始FCM Clustering numeric data and csv/excel file我现在试图弄清楚如何获取输出的信息并创建一个可行的 .dat 文件以用于 matlab 中的聚类。

我有几种类型的数据,如下所示:

在此处输入图像描述

我尝试了以下方法来创建一个 .dat 文件,但出现了错误:

Matlabs 聚类工具适用于多维数据集,但仅显示二维。然后您使用 x 和 y 轴进行比较,但我不太确定我是否能够从当前数据创建聚类 2d 分析?

我需要做的是规范化我之前的帖子FCM Clustering numeric data 和 csv/excel 文件中的 m 文件

规范化数据:

  1. 找到最小和最大数据集

  2. 标准化比例最小值和最大值

  3. 数据集中的数字

  4. 标准化值

所以第一个问题是我如何找到我的数据集中的最小和最大数字(m)

步骤 1:找到数据集中的最大值和最小值,并用变量大写 A 和大写 B 表示它们:

第 2 步规范化确定最小和最大数字并将变量设置为小写 a 和 b 不确定如何在 matlab 中执行此操作(不确定如何规范化数据开始)

步骤 3 使用等式计算任何数字 x 的归一化值