问题标签 [bayesian]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1003 浏览

nlp - 具有 top-k 输出的大规模朴素贝叶斯分类器

我需要一个用于大规模朴素贝叶斯的库,具有数百万个训练示例和 +100k 二进制特征。它必须是在线版本(培训后可更新)。我还需要前 k 个输出,即单个实例的多个分类。准确性不是很重要。

目的是一个自动文本分类应用程序。

任何关于一个好的图书馆的建议都非常感谢。

编辑:该库最好使用 Java。

0 投票
1 回答
428 浏览

algorithm - 如何在句子中使用朴素贝叶斯

我将如何编写伪代码来使用朴素贝叶斯算法将句子分类为好或坏?

我假设第一步是获取实验数据,这样你就有了带有好/坏词的例句,并且你有这些句子的示例输出(分类为好或坏)。但是我如何能够使用这些数据来生成算法本身呢?

0 投票
3 回答
2285 浏览

c# - 人工智能,文本分类器

我是人工智能新手。我正在开发一个通过机器学习进行文本分类的应用程序。应用程序需要对 HTML 文档的不同部分进行分类。例如,大多数网页都有标题、菜单、侧边栏、页脚、主要内容等。我想使用文本分类器对 HTML 文档的这些部分进行分类,并识别页面上不同类型的表单。

  1. 如果有人可以提供有关此主题的详细指导,那将非常有帮助。
  2. 类似应用的例子,也会很有帮助。

我正在寻找更多与代码和实现相关的技术建议。

我可以将标签分配给 html 标签属性,例如 class 或 id

喜欢第一项:

TrainClassifier(label: "Menu", value: "menu-1", attribute: "class", position-in-string: "21%", tag: "div");

输入:

  1. “menu-1”(属性值)
  2. 项目清单
  3. “类”(属性名称)
  4. “21”(字符串中的标记位置)
  5. “div”(标签名称)

输出

  1. “菜单”(分类为标签)

什么神经网络库,可以把上面的输入,分类成标签(即菜单)。

所有用户都不能创建正则表达式或xpath,他们需要更简单的方法,所以让软件变得智能很重要,用户可以突出显示他/她需要的html文档部分,使用webbrowser控制,并训练软件直到它可以自己工作。

但我不知道如何使用人工智能让软件训练,

我正在寻找的人工智能是,它应该能够接受各种输入,并在此基础上进行分类,正如我已经说过的人工智能新手,对它了解不多。

如果我能回答我所问的问题,例如我应该使用什么库,以及如何实现,建议 Xpath 或 Regex 或其他方法的答案,请不要回答,这对我会有帮助,你经常会得到所有建议,但你需要的。

0 投票
1 回答
895 浏览

math - 循环贝叶斯网络

我有几个元素 A、B、C、AB、ABC、..(见下图),其中每个元素要么存在,要么不存在。支配这个系统的规则如下:如果 AB 存在,那么 A 和 B 也必须存在。一般来说,如果一个元组存在,那么作为这个元组子集的所有较小的元组也必须存在。此外,如果元组不存在,则构成该元组超集的所有元组都不存在。

http://i.stack.imgur.com/8fNl6.gif

示例:假设 ABC 存在,那么 A、B、C、AB、AC、BC 也存在。假设 BC 不存在,那么 ABC,BCD,ABCD 也不存在。

现在我挣扎的是,我如何计算例如 P(AB|A,B,!ABC) 这意味着 AB 存在的概率,给定 A 存在,B 存在且 ABC 不存在。对于每个元素,我有一个基本的起始概率 p(X),它告诉我在没有约束的情况下 X 存在的可能性有多大。通常我会事先检查 A、B、C、D、ABCD 的存在,以便系统有边界。

我的问题是这是一个循环网络。我将非常感谢任何帮助,因为我在过去几周尝试解决这个问题但没有成功。在给定任何情况/约束的情况下,我只想计算一个元素存在的概率。请注意,像 AB 和 !BD 这样的元素不是独立的。

0 投票
1 回答
888 浏览

c++ - CvNormalBayesClassifier

我正在使用 CvNormalBayesClassifier。我正在使用一些随机数据对其进行训练,例如在我发布的代码中

问题是,即使训练中的每个元素都属于“0”类别,我也可以得到“1”作为 predict() 的结果。另一个问题是我试图更改训练集中的一些值,然后保存分类器。结果,如果我不更改训练集的大小(即使值完全不同),我得到分类器总是相同的

这怎么可能?有人能告诉我训练、保存和预测功能是如何工作的吗?谢谢你

0 投票
2 回答
1141 浏览

java - 使用预训练模型对一个实例进行分类时,NaiveBayes 分类器出错

我有一个训练有素的数据集,有 125 条记录。我将使用 NaiveBayesUpdatable 对新实例进行分类。但是当我运行naiveBayes(在windows下,使用weka 3.4)时,我收到以下错误:

当我运行 J48 分类器时,它运行没有问题。

感谢您的任何帮助\想法。

0 投票
1 回答
1474 浏览

matlab - 贝叶斯网络和模糊逻辑

谁能给我一个贝叶斯网络和模糊逻辑用于入侵检测的例子吗?

我正在努力弄清楚如何使用它。上面有任何代码吗?

多谢你们。

0 投票
1 回答
2132 浏览

machine-learning - 文档的朴素贝叶斯分类器中的长度归一化

我正在尝试实现一个朴素贝叶斯分类器来对本质上是特征(而不是袋子)的文档进行分类,即每个特征都包含一组独特的特征,每个特征最多可以在文档中出现一次。例如,您可以将功能视为文档的唯一关键字。

我密切关注 Rennie 等人。人。http://www.aaai.org/Papers/ICML/2003/ICML03-081.pdf上的论文,但我遇到了一个似乎没有得到解决的问题。即,由于文档具有较少的特征数量,对短文档进行分类会导致后验概率更高;对于长文档,反之亦然。

这是因为后验概率被定义为(忽略分母):

扩展到

由此可见,特征较少的短文档将具有较高的后验概率,这仅仅是因为要相乘的词项较少。

例如,假设特征“foo”、“bar”和“baz”都出现在正训练观察中。然后,具有单个特征“foo”的文档将比具有特征 {“foo”、“bar”、“baz”} 的文档具有更高的后验概率被分类为正类。这似乎违反直觉,但我不太确定如何解决这个问题。

是否可以进行某种长度标准化?一种想法是将文档的大小作为特征添加,但这似乎不太正确,因为结果会因训练数据中的文档大小而出现偏差。

0 投票
0 回答
706 浏览

matlab - 具有模糊聚类神经网络的贝叶斯信念网络/系统

许多研究认为,与传统方法相比,人工神经网络 (ANN) 可以提高入侵检测系统 (IDS) 的性能。但是对于基于ANN的IDS,检测精度,尤其是低频攻击的检测精度和检测稳定性仍有待提高。一种新的方法叫做FC-ANN,基于ANN和模糊聚类,来解决这个问题,帮助IDS实现更高的检测率、更少的误报率和更强的稳定性。FC-ANN的一般过程如下:首先使用模糊聚类技术生成不同的训练子集。随后,基于不同的训练子集,训练不同的人工神经网络模型,形成不同的基础模型。最后,使用元学习器模糊聚合模块来聚合这些结果。

问题:

是否可以将贝叶斯信念网络/系统与模糊聚类神经网络结合起来进行入侵检测?

谁能预见我可能遇到的任何问题?您的意见将是最有价值的。

0 投票
1 回答
306 浏览

bayesian - 贝叶斯滤波器能否用于创建多个输出

我看到贝叶斯过滤器非常适合二元选择 - (垃圾邮件:非垃圾邮件,男性:女性等)。有什么方法可以对多个值进行分类(例如 php+javascript、house+yard)。我见过朴素贝叶斯分类器 - 多个决策,但我想知道是否可能有多个输出。

如果不是,还有哪些其他建议的分类方法(有或没有学习)。特别是对于 php。