问题标签 [fst]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 内存不足文件的汇总统计信息
我有一个 120GB 大小的 csv 文件,它是一组按分类变量分组的数值。
例如。
我想使用 group_by(x) 计算一些汇总统计信息,但我的文件不适合内存。我有哪些选择?我看过 tidyfst 和 {disk.frame} 但我不确定。任何帮助将非常感激。
谢谢你。
openfst - OpenFST - 从单词列表中创建 FST
我正在阅读最重要的示例:关于标记化的http://www.openfst.org/twiki/bin/view/FST/FstExamples 。
在示例中,他们创建了三个 fst:Mars.fst
、Martian.fst
和man.fst
,并手动运行一些 fst 命令以将它们合并为一个大传感器。他们从 中得到“Mars”、“Martian”和“man”三个wotw.syms
词,共有 7102 个词。
我的问题是,有没有一种聪明的方法可以为所有 7102 个单词创建一个word.fst
,以便所有 7102 个单词都可以制成一个大自动机,还是必须手动完成,就像他们为三个单词 Martian、Mars 所做的那样,和男人?
r - 如何将 write_fst() 函数应用于列表中的每个数据帧?
我想将列表中的每个数据框与其相应的名称保存为 .fst 文件。我的数据框列表称为表。我试图这样做,但没有奏效:
怎么做?如何对列表中的每个数据帧执行 write_fst 函数?
cygwin - 运行脚本 prepare_lang.sh 时出现 Kaldi 错误——GenericRegister::GetEntry: No such file or directory
我正在使用 Kaldi 在我自己的数据集上训练声学模型(遵循Eleanor Chodroff 的本教程)。我在 Windows 10 上使用 Cygwin。当我运行prepare_lang.sh
应该创建文件的脚本时/data/lang
,它会生成以下错误:
未创建这些文件:L.fst, L_disambig.fst, oov.int, oov.txt, topo
该命令的完整输出如下所示:
我从同一个教程中遵循了 Cygwin 的标准 Kaldi 安装,并kaldi/tools
拥有该文件夹openfst-1.7.2
。
我已经在谷歌上搜索了一段时间,但似乎找不到解决方案。我是 Kaldi 的新手,不确定错误的来源,所以我很乐意提供任何其他可能相关的细节。有人可以帮我吗?
lucene - 将 lucene FST 文件从 5.1.0 迁移到 8.9.0
我有使用 lucene 5.1.0 创建的 FST 文件。
升级到 lucene 8.9.0 后,当我尝试从文件中读取 FST 时出现异常:
有没有办法将旧的 FST 文件升级为新格式?
r - 使用 fst 压缩序列化列表是否有任何不利/风险?
包fst
http://www.fstpackage.org/fst/为数据帧提供多线程压缩和读写。
我正在运行贝叶斯模型,它又brms
大又慢。我想将结果保存到磁盘以供将来重复使用。使用它们在磁盘上大约saveRDS()
有compress = "xz"
200MB,当然,压缩需要很长时间,并且需要大量时间来读取和解压缩。
fst
实现快速、多线程的 zstd 压缩。
退货TRUE
和我所做的其他快速测试表明这一切都很好。
我是否遗漏了获取任意R
对象、对其进行序列化、将其传递给compress_fst()
然后将压缩对象写入磁盘的任何缺点或缺点?
regex - 在不将 XFST 替换规则应用于词典的情况下检测循环馈送交互
以下两个 XFST 替换规则表示循环馈送交互,其中最终结果包括原始形式,因为第一个规则馈入第二个规则,第二个馈入第一个规则。例如,第一条规则将(可选)bat
变为cat
,第二条规则将(可选)cat
变为bat
。
当然,可以将规则应用于词典,然后与原始词典进行比较,但这非常低效。我已经有一种方法可以检测这种涉及两个或多个规则的循环馈送交互(通过使用 python 读取源文件),但它对条件替换不敏感,例如c (<-) b || _ x
.
是否可以通过使用来检测一组规则是否是循环的HFST
,而不必将规则应用于词典?
search - 在文本中搜索一长串模式的最快方法
给定一个“大”模式列表和一个“短”文本,在文本中搜索/标记这些模式的最佳/最快方法是什么,我们试图在其中找到模式作为文本的子字符串?如果文本中有多个模式匹配,我们希望理想地找到所有匹配。
更具体地说,文本实际上是流式查询,要查找的模式是命名实体。我们需要一个完整的模式来完全匹配。训练 NER 模型来标记实体不是一种选择。“大”列表是指要查找的几十万个实体。“短”文本是指平均 10 个单词。
例如:
文字:复仇者联盟中饰演黑寡妇的演员。
我正在考虑尝试和 FST。试图了解在这种特定情况下两者的优缺点。任何指针将不胜感激。
set - 有一组对(set_pairs),我想创建一组(set_fsts)这些对的第一个元素。我怎样才能在伊莎贝尔做到这一点?
有一组对(set_pairs),我想创建一组(set_fsts)这些对的第一个元素。我是按以下方式写的
定义 "set_fsts = {f . p ∈ set_piars ∧ fst p = f}" 但伊莎贝尔向我展示了这个错误消息:rhs "p" 上的额外变量
你能帮我解决这个问题吗?