问题标签 [fst]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
304 浏览

r - 当 @pop 中的 NA 时,使用 hierfstat 处理 genind 对象

有谁知道如何获取“basic.stats”(hierfstat)、“wc”(hierfstat)和/或其他 hierfstat 命令来处理 @pop 部分中具有 NA 的 genind 对象?我可以将 genind 转换为 hierfstat,但其他命令对 NA 不满意:

我想保持原始数据文件完整,因为它包含包含“NA”样本的其他信息和类别,我想尽可能从一个参考文件中工作。只有一些样本来自群体的单一代表,所以我不希望它们在其他数据中使用/显示(我稍后也映射样本并且不希望这些样本在那里)。


简而言之:我有一个fasta数据文件(PvMtFas)被制作成一个genind对象(PvMtGen)并从另一个文件(PvMtData)中添加了@pop,该文件在我正在使用的列中包含一些NA(并包含我使用的大量其他数据) . 这些 NA 似乎阻止我使用 hierfstat 中的 basic.stats 和 wc 命令。有什么简单的解决办法吗?

欢迎任何建议!我研究过使用“na.exclude”,但这不起作用(显然,因为我不确定如何在 genind 对象中定位@pop,我希望整个“行”消失,而不仅仅是@pop NA还有它所指的样本)。

0 投票
1 回答
1033 浏览

java - FST(反)序列化为 JSON,但默认配置存在问题

我们正在使用 FST(快速序列化)将大量对象同时放入磁盘,然后读取它们。对象本身具有复杂的结构并包含不包含的内容:基元、复杂类型、数组和它们的集合。问题是,使用默认 FST 配置 ( FSTConfiguration.createDefaultConfiguration()) 我们会遇到反序列化异常,如下所示:

这发生在大约 100 次中的 5 次。虽然,如果切换到 JSON 配置 ( FSTConfiguration.createJsonConfiguration()),所有问题都消失了——在(反)序列化期间根本没有例外。

我试图通过调试找到根本原因,看起来在某些情况下 FSTuseCompatibleMode出于某种原因切换到然后尝试通过反序列化来实例化Enum它。我也试图重现这个问题作为测试,但没有得到任何运气——我正在创建的可比较的数据结构不会导致此类问题。

我们的域结构/FST 使用不当是否存在问题,或者可能是错误?

请注意,我们使用的所有域类都正确实现了Serializable.

0 投票
1 回答
93 浏览

java - 套接字序列化减慢

我只想说我是套接字序列化的新手,在投票之前请建议我可以添加什么来编辑。我试图将代码分解得尽可能小,因为项目非常大。

我正在尝试创建一个非常简单的 RPC 类型中间件,其中客户端可以调用服务器上的方法并在该方法生成这样的对象时检索对象。我正在使用FST-Serializer库来序列化我的对象并通过网络/套接字发送它们。

虽然我已经启动并运行它,但我发现了一个非常奇怪的问题,当这种情况发生时,序列化的性能会显着下降(下面的代码示例):

这意味着网络速度慢或实现不能足够快地调用它,但是如果发生这种情况,它会显着加速:

虽然一开始这似乎没什么大不了的,但对于 void 方法,它可能会变得很烦人,因为我必须发回虚拟数据,这意味着我必须无缘无故地进行一次网络旅行。

我想也许这可能是缓冲区不够大,但我已经尝试过不同的缓冲区大小,但似乎没有任何解决办法,我还想澄清一下,应用程序仍然可以正常工作(即没有阻塞)只是性能时间受到影响。所以我的问题是什么会导致速度变慢,它是否可以预防/修复?

我运行 YouKit 性能来查看热点分析(这也是新的),似乎 BufferedReader.Read 方法减慢了很多。

发回虚拟数据: 在此处输入图像描述 没有发回虚拟数据: 在此处输入图像描述

监听传入调用的 ServerThread 片段(客户端代码类似创建具有相同缓冲区大小的输入/输出):

从客户端序列化发送到 Serverthread 的方法类

基于 FST 中 TCPObjectSocket 的 TCPSerializer(由 serverthread&client 继承:

客户端如何调用方法的示例:

0 投票
1 回答
230 浏览

java - 并行化快速序列化java

这是我第一次使用 Java 中的线程。我试图并行化快速序列化。但我收到以下错误:

那么如何正确地并行化快速序列化呢?我的错误在哪里?

这是我的可运行类:

这是我的主要内容:

谢谢你的帮助。

0 投票
1 回答
786 浏览

list - F# 获取对列表并返回一对

试图获取一个对列表并返回一个 x 值乘以 y 值的对:例如:mult [(x,y);(x,y);(x,y)] 将是 (x x x,y y y) mult [(1,2);((1,2);(1,2)] 将返回 (1,8)

尝试使用 map fst 执行此操作并且当前没有递归我的代码是:

对f来说相当新#

0 投票
1 回答
2018 浏览

python - 是否可以在 python 中导入 .fst 文件

R 中的fst包提供了极快的读写速度,并且它需要更少的硬盘空间。在此处查看 R 中的基准测试结果。

我想知道是否可以在 Python 中读取 .fst 文件。我还没有在 Python 中找到一种简单的方法来做到这一点。(编辑:我的意思是将 fst 文件,而不是 fst 包导入 python。就像将 R 写出的 csv 文件导入 python)。

谢谢!

0 投票
1 回答
269 浏览

r - R 数据表。磁盘上 fst 文件的接口:fst_table

我想将来自包“fstpackage”的 fst_table 函数用于大型数据集:https ://github.com/fstpackage/fsttable 。

我可以提取创建文件的行和列,但是,是否可以执行以下操作:

就像在标准数据表中一样?或者我可以创建这个 data.table 的键以进行快速序列化吗?我的目标是使用列的值提取数据,而不将所有数据集加载到内存中。

0 投票
2 回答
149 浏览

machine-learning - 如何限制 LSTM 模型中的序列预测以匹配特定模式?

我使用 LSTM 模型创建了一个词级文本生成器。但就我而言,并不是每个词都适合选择。我希望他们匹配附加条件:

  1. 每个单词都有一个映射:如果一个字符是元音,那么它会写 1,如果不是,它将写 0(例如,溢出将是10100010)。然后,生成的句子需要满足给定的结构,例如01001100hi 01 andfriend 001100
  2. 最后一个单词的最后一个元音必须是提供的那个。假设是e。(那么,朋友会这项工作)。

因此,为了处理这种情况,我创建了一个具有以下结构的 pandas 数据框:

这是我目前的工作流程:

  1. 给定句子结构,我从与模式匹配的数据框中选择一个随机词。例如,如果句子结构是0100100100100,我们可以选择单词hello,因为它的元音结构是01001
  2. 我从剩余的结构中减去选定的单词:0100100100100将成为00100100我们删除了初始的01001你好)。
  3. 我从数据框中检索与剩余结构的一部分匹配的所有单词,在本例中为stack 00100jhon 0010
  4. 我将当前单词的句子内容(现在只是你好)传递给 LSTM 模型,它会检索每个单词的权重。
  5. 但我不只是想选择最佳选项,我想选择第 3 点选择中包含的最佳选项。所以我选择了该列表中估计值最高的单词,在本例中为stack
  6. 从第 2 点开始重复,直到剩下的句子结构为空。

这就像一个魅力,但还有一个条件需要处理:句子的最后一个元音。

我处理这个问题的方法如下:

  1. 生成 1000 个句子,强制最后一个元音是指定的。
  2. 获取 LSTM 模型返回的权重的 rmse。输出越好,权重就越高。
  3. 选择检索到较高排名的句子。

你认为有更好的方法吗?也许是 GAN 或强化学习?

编辑:我认为另一种方法是添加 WFST。我听说过pynini library,但我不知道如何将它应用到我的特定上下文中。

0 投票
1 回答
56 浏览

speech-recognition - 了解 fst

我尝试为起诉 openfst 的句子“狗追逐”做 2-gram 语言模型和 fst。我已经附上了相同的图像。有人能告诉我为什么最终状态之间会有过渡吗?Fst 为例句

我曾假设双圈表示最终状态,并且不应该从最终状态进行任何转换。另外如何计算“追逐狗”的概率?

0 投票
1 回答
185 浏览

r - 当用户点击某个页面时如何加载和渲染部分数据

当我尝试加载多个表并使用闪亮的DT进行渲染时,我在 R 中面临内存不足的问题。

我想知道是否可以只向 DT 提供表结构(例如,行和列名的数量),并预加载前 N 行数据以显示在应用程序中,然后在用户单击另一个页面时加载另外 N 行(启用分页)。我发现 DT 有一个dataTableAjax返回 Ajax URL 的函数,可以被 DT 查询(不知道它是怎么做的)

原始数据表 JS 库具有类似的功能(如果我没记错的话),如https://datatables.net/examples/server_side/defer_loading.html

例如,

如果您有任何其他建议,也请告诉我。我的主要目标是防止一次加载 R 中的所有表,而是仅按需加载部分。

PS:我对任何HTML,CSS和JS都不熟悉,请耐心等待并提供尽可能多的细节,在此先感谢!