对不起这个困难的问题。
我有一大组序列要通过/或添加数字或替换它们(从不删除任何东西)来纠正,如下所示:
- 1,2,,3 => 1,7,4,3
- 4,,5,6 => 4,4,5,6
- 4,7,8,9 => 4,7,8,9,1
- 4,7 => 4,8
- 4,7,1 => 4,7,2
它从填充的原始序列和样本校正开始。
我希望能够通过计算要纠正的不同 n-gram 的频率来自动纠正序列,第一个样本将变为
- 1=>1
- 2=>7
- 3=>3
- 1,2=>1,7
- 2,3=>7,4,3
- 1,2,3=>1,7,4,3
我会收集这些 n-gram 校正的频率,并且我正在寻找一种方法来计算校正样本数据中可能存在或不存在的新输入的最佳方法。
这似乎类似于SMT。