伙计们,
wordsegment
在过去的几个小时里,我正在使用 Grant Jenks 的 python 库。该库适用于任何不完整的单词或分隔组合词,例如e nd
==> end
和thisisacat
==> this is a cat
。
我正在处理涉及数字的文本数据,并且在此文本数据上使用此库会产生相反的效果。increased $55 million or 23.8% for
转换为非常奇怪的东西的完美文本increased 55millionor238 for
(在重新调整的列表上执行连接操作之后)。请注意,对于文本中涉及数字的任何部分,这都是随机发生的(可能会发生也可能不会发生)。
- 以前有人用过这个库吗?
- 如果是,您是否遇到过类似情况并找到解决方法?
- 如果没有,你知道任何其他为我们做这个技巧的 python 库吗?
谢谢你。