我想清理一个由于 OCR 而有很多错误的字幕文件。错误之一l是 显示为I。当然有时 theI真的是 a I,主要是在以下情况下:
- 句首:
I'm Ieaving...或- I'm Ieaving...。 - 在名称中:
IsabeIIe。 - 也许是一些奇怪的案例。
由于名称难以检测,我认为最好仅将I's 替换为一个或多个直接在前面的小写字母,然后手动检查其余部分。所以在转换后我得到I'm Ieavingand Isabelle。这是我能想到的最“准系统”的自动化解决方案,因为没有那么多单词在大写字母之前有一个小写字母。
我怎样才能在正则表达式中做到这一点?提前致谢。