我正在使用 R 进行文本分析,需要将句子的第一个字母转换为小写,同时保持其他大写单词的原样。所以我使用了命令
x <- gsub("(\\..*?[A-Z])", '\\L\\1', x, perl=TRUE)
这有效,但部分有效。问题是,对于文本分析,我必须将 pdf 文件转换为 txt 格式,现在 txt 文件包含很多空行(分页符,可能返回),因此我使用的命令不会转换大写字母出现在新行上。我试图在gsub中使用多个 \s、\r、\n 的不同组合来消除空行,但没有任何效果。当我执行 tm-package 的 inspect(x) 时,输出如下所示:
[346]
[347] Thank you.
[348]
[349] Vice President of Investor Relations
[350]
如果有人可以帮助我,我将不胜感激!