我正在尝试使用 python 中的正则表达式从段落中提取一个句子。
通常,我正在测试的代码会正确提取句子,但在下一段中,句子没有被正确提取。
这段落:
“但在疟疾感染和败血症的情况下,全身的树突状细胞都集中在提醒免疫系统,这会阻止它们检测和应对任何新的感染。” 新型疫苗?
编码:
def splitParagraphIntoSentences(paragraph):
import re
sentenceEnders = re.compile('[.!?][\s]{1,2}(?=[A-Z])')
sentenceList = sentenceEnders.split(paragraph)
return sentenceList
if __name__ == '__main__':
f = open("bs.txt", 'r')
text = f.read()
mylist = []
sentences = splitParagraphIntoSentences(text)
for s in sentences:
mylist.append(s.strip())
for i in mylist:
print i
当用上面的段落进行测试时,它给出的输出与输入段落完全相同,但输出应该看起来像 -
但在疟疾感染和败血症的情况下,全身的树突状细胞都集中在提醒免疫系统,这会阻止它们检测和应对任何新的感染
一种新型疫苗
正则表达式有什么问题吗?