似乎这对模块应该足够简单re
(这是未经测试的并且来自内存:
import re
test_str = """<span style=3D"text-decoration: line-through; color: rgb(156, 163, 173);">8=
/23/2017- Lorem ipsum dolor sit amet, fastidii sad.Vim graece&nb=
sp; tractatos"""
re.sub(r'=$', r'\n', test_str, flags=re.MULTILINE)
但是既然你要求解析它。你想找回什么?解析通常意味着您将提取结构化数据,因此您的输入应该根据一些语法(似乎是这样):
- 第一个字段是日期(以某种格式)
- 第二个字段消息
- 第三个字段(看起来像第三个字段):类别
编辑:
最简单的形式:
import quopri
from HTMLParser import HTMLParser
test_str = """<span style=3D"text-decoration: line-through; color: rgb(156, 163, 173);">8=
/23/2017- Lorem ipsum dolor sit amet, fastidii sad.Vim graece&nb=
sp; tractatos"""
h = HTMLParser()
print h.unescape(quopri.decodestring(test_str))