嗨,我正在寻找清理标签或至少从文本中的自定义标签中获取数据的最佳实践或想法。
我确信我可以编写某种“解析器”,它会手动遍历每一行,但今天不是有一些更聪明的方法吗?
数据思路:
{电话:555-123456789}
在这里,我们将“电话”作为键,将数字作为数据。看起来很像 JSON 格式,但它更容易为人类编写。
或者
{link: article123456 ; title: Read about article 123456 here }
也可以是普通的 (X)HTML:
<a href="article123456.html" > Read about article 123456 here </a>
人类并不总是很好地“修剪”他们的输入,也不是用懒惰的所见即所得编辑器制作的旧网站,所以我首先需要弄清楚哪些对属于一起,然后在找到“内部数据”之后修剪结果。
问题出在上面的“标题”部分,标题文本周围没有“”,因此它可以自动添加它们或向人类显示错误。
关于如何以最佳方式获取这些数据的任何想法?似乎有几种方法可能有效,但您解决这个问题的最佳方法是什么?