我必须解析一系列网页才能将数据导入应用程序。每种类型的网页都提供相同类型的数据。问题是每个页面的HTML不同,所以数据的位置也不同。另一个问题是 HTML 代码的格式很差,无法使用类似 XML 的解析器。
到目前为止,我能想到的最佳策略是为每种页面定义一个模板,例如:
模板 A:
<html>
...
<tr><td>Table column that is missing a td
<td> Another table column</td></tr>
<tr><td>$data_item_1$</td>
...
</html>
模板 B:
<html>
...
<ul><li>Yet another poorly formatted page <li>$data_item_1$</td></tr>
...
</html>
这样,我只需要一个解析器来处理所有页面,它将每个页面与其模板进行比较并检索$data_item_1$
,$data_item_2$
等。不过,这将是很多工作。你能想出更简单的解决方案吗?任何可以提供帮助的图书馆?
谢谢