我有一个可以读取 URL 源并保存到文件(source.html)的 Java 代码,现在从保存的页面中,我想使用 XPath 提取一些值。假设我想阅读价格 -//div [@itemprop='price'] //text ()
如何进一步执行此操作,我能否直接在保存的 HTML 页面中执行此操作,或者我应该先将其转换为 XML 文件,然后使用 XPath。我听说过 HTML 清理器/解析器,我应该在这里使用它吗?请不要指向其他网站寻求答案。如果是这样,请把我带到一个我可以进行直接和简单课程的地方。修改以下代码将非常有帮助。
import java.io.FileWriter;
import java.io.IOException;
import java.io.PrintWriter;
import org.jsoup.Jsoup;
public class jSoupContentRead {
@SuppressWarnings("resource")
public static void main(String[] args) throws IOException {
FileWriter FR = new FileWriter("source.html");
PrintWriter op = new PrintWriter(FR);
org.jsoup.nodes.Document doc = Jsoup.connect(
"http://itunes.apple.com/us/book/a-way-home/id982665320?mt=11")
.get();
op.write(doc.toString());
System.out.println(doc.toString());
}
}