bash - 查找一组文件夹中的所有 HTML 文件，提取特定的 HTML 内容并将内容保存到新文件

Question

我有一个包含数千个 HTML 文件的文件夹结构，我想使用 pandoc 清理并转换为 markdown，但保留现有结构（或镜像结构）。

我目前已经设法使用找到所有 HTML 文件，使用解析内容并查看标记并将内容通过管道传递到名为 article-content.txt 的新文件的命令find传递该内容。catpup<article>

我正在考虑分两个阶段处理内容。

我对 bash 的理解是有限的。我知道我可能需要遍历文件列表并将路径/文件名作为变量传递给新的文件结构。但不确定下一步该去哪里。

cat $(find . -type f -name "*.html") | pup 'article' > article-content.txt

score 0 · Accepted Answer

如果您想分别对每个文件执行类似的操作，请find为此目的内置-exec和选项（请参阅参考资料）：-execdirman find

find . -type f -name "*.html" -execdir bash -c "pup 'article' < {} > {}.md" \;

1 回答 1