我有一个包含数千个 HTML 文件的文件夹结构,我想使用 pandoc 清理并转换为 markdown,但保留现有结构(或镜像结构)。
我目前已经设法使用 找到所有 HTML 文件,使用解析内容并查看标记并将内容通过管道传递到名为 article-content.txt 的新文件的命令find
传递该内容。cat
pup
<article>
我正在考虑分两个阶段处理内容。
- 从每个文件中提取文章标签并保存为新文件(或覆盖现有文件)。
- 然后用 pandoc 转换相同的结构。
我对 bash 的理解是有限的。我知道我可能需要遍历文件列表并将路径/文件名作为变量传递给新的文件结构。但不确定下一步该去哪里。
cat $(find . -type f -name "*.html") | pup 'article' > article-content.txt