问题标签 [jtidy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
197 浏览

xml - 使用 sax 和 webcrawler 的站点地图

大家好,这是我在这里的第一个问题,我不是程序员。

我想生成一个站点地图。我正在使用 webcrawler (crawler.dev.java.net) 抓取一个网站。有没有办法对我得到的数据使用 sax 解析器?

我还使用了 jtidy,并将主页 html 数据转换为 xml 文件。

我很困惑有这么多的 sax 解析器,不知道它们之间的区别以及选择哪一个。

我想访问 html 标签的属性,但我不能用 webcrawler 做到这一点,或者我不知道该怎么做

org.xml.sax 和所有其他包有什么区别?

0 投票
1 回答
4601 浏览

java - jTidy 和 TagSoup 文档

我正在寻找 TagSoup 和 jTidy 库的文档(如果可能的话,官方文档)。

我想使用这个库来操作 html“tagsoup”文件,这些文件包括 xml 标记,其中不同的命名空间混合在 html(html、xhtml 或 html5)标记之间。

我已经测试过 HTMLCleaner、NekoHTML 和 Jericho,但除了清除文件的最简单示例之外,我没有找到 jTidy 和 TagSoup 的文档。

我需要有关操作内容、替换标签、提取信息等的文档...

谢谢

注意:测试所有选项后,我使用了StAX / Woodstox

0 投票
2 回答
396 浏览

java - JTidy 保留 CSS 规则

寻找一种获取一些html的方法,例如:

并通过 JTidy 运行它,并将 CSS 规则保留在解析器的输出中。

标签在最终输出中消失了。

0 投票
1 回答
375 浏览

xhtml - JTidy 和 XHTML 1.1:有可能吗?

我需要将 HTML 转换为 XHTML 1.1。

我是在 Java 程序中做的,所以我决定使用 JTidy。但是如果你告诉 JTidy 用 XHTML 转换输出,你得到的是 XHTML 1.0,而不是 XHTML 1.1。我在 Google 上找到了一些关于 2003 年及更早版本的 Tidy 和 XHTML 1.1 的帖子,但我找不到任何带有 JTidy 的 XHTML 1.1 选项。

有任何想法吗?

非常感谢。

0 投票
4 回答
2651 浏览

java - 如何从java中的任何网页获取标题文本

我正在使用 java 从网页中获取标题文本。

我使用标签名称从网页中获取图像,如下所示:

它正在工作,但我想使用与上面相同的代码从网页(www.yahoo.com)获取标题标签。我提到了 getElementsByTagName("title"); 但它不工作。请帮助我,如何使用上面的 jtidy 解析器来做到这一点。

0 投票
2 回答
7517 浏览

java - XPath 如何从 html 文档中检索表格单元格的值

我有一个 html 文档,文档内的某处位于表格下方,我可以获取表格行和 java DOM 对象。我不清楚的是,当值是字符串以及二进制资源时,如何提取表格单元格的值?

我正在使用如下代码:

和循环喜欢:

但我没有看到表中的值。

0 投票
1 回答
2755 浏览

java - 如何通过在属性周围加上引号来清理用于 Java 解析的 XML 文件

我有一系列看起来像这样的 xml 文件:

我正在尝试使用标准 DOM 方式解析 xml,但由于属性值P不在引号中,Java 会抱怨。

我尝试使用 JTidy 来清理它,但是因为我的 xml 不是 HTML,Tidy 会抛出错误,抱怨它无法识别标签<ROOT><F>

那么,还有其他方法可以做到这一点吗?或者,我想我可以使用正则表达式,因为唯一没有引号的属性出现在<F>标签中。有什么想法吗?

提前致谢

0 投票
1 回答
344 浏览

java - 阅读中的问题 tag from web page in java</h1> <div id="body"><p>I am using jtidy parser to parse the web page. It is working, sort of:</p> <pre><code>InputStream in=new URL("http://www.medicinenet.com/alopecia_areata/ar</a> </h3> <div class="s-post-summary--content-excerpt"> </div> <div class="s-post-summary--meta"> <div class="s-post-summary--meta-tags tags js-tags t-cñ t-ûnet t-aspûnet-mvc t-aspûnet-mvc-4 t-actionfilterattribute"> <a href="/tags/java" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">java</a><a href="/tags/jtidy" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">jtidy</a> </div> <div class="s-user-card s-user-card__minimal"> <div class="s-user-card--info"> <div class="s-user-card--link d-flex gs4"> </div> </div> <time class="s-user-card--time" style="margin-left:5px;"> <span title="2022-04-18 08:34:11Z" class="relativetime"> 2011-05-14T07:10:19.320</span></time> </div> </div> </div> </div><div id="question-summary-71909431" class="s-post-summary js-post-summary" data-post-id="71909431" data-post-type-id="1"> <div class="s-post-summary--stats js-post-summary-stats"> <div class="s-post-summary--stats-item s-post-summary--stats-item__emphasized" title="Score of 0"> <span class="s-post-summary--stats-item-number">0</span> <span class="s-post-summary--stats-item-unit">投票</span> </div> <div class="s-post-summary--stats-item " title="2 answers"> <span class="s-post-summary--stats-item-number">2</span> <span class="s-post-summary--stats-item-unit">回答</span> </div> <div class="s-post-summary--stats-item " title="27438 views"> <span class="s-post-summary--stats-item-number">27438</span> <span class="s-post-summary--stats-item-unit">浏览</span> </div> </div> <div class="s-post-summary--content"> <h3 class="s-post-summary--content-title"> <a href="/questions/6013628" class="s-link">java - 如何使用java从给定的url中获取基本url</a> </h3> <div class="s-post-summary--content-excerpt"> <p>我正在尝试使用 java 获取基本 URL。我在我的代码中使用了 jtidy 解析器来获取标题。我正在使用 jtidy 正确获取标题,但我没有从给定的 URL 获取基本 URL。</p> <p>我有一些 URL 作为输入:</p> <p>我想从第一个字符串中获取<code>"http://staff.unak.is/andy/GameProgramming0910/"</code>基本 URL,从第二个字符串中获取<code>"http://www.complex.com/"</code>基本 URL。</p> <p>我正在使用代码:</p> <p>我得到了<code>titletext</code>,但请让我知道如何从上面给定的 URL 获取基本 URL?</p> </div> <div class="s-post-summary--meta"> <div class="s-post-summary--meta-tags tags js-tags t-cñ t-ûnet t-aspûnet-mvc t-aspûnet-mvc-4 t-actionfilterattribute"> <a href="/tags/java" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">java</a><a href="/tags/jtidy" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">jtidy</a><a href="/tags/base-url" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">base-url</a> </div> <div class="s-user-card s-user-card__minimal"> <div class="s-user-card--info"> <div class="s-user-card--link d-flex gs4"> </div> </div> <time class="s-user-card--time" style="margin-left:5px;"> <span title="2022-04-18 08:34:11Z" class="relativetime"> 2011-05-16T05:49:21.477</span></time> </div> </div> </div> </div><div id="question-summary-71909431" class="s-post-summary js-post-summary" data-post-id="71909431" data-post-type-id="1"> <div class="s-post-summary--stats js-post-summary-stats"> <div class="s-post-summary--stats-item s-post-summary--stats-item__emphasized" title="Score of 0"> <span class="s-post-summary--stats-item-number">0</span> <span class="s-post-summary--stats-item-unit">投票</span> </div> <div class="s-post-summary--stats-item " title="2 answers"> <span class="s-post-summary--stats-item-number">2</span> <span class="s-post-summary--stats-item-unit">回答</span> </div> <div class="s-post-summary--stats-item " title="266 views"> <span class="s-post-summary--stats-item-number">266</span> <span class="s-post-summary--stats-item-unit">浏览</span> </div> </div> <div class="s-post-summary--content"> <h3 class="s-post-summary--content-title"> <a href="/questions/6135405" class="s-link">java - 如何在java中从网页获取时设置图像大小</a> </h3> <div class="s-post-summary--content-excerpt"> <p>嗨,我正在使用 Java 中的 Jtidy 从网页中获取图像。这是我的代码:</p> <p>它工作正常,但我得到了一些大图像。我想设置高度和宽度 16*16。</p> <p>请帮助我:如何在获取图像时设置大小。</p> </div> <div class="s-post-summary--meta"> <div class="s-post-summary--meta-tags tags js-tags t-cñ t-ûnet t-aspûnet-mvc t-aspûnet-mvc-4 t-actionfilterattribute"> <a href="/tags/java" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">java</a><a href="/tags/jtidy" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">jtidy</a> </div> <div class="s-user-card s-user-card__minimal"> <div class="s-user-card--info"> <div class="s-user-card--link d-flex gs4"> </div> </div> <time class="s-user-card--time" style="margin-left:5px;"> <span title="2022-04-18 08:34:11Z" class="relativetime"> 2011-05-26T07:57:05.603</span></time> </div> </div> </div> </div> </div> <br class="cbt"> <div class="s-pagination site1 themed pager float-left"> <a class="s-pagination--item js-pagination-item " href="/tags/jtidy?p=1" rel="" title="Go to page 2">1</a><a class="s-pagination--item js-pagination-item is-selected" href="/tags/jtidy?p=2" rel="" title="Go to page 2">2</a><a class="s-pagination--item js-pagination-item " href="/tags/jtidy?p=3" rel="" title="Go to page 2">3</a><a class="s-pagination--item js-pagination-item " href="/tags/jtidy?p=4" rel="" title="Go to page 2">4</a><a class="s-pagination--item js-pagination-item " href="/tags/jtidy?p=5" rel="" title="Go to page 2">5</a><a class="s-pagination--item js-pagination-item " href="/tags/jtidy?p=6" rel="" title="Go to page 2">6</a><a class="s-pagination--item js-pagination-item " href="/tags/jtidy?p=7" rel="" title="Go to page 2">7</a><a class="s-pagination--item js-pagination-item " href="/tags/jtidy?p=8" rel="" title="Go to page 2">8</a><a class="s-pagination--item js-pagination-item " href="/tags/jtidy?p=9" rel="" title="Go to page 2">9</a><a class="s-pagination--item js-pagination-item " href="/tags/jtidy?p=10" rel="" title="Go to page 2">10</a></div> </div> <div id="sidebar" class="show-votes" role="complementary" aria-label="sidebar"> <div class="module js-gps-related-tags" id="related-tags"> <h4 id="h-related-tags">Reference</h4> <div data-name="javascript"> <a href="https://php.github.net.cn" class="post-tag no-tag-menu js-gps-track" >php</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">1429865</span> </span> </div> <div data-name="javascript"> <a href="https://c-cpp.com" class="post-tag no-tag-menu js-gps-track" >c/c++</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">756500</span> </span> </div> <div data-name="javascript"> <a href="https://nginx.github.net.cn" class="post-tag no-tag-menu js-gps-track" target="_blank">nginx</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">49975</span> </span> </div> <div data-name="javascript"> <a href="https://mongodb.net.cn" class="post-tag no-tag-menu js-gps-track" >mongodb</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">159057</span> </span> </div> <div data-name="javascript"> <a href="https://mybatis.net.cn" class="post-tag no-tag-menu js-gps-track" >mybatis</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">3233</span> </span> </div> <div data-name="javascript"> <a href="https://anaconda.org.cn" class="post-tag no-tag-menu js-gps-track" >anaconda</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">13410</span> </span> </div> <div data-name="javascript"> <a href="https://pycharm.net.cn" class="post-tag no-tag-menu js-gps-track" >pycharm</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">14671</span> </span> </div> <div data-name="javascript"> <a href="https://python.github.net.cn" class="post-tag no-tag-menu js-gps-track" >python</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">1902243</span> </span> </div> <div data-name="javascript"> <a href="https://vscode.github.net.cn" class="post-tag no-tag-menu js-gps-track" >vscode</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">56040</span> </span> </div> <div data-name="javascript"> <a href="https://dockerdocs.cn" class="post-tag no-tag-menu js-gps-track" >docker</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">110988</span> </span> </div> <div data-name="javascript"> <a href="https://github.net.cn" class="post-tag no-tag-menu js-gps-track" >github</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">49000</span> </span> </div> <div data-name="javascript"> <a href="https://flask.github.net.cn" class="post-tag no-tag-menu js-gps-track" >flask</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">49129</span> </span> </div> <div data-name="javascript"> <a href="https://ffmpeg.github.net.cn" class="post-tag no-tag-menu js-gps-track" >ffmpeg</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">24037</span> </span> </div> <div data-name="javascript"> <a href="https://jmeter.net" class="post-tag no-tag-menu js-gps-track" >jmeter</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">16910</span> </span> </div> <div data-name="javascript"> <a href="https://matplotlib.net" class="post-tag no-tag-menu js-gps-track" >matplotlib</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">63493</span> </span> </div> <div data-name="javascript"> <a href="https://getbootstrap.net" class="post-tag no-tag-menu js-gps-track" >bootstrap</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">54641</span> </span> </div> </div> </div> </div> </div> <footer id="footer" class="site-footer js-footer" role="contentinfo"> <div class="site-footer--container"> <div class="site-footer--logo"> <a href="https://stackoverflow.com"><svg aria-hidden="true" class="native svg-icon iconLogoGlyphMd" width="32" height="37" viewBox="0 0 32 37"><path d="M26 33v-9h4v13H0V24h4v9h22Z" fill="#BCBBBB"/><path d="m21.5 0-2.7 2 9.9 13.3 2.7-2L21.5 0ZM26 18.4 13.3 7.8l2.1-2.5 12.7 10.6-2.1 2.5ZM9.1 15.2l15 7 1.4-3-15-7-1.4 3Zm14 10.79.68-2.95-16.1-3.35L7 23l16.1 2.99ZM23 30H7v-3h16v3Z" fill="#F48024"/></svg></a> </div> <nav class="site-footer--nav"> <div class="site-footer--col"> <h5 class="-title"><a href="https://stackoverflow.org.cn" class="js-gps-track" data-gps-track="footer.click({ location: 3, link: 15})">Stack Overflow 中文网</a></h5> <p>遵从 CC BY-SA 知识共享许可协议。</p> </div> </nav> </div> </footer> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?709ff2ad9744e86b5b0eee677fc13ede"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> <!-- Google tag (gtag.js) --> <script async src="https://www.googletagmanager.com/gtag/js?id=G-1MW5BV8G8E"></script> <script> window.dataLayer = window.dataLayer || []; function gtag(){dataLayer.push(arguments);} gtag('js', new Date()); gtag('config', 'G-1MW5BV8G8E'); </script> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-6117966252207595" crossorigin="anonymous"></script> </body> </html>