0

我有一个抓取的数据集,其中包含一列数据,如下所示:

<td>1,968</td>
<td>185</td>
<td>1,285<sup id="cite_ref-4" class="reference"><a href="#cite_note-4">[4]</a></sup></td>

我正在使用Alteryx来处理数据,我想使用正则表达式来提取 html 标签<td></td>. 因此,在上述情况下,我应该返回 1968、185 和 1285。我尝试了以下正则表达式,但都没有使用这个 tester。我相信正则表达式的版本应该是 Alteryx 的 R,但不确定。

>([0-9]+)<

>[0-9]+<

有人可以对此有所了解吗?谢谢!

4

1 回答 1

1

另一种 Alteryx 方法:使用公式工具删除<td>逗号和空格,然后使用选择工具将剩余的内容转换为您选择的数字类型......它会自动将所有内容带到第一个非数字字符.

于 2017-04-25T01:29:50.910 回答