-1

我试图在文本限定符中排除分隔符。为此,我正在尝试使用正则表达式。但是,我是 Regex 的新手,无法完全满足我的需求。如果有人可以帮助我,我将非常感激。

在 Alteryx 中,我将分隔的平面文本文件加载为“非分隔”,并说它没有文本限定符。因此,输入看起来像这样:

  1. “aabb”|ccdd|eeff|gghh
  2. “aa|bb”|ccdd|eeff|gghh
  3. "aa|bb"|ccdd|"ee|ff"|gghh
  4. "aa|bb"|"cc|dd"|"ee|ff"|"gg|hh"
  5. “aabb”|“ccdd”|“eeff”|“gghh”
  6. "aabb"|"ccdd"|"eeff"|"gg|hh"
  7. aabb|ccdd|eeff|gghh
  8. "aa|bb"|ccdd|eeff|"gg|hh"
  9. aabb|cc|dd|eeff|gghh
  10. aabb|"cc||dd"|eeff|gghh
  11. aabb|"c|c|dd"|eeff|gghh
  12. “aa||bb”|ccdd|eeff|gghh
  13. “a|a|b|b”|ccdd|eeff|gghh
  14. "aabb"|ccdd|eeff|"g|g|hh"
  15. "aabb"|ccdd|eeff|"gg||hh"

我想排除文本限定符之间的所有分隔符。

我试图使用正则表达式来替换文本限定符中的分隔符。

到目前为止,我已经为我的目标尝试了以下正则表达式代码:

(")(.*?[^"])\|+(.*?)(")

我使用以下内容进行替换:$1$2$3$4

但是,这不会修复第 11、13、14 和 15 行。

我希望得到以下结果:

  1. “aabb”|ccdd|eeff|gghh
  2. “aabb”|ccdd|eeff|gghh
  3. “aabb”|ccdd|“eeff”|gghh
  4. “aabb”|“ccdd”|“eeff”|“gghh”
  5. “aabb”|“ccdd”|“eeff”|“gghh”
  6. “aabb”|“ccdd”|“eeff”|“gghh”
  7. aabb|ccdd|eeff|gghh
  8. “aabb”|ccdd|eeff|“gghh”
  9. aabb|cc|dd|eeff|gghh
  10. aabb|"ccdd"|eeff|gghh
  11. aabb|"ccdd"|eeff|gghh
  12. “aabb”|ccdd|eeff|gghh
  13. “aabb”|ccdd|eeff|gghh
  14. “aabb”|ccdd|eeff|“gghh”
  15. “aabb”|ccdd|eeff|“gghh”

预先感谢您帮助我!

亲切的问候, 罗宾

4

1 回答 1

0

除非您输入每个可以找到的模式,否则我想不出 REGEX 中的正确语法。

但是,一种更简单的方法(可能不如性能)是使用 Text to Columns 选择忽略引号中的分隔符。如果之后您需要将其重新组合到一个单元格中,您可以转置,然后删除分隔符,然后使用 Summarize 连接每个 RecordID 组。

于 2019-01-30T01:43:20.743 回答