我目前正在尝试对公司名称进行一些自然语言处理。
我写的正则表达式 -\s+\w+('\w+|\s+\w)
是删除连字符后的所有文本(如果它的空格)。接下来,我 [.,/#!$%\^&*;:{}=-_`''"<>|~()]
删除所有标点符号。第三,我(Reg|Ltd|PLC|NV|LTD|LLC|INC|LLP|US)
删除了公司后缀。最后,有一些名称在字符串的前面和末尾带有回车符,我用"\r*\n*
.
当我在 Alteryx 和 Python 中运行它时,我想将所有这些正则表达式组合在一起。
请注意:有些带有连字符的公司名称后面没有空格,我需要保留它并确保它们不会随着标点符号的删除而被删除。
我怎样才能将所有这些部分结合起来?而且,我这样做对吗?最后,在字符串清理之后,我将把这些数据加入到另一个客户列表中以提取特定信息。
这就是为什么所有前端都不应包含自由文本字段,尤其是对于公司而言。
我该如何将这些组合成一个模式,或者将每个模式分开是更好的做法?
前
MY COMPANY X,Y,Z, TENNESSEE CORPORATION L.L.C.
MY COMPANY HOLDINGS, LP. (there is a carriage return after the LP.)
ABN FGDF - NEW YORK - UNITED STATES
COLLEGE-INRIA
ABCDE - UNITED STATES
MANAGEMENT MANAGERS - UNITED STATES
INVESTMENT MANAGEMENT CORPORATION - CANADA
AUTO-CHLOR
后
MY COMPANY XYZ TENNESSEE CORPORATION
MY COMPANY HOLDINGS
ABN FGDF
COLLEGE-INRIA
ABCDE
MANAGEMENT MANAGERS
INVESTMENT MANAGEMENT CORPORATION
AUTO-CHLOR
请注意,因为连字符和下一个字符之间没有空格,所以 COLLEGE-INRIA 保持不变。