正如 Wiktor 在评论中所建议的那样,您可以使用(?U)
打开 flag UNICODE_CHARACTER_CLASS
。虽然这确实允许匹配äöa
,但这仍然不匹配m²
。那是因为UNICODE_CHARACTER_CLASS
with\w
不能识别²
为有效的字母数字字符。作为替代品\w
,您可以使用[\pN\pL_]
. 这匹配 Unicode 数字\pN
和 Unicode 字母\pL
(加号_
)。\pN
Unicode字符类包括字符类,其中\pNo
包括Latin 1 Supplement - Latin-1 punctuation and symbols字符类(它包括²³¹
)。或者,您可以将\pNo
Unicode 字符类添加到字符类中\w
. 这意味着以下正则表达式正确匹配您的字符串:
[\pN\pL_]{2,} # Matches any Unicode number or letter, and underscore
(?U)[\w\pNo]{2,} # Uses UNICODE_CHARACTER_CLASS so that \w matches Unicode.
# Adds \pNo to additionally match ²³¹
那么为什么在 Java 中不\w
匹配²
,但在 Python 中却匹配呢?
Java的解释
查看OpenJDK 8-b132 的Pattern
实现,我们得到以下信息(我删除了与回答问题无关的信息):
Unicode 支持
以下预定义字符类和POSIX 字符类符合附件 C 的建议: Unicode 正则表达式的兼容性属性,当
指定标志时。UNICODE_CHARACTER_CLASS
\w
一个字字符:[\p{Alpha}\p{gc=Mn}\p{gc=Me}\p{gc=Mc}\p{Digit}\p{gc=Pc}\p{IsJoin_Control}]
伟大的!现在我们有了一个何时使用标志的定义。将这些 Unicode 字符类插入这个神奇的工具将准确地告诉您这些 Unicode 字符类中的每一个匹配什么。在不让这篇文章超长的情况下,我会继续告诉你以下课程都不匹配:\w
(?U)
²
\p{Alpha}
\p{gc=Mn}
\p{gc=Me}
\p{gc=Mc}
\p{Digit}
\p{gc=Pc}
\p{IsJoin_Control}
Python的解释
²³¹
那么当u
标志与 结合使用时,为什么 Python 会匹配\w
?这个很难追踪,但我深入研究了Python 的源代码(我使用了 Python 3.6.5rc1 - 2018-03-13)。在消除了很多关于如何调用它的绒毛之后,基本上会发生以下情况:
\w
定义为CATEGORY_UNI_WORD
,然后以 为前缀SRE_
。SRE_CATEGORY_UNI_WORD
来电SRE_UNI_IS_WORD(ch)
SRE_UNI_IS_WORD
定义为(SRE_UNI_IS_ALNUM(ch) || (ch) == '_')
。
SRE_UNI_IS_ALNUM
调用Py_UNICODE_ISALNUM
,它又被定义为(Py_UNICODE_ISALPHA(ch) || Py_UNICODE_ISDECIMAL(ch) || Py_UNICODE_ISDIGIT(ch) || Py_UNICODE_ISNUMERIC(ch))
。
- 这里重要的是
Py_UNICODE_ISDECIMAL(ch)
,定义为Py_UNICODE_ISDECIMAL(ch) _PyUnicode_IsDecimalDigit(ch)
。
现在,让我们看一下方法_PyUnicode_IsDecimalDigit(ch)
:
int _PyUnicode_IsDecimalDigit(Py_UCS4 ch)
{
if (_PyUnicode_ToDecimalDigit(ch) < 0)
return 0;
return 1;
}
如我们所见,此方法返回1
if _PyUnicode_ToDecimalDigit(ch) < 0
。那么它_PyUnicode_ToDecimalDigit
看起来像什么?
int _PyUnicode_ToDecimalDigit(Py_UCS4 ch)
{
const _PyUnicode_TypeRecord *ctype = gettyperecord(ch);
return (ctype->flags & DECIMAL_MASK) ? ctype->decimal : -1;
}
太好了,所以基本上,如果字符的 UTF-32 编码字节具有标志,这将评估为 true,并且将返回DECIMAL_MASK
大于或等于的值。0
²
is的UTF-32 编码字节值0x000000b2
,我们的标志DECIMAL_MASK
是0x02
. 0x000000b2 & 0x02
计算结果为 true,因此²
在 python 中被视为有效的 Unicode 字母数字字符,因此\w
带有u
标志 matches ²
。