我使用tldextract(2.2.2 版)从 URL 中提取子域/域/后缀。
我最近注意到一个令我惊讶的结果:
>>> from tldextract import extract
>>> extract('http://althawrah.ye/archives/597366')
ExtractResult(subdomain='', domain='', suffix='althawrah.ye')
不是作为域被拾取,而是althawrah
作为后缀的一部分被拾取。 为什么是这样?
稍微窥探一下,我注意到Public Suffice List本身.ye
是少数使用前导星号的后缀之一,例如
// fj : https://en.wikipedia.org/wiki/.fj
*.fj
// ye : http://www.y.net.ye/services/domain_name.htm
*.ye
这里的含义是,这些后缀不允许直接在后缀下注册域名,而是必须注册为三级名称。但是,http://althawrah.ye/并非如此;即,未列为 .ye 的二级域。那么,这里发生了什么?althawrah