我正在处理敏感数据识别 (NER) 任务。面对我无法准确检测文本中的日期的事实。我已经尝试了几乎所有...
例如,我的文本中有这种类型的日期:
date_list = ['23 octbr', '08/10/1975', '2/20/1961', 'December 23', '2021', '1/10/1980', ...]
但不得不说,文中也有很多数字信息,比如IP地址、住宅地址、银行卡号等。
这是一个如何Spacy工作的例子:
'08/10/1975' -> Entityt type: No Entity
'2/20/1961' -> Entityt type: DATE
'1/10/1980' -> Entityt type: CARDINAL
或者例如我有电话号码"(150) 224-2215",它会将Spacy部分标记"24-2215"为日期。它也经常发生在地址和信用卡号码上。
然后我尝试了datefinderand dateparser.search,但他们检测到句子中完全不正确的部分或包含“to”一词的部分。
你能分享你的经验吗,有什么更好的方法?获得高精度日期检测的最佳方法是什么?