我想对一堆推文进行分类,因此我正在使用 BERT 的拥抱脸实现。但是我注意到默认的 BertTokenizer 不使用特殊的 url 标记。
>>> from transformers import BertTokenizer
>>> tokenizer = BertTokenizer.from_pretrained("bert-base-cased")
>>> tokenizer.tokenize("https://stackoverflow.com/questions/ask")
['https', ':', '/', '/', 'stack', '##over', '##flow', '.', 'com', '/', 'questions', '/', 'ask']
这对我来说似乎效率很低。对 URL 进行编码的最佳方法是什么?