我有带有自定义标记的文本,例如:<adjective>
并且我正在尝试准备一个不会拆分它们的字节级标记器:
tokenizer.pre_tokenizer = ByteLevel()
tokenizer.pre_tokenizer.pre_tokenize("<adjective>")
[('Ġ<', (0, 2)), ('adjective', (2, 11)), ('>', (11, 12)]
如何添加<adjective>
不是特殊标记,而是标记器不应该拆分的标记?
我有带有自定义标记的文本,例如:<adjective>
并且我正在尝试准备一个不会拆分它们的字节级标记器:
tokenizer.pre_tokenizer = ByteLevel()
tokenizer.pre_tokenizer.pre_tokenize("<adjective>")
[('Ġ<', (0, 2)), ('adjective', (2, 11)), ('>', (11, 12)]
如何添加<adjective>
不是特殊标记,而是标记器不应该拆分的标记?