0

我有带有自定义标记的文本,例如:<adjective>并且我正在尝试准备一个不会拆分它们的字节级标记器:

tokenizer.pre_tokenizer = ByteLevel()
tokenizer.pre_tokenizer.pre_tokenize("<adjective>")

[('Ġ<', (0, 2)), ('adjective', (2, 11)), ('>', (11, 12)]

如何添加<adjective>不是特殊标记,而是标记器不应该拆分的标记?

4

1 回答 1

0

拥抱脸转换器 API 中标记器的新标记可以添加如下:

tokenizer.add_tokens('<adjective>')

这会将 '' 添加为单个标记。

这也需要更新模型:

model.resize_token_embeddings(len(tokenizer))

于 2020-10-27T10:52:43.900 回答