python - 如何使字节级标记器不拆分令牌？

Question

我有带有自定义标记的文本，例如：<adjective>并且我正在尝试准备一个不会拆分它们的字节级标记器：

tokenizer.pre_tokenizer = ByteLevel()
tokenizer.pre_tokenizer.pre_tokenize("<adjective>")

[('Ġ<', (0, 2)), ('adjective', (2, 11)), ('>', (11, 12)]

如何添加<adjective>不是特殊标记，而是标记器不应该拆分的标记？

score 0 · Accepted Answer

拥抱脸转换器 API 中标记器的新标记可以添加如下：

tokenizer.add_tokens('<adjective>')

这会将 '' 添加为单个标记。

这也需要更新模型：

model.resize_token_embeddings(len(tokenizer))

1 回答 1