“huggingface-tokenizers”的相关标签问题

0 投票

1 回答

1064 浏览

deep-learning - Hugging Face Transformers 上的“TextInputSequence must be str”错误

我对 HuggingFace 很陌生，我在笔记本上遇到了这个错误“<strong>TextInputSequence must be str”，这对我在各种拥抱脸模型上做一些练习很有帮助。笔记本上的样板代码抛出了这个错误（我猜）由于拥抱脸的 API或其他东西的一些变化。所以我想知道是否有人可以建议我可以对代码进行一些更改以解决错误。

只需运行笔记本的所有单元即可轻松重现该错误。

链接：Colab 笔记本

这是引发错误的行 -

这是错误-

2021-04-17T12:12:33.397

0 投票

0 回答

121 浏览

huggingface-transformers - Huggingface transformer export tokenizer and model

I'm currently working on a text summarizer powered by the Huggingface transformers library. The summarization process has to be done on premise, as such I have the following code (close to documentation):

#xA;

My problem is that I cannot load the model in memory and have my server expose an API which can directly use model and tokenizer, I would like both of them to be initialized in a first process, and made available in a second one (one that will expose an HTTP API). I saw that you can export the model on the filesystem, but again, I don't have access to it (locked k8s environment), and I'd need to store it in a specific database.

Is it possible to export both the modeland the tokenizer as string/buffer/something storable in a Database ?

Thanks a lot

huggingface-transformers huggingface-tokenizers

2021-04-26T15:02:57.083

0 投票

1 回答

283 浏览

python - 拥抱面部标记器无法正确加载文件

我正在尝试使用 HuggingFace 的 BartModel 架构从头开始训练翻译模型。我正在使用 ByteLevelBPETokenizer 来标记事物。

我面临的问题是，当我在训练后保存标记器时，它没有正确加载，即使它显然创建了正确的 vocab.json 和 merges.txt 文件。

这就是我训练和保存标记器的方式。打印语句打印：

但是，当我在通过以下代码行训练我的模型时尝试加载标记器时：

然后 print 语句打印以下内容：

现在这对我来说很奇怪，因为 vocab_size 应该是 8000 而不是零，因此它基本上停止工作。如果我重新训练并直接使用它而不保存和加载，那么它可以工作，但效率不高。

这是 vocab.json（截断）的视图。

这是对 merges.txt（截断）的视图。

如您所见，文件是正常的。对此问题的任何帮助将不胜感激。

python nlp huggingface-tokenizers

2021-04-27T12:56:15.920

0 投票

0 回答

157 浏览

tensorflow - 尝试在自定义 TF 网络中使用 huggingface TF longformer 变压器时出现 Tensorflow“索引超出范围”错误

我正在尝试将 longformer 的 Transformer TF 模型从 huggingface 调整为更大的三类分类模型，我已经编译了模型，但我无法在其上运行测试示例。模型和尝试输出如下：

哪个输出：

我将 4096 用于输入层，因为这是 longformer 论文中指定的输入长度。我尝试使用不同的值，而不是 64，我尝试在不指定索引的情况下迭代值（使用 for 语句，其中错误表示无法迭代不知道第一个维度）。

我对此很陌生，感觉我缺少一些基本的东西。

tensorflow neural-network nlp huggingface-transformers huggingface-tokenizers

2021-04-28T12:37:19.043

0 投票

0 回答

101 浏览

pytorch - 如何找回只有权重字典的 pytorch 模型的架构？

我想使用多语言代码搜索模型，但首先代码不起作用并输出以下错误，表明它不能仅加载权重：

然后我下载了 pytorch bin 文件，但它只包含权重字典（这里提到的状态字典），这意味着如果我想使用模型，我必须初始化好的架构，然后加载权重。

但是我应该如何找到适合如此复杂模型重量的架构？我看到一些方法可以根据权重字典找到模型，但我没有设法让它们工作（我想在这里输入链接描述）。

如何找回权重字典的架构以使模型工作？甚至可能吗？

pytorch huggingface-transformers huggingface-tokenizers state-dict

2021-05-01T06:28:28.127

0 投票

1 回答

952 浏览

python - 如何在解码为 [UNK] bert tokenizer 的 vocab.txt 中添加标记

我正在解码来自bert tokenizer的标记化标记，它为 € 符号提供[UNK]。但我尝试在 vocab.txt 文件中添加 ##€ 标记。但它没有反映在预测结果中，与之前的结果相同，它再次给出[UNK]。请让我知道要解决这个问题，我是否需要再次微调模型以反映预测的变化。到目前为止，我一直在避免微调，因为它需要 10 多个小时。提前致谢

python nlp bert-language-model huggingface-transformers huggingface-tokenizers

2021-05-02T12:57:50.190

0 投票

0 回答

536 浏览