我试图了解如何将实体类添加到命名实体识别器。示例代码具有如下结构:
ner = EntityRecognizer(nlp.vocab, entity_types=[... ENTITIES ...])
for itn in range(NUMBER_OF_ITERATIONS):
for raw_text, entities in training_examples:
... some data handling ...
ner.update(doc, gold)
,但是下一个示例(对于 BILUO 标签)ner.update()
只调用一次(即,没有导致update()
多次查看训练数据的 for 循环)。
我读过这个问题,他的回答似乎告诉我应该update()
为每个训练示例多次调用;但后来我也认为他们可能只是按照这些例子。
由于以下句子(来自文档页面的末尾)......
然后使用成本来计算损失的梯度,以训练模型。
......我猜我的问题的答案是“是的,我应该通过训练数据迭代'几次'来训练它”;但如果是这样的话,那么有没有人建议多少次“足够”?(示例代码使用 5,但如果我认为它太少了,我可以最终迭代“太多次”吗?即,它是否“过拟合”?)