我的系统从一组句子中生成问题。可以根据句子的质量为单个句子生成多个问题。人类也被赋予相同的一组句子来生成问题。
例如:
句子:俄罗斯的首都是莫斯科。
============#系统生成的问题#==============
问题一:俄罗斯的首都是什么?
问题2:什么是莫斯科?
============# 人为问题#==============
问题1:俄罗斯的首都是哪里?
问题2:什么是莫斯科?
问题3:俄罗斯的首都是莫斯科吗?
我想评估我的系统的精度、召回率和准确性。但我不知道如何为问题生成系统案例计算此类度量。
数据
- 一组带注释的系统生成问题(可接受、不可接受)
- 人工生成的问题(针对同一组句子)
给定这些数据,我如何计算这些度量?