我将创建一个包含 3 个类别(正面、中性、负面)的情绪模型。问题是我的数据分布不平衡,这意味着数据由大约 600,000 条正面记录、大约 450,000 条负面记录和大约 14,000 条中性记录组成。现在这是我的问题;这种不平衡的数据是否会成为开发模型的问题?如果是,最好的解决方案是什么?
(请考虑收集更多中立的记录有点困难,或者可能是不可能的。)
我将创建一个包含 3 个类别(正面、中性、负面)的情绪模型。问题是我的数据分布不平衡,这意味着数据由大约 600,000 条正面记录、大约 450,000 条负面记录和大约 14,000 条中性记录组成。现在这是我的问题;这种不平衡的数据是否会成为开发模型的问题?如果是,最好的解决方案是什么?
(请考虑收集更多中立的记录有点困难,或者可能是不可能的。)