我一直在关注这个关于情绪分析的教程。作者有一个关于我们如何使用自己的数据集而不是 PyTorch 内置数据集的笔记本。所以我跟随他的脚步,在清理并删除标点符号和不必要的列并最终将数据集修剪为仅 500000 行之后,将我的数据集拆分为和csv 文件。train
test
validation
因此,在完成所有这些并按照作者的脚步创建我的字段、创建 train_data、valid_data 和 test_data 并最终创建 vocab 之后,我想我会检查我的 train_data 变量中的内容,我得到了这个:{'text': ['0'], 'polarity': '0'}
。为什么会显示这个?
这是我的代码:
TEXT = data.Field()
POLARITY = data.LabelField()
fields = [('text', TEXT), ('polarity', POLARITY)]
train_data, valid_data, test_data = data.TabularDataset.splits(
path = 'data',
train = 'train.csv',
validation = 'valid.csv',
test = 'test.csv',
format = 'csv',
fields = fields,
skip_header = True
)
print(vars(train_data[0]))