python - PyTorch TabularDataset 拆分显示错误的结果

翻译自：https://stackoverflow.com/questions/66960978 2021-04-05T23:30:34.910

138 次

我一直在关注这个关于情绪分析的教程。作者有一个关于我们如何使用自己的数据集而不是 PyTorch 内置数据集的笔记本。所以我跟随他的脚步，在清理并删除标点符号和不必要的列并最终将数据集修剪为仅 500000 行之后，将我的数据集拆分为和csv 文件。traintestvalidation

因此，在完成所有这些并按照作者的脚步创建我的字段、创建 train_data、valid_data 和 test_data 并最终创建 vocab 之后，我想我会检查我的 train_data 变量中的内容，我得到了这个：{'text': ['0'], 'polarity': '0'}。为什么会显示这个？

这是我的代码：

TEXT = data.Field()
POLARITY = data.LabelField()
fields = [('text', TEXT), ('polarity', POLARITY)]
train_data, valid_data, test_data = data.TabularDataset.splits(
                                        path = 'data',
                                        train = 'train.csv',
                                        validation = 'valid.csv',
                                        test = 'test.csv',
                                        format = 'csv',
                                        fields = fields,
                                        skip_header = True
)
print(vars(train_data[0]))

python - PyTorch TabularDataset 拆分显示错误的结果

0 回答 0

Related

Reference