pandas - 如何从 Pandas 数据框中为 PyTorch 加载和预处理数据

Question

我有一个完全预处理的 Pandas 数据框，我想使用 pytorch 在其上运行 NLP。以下是使用TabularDataset库加载和处理文件数据的代码：

import pandas as pd
import torch
from torchtext.legacy import data
from torchtext.legacy.data import TabularDataset

TEXT = data.Field(sequential=True)
LABEL = data.LabelField(dtype = torch.float, use_vocab = False, preprocessing = int)

datafields = [("source", None),
                 ("label", LABEL),
                 ('notes', None),
                 ("text", TEXT)]

train_data, valid_data, test_data = TabularDataset.splits(path='/Folder/', 
                                                          train = 'train.csv', 
                                                          validation = 'validation.csv', 
                                                          test = 'test.csv', 
                                                          format = 'csv', skip_header=True, fields=datafields)

TEXT.build_vocab(train_data, max_size = MAX_VOCAB_SIZE, min_freq = 1)

但是，我已经将数据作为 Pandas 数据帧，我不想将它们写入.csv然后使用TablularDataset.

我可以从他们的数据帧（例如 train_df、valid_df、test_df）中获取train_data、valid_data、test_data的等效代码是什么？我的 Pandas 数据框中的数据示例如下：

标签	文本
1	文本重要处理数据nlp过程预测
0	视觉模型成功时间模拟大快

请注意，文本数据是一些标记“”。连接在一起。

pandas - 如何从 Pandas 数据框中为 PyTorch 加载和预处理数据

0 回答 0

Related

Reference