问题标签 [pytorch-dataloader]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 在拥抱面数据集上迭代 DataLoader 时获取批处理索引
下面的代码取自 huggingface 的教程:
在循环内部for batch in eval_dataloader:
,我如何知道该批次包含数据集中的哪些索引?
DataLoader 是使用较早创建的
请注意,它没有改组标志,因此可以使用批量大小手动计数,但是如何进行改组呢?创建数据集和数据加载器时是否可以将其作为批处理的字段?
python-3.x - Pytorch 文本分类中的属性错误
嗨,我正在关注此链接以使用 pytorch 构建文本分类。我遵循相同的代码,但是当我尝试运行模型时,我AttributeError: 'Tensor' object has no attribute 'lower'
在堆栈跟踪中得到它指向text_pipeline=lambda x: [vocab[token] for token in tokenizer(x)]
行。我的 pytorch 版本是1.8.1+cu111
. 我也面临着问题AG_NEWS(split='train')
,所以我正在使用
请帮我解决这个问题,我对 pytorch 还很陌生。
machine-learning - pytorch torchvision.datasets.ImageFolder FileNotFoundError:找不到类 .ipynb_checkpoints 的有效文件
尝试在 Colab 中使用 pytorch torch.datasets.ImageFolder 加载训练数据。
我遇到了以下错误:
我的数据集文件夹包含一个子文件夹,其中包含许多 png 格式的训练图像,但 ImageFolder 仍然无法访问它们。
python - Pytorch - UnboundLocalError:在为 data_loader 赋值之前引用了局部变量“img”
我试图按照 Pytorch网站上的教程来实现更快的 R-CNN,但我无法发现可能导致错误的原因
当我尝试执行该部分时会发生这种情况:
我一直在使用 Google collab 进行这些测试。带有数据的文件在我的内容文件夹中。我怎么解决这个问题?
python - 图神经网络模型和运行时错误中奇怪的训练/测试精度:pytorch
我的图神经网络遇到了一些非常奇怪的准确性。我的模型是:
训练和测试功能是:
我得到这个准确度非常低
以前我尝试将correct
测试数据中的参数更改为
这导致
我得到了这个运行时错误并尝试了
但正如我所说,准确度非常低。我该如何解决这个问题?我在这里做错了吗?我在加载器中的数据大小是
python - 如何在没有重叠批次的情况下遍历pytorch中的组合数据集?
我正在寻找一种将两个数据集连接到一个的方法,以便可以在一个循环中对其进行训练。然而,批次不允许在数据集之间混合。在以下示例中,批次应仅在 1 到 10 和 41 到 50 之间:
张量([1, 2, 3])
张量([4, 5, 6])
张量([7, 8, 9])
tensor([10, 41, 42]) ← 那不应该存在
张量([43, 44, 45])
张量([46, 47, 48])
张量([49, 50])
在实际情况中,我将两个时间序列组合在一起,其中两个数据集的值分批重叠会导致一些麻烦……</p>
这不应该是一个尽管如此,对吧?
python-3.x - 如何解决 Windows 10 中 pytorch 的多处理问题
所以我尝试了 kaggle mnist 挑战,并使用了 torch 的自定义数据集模块来加载 csv 文件。每当我使用 num_workers 设置为大于 0 的数据加载器训练网络时,它似乎给了我一个 BrokenPipeError。我在网上遵循了许多教程,甚至将我的代码放在了if __name__ == "__main__"
行下,但似乎没有任何东西可以解决这个错误,num_workers=0 也没有给我任何错误,而是给我一个关于命名张量的用户警告。
下面是代码
我得到的错误是
我在 num_workers 设置为 0 时收到的警告是
该模型仍然在 num_workers 设置为 0 的情况下进行训练。
我的环境详细信息:
Windows 10 家庭版、用于 CUDA 11.2 的 Pytorch(安装了 pip,没有 conda)、用于 Windows 的 Python 3.6.7、GTX 1050 Ti GPU、Intel i5 第 9 代
编辑:当我在 python 文件中运行代码时,代码似乎可以工作,但在使用 jupyter 笔记本时似乎没有运行
python - 如何创建具有多个标签和掩码的自定义 Pytorch 数据集?
我正在尝试创建一个自定义pytorch
数据集以插入DataLoader
其中,该数据集由单通道图像(20000 x 1 x 28 x 28)
、单通道掩码(20000 x 1 x 28 x 28)
和三个标签组成(20000 X 3)
。
按照文档,我想我会使用以下代码测试创建一个具有单通道图像和单通道掩码的数据集:
使用该类,我从两个 pandas 数据帧形成数据集并插入DataLoader
.
对于左侧的图像和右侧的蒙版,我希望单个批次的形状为trainloader
。([128, 1, 28, 28], [128, 1, 28, 28])
相反,单批次的形状trainloader
是([128, 1, 28, 28], [128])
,这让我觉得面具已经以某种方式变成了标签。
我该如何解决这个问题,除了掩码之外,我如何添加实际标签?在此先感谢您的帮助!
deep-learning - Best way to handle batch during training and inference in Pytorch with GPU
I am learning the best ways to manage batches and other best practices during model training and inference and I have the following question:
- If I have a batch that I move to GPU, should. I move it back to CPU after doing the training? If no, why?
If I cache my data in my
Dataset
class how can I ensure I can reuse the same batches on GPU to avoid transferring from and to CPU multiple times?
pytorch - PyTorch random_split() 返回错误大小的加载器
我的数据集有一个自定义数据集加载器。我想将数据集拆分为 70% 的训练数据、20% 的验证数据和 10% 的测试数据。我有 16,488 个数据。所以,我的火车数据应该是 11,542。但它正在变成 770 个训练数据、220 个验证数据和 110 个测试数据。我已经尝试过,但无法找出问题所在。