问题标签 [pytorch-dataloader]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pytorch - 加权随机采样器 - 过采样或欠采样?
问题
我正在 PyTorch 中为二元分类训练深度学习模型,并且我有一个包含不平衡类比例的数据集。我的少数班10%
由给定的观察组成。为了避免模型学习只预测多数类,我想WeightedRandomSampler
在torch.utils.data
我的DataLoader
.
假设我有1000
观察结果(900
在 class中0
,100
在 class 中1
),以及我的数据加载器的批量大小100
。
如果没有加权随机抽样,我希望每个训练时期都包含 10 个批次。
问题
- 使用此采样器时,每个 epoch 只会采样 10 个批次 - 因此,模型是否会在每个 epoch 期间“错过”大部分多数类,因为少数类现在在训练批次中的比例过高?
- 使用采样器是否会导致每个 epoch 采样超过 10 个批次(这意味着相同的少数类观察可能会出现多次,并且训练会减慢)?
machine-learning - 机器学习训练数据存储:*.npy、*.mat、*.lmdb 的区别
我正在尝试为机器学习培训生成数据。音频文件需要存储为 FFT_size x N_frames 的矩阵。我将使用 PyTorch 进行培训。在训练过程中,需要用 CPU 加载数据,并传输到 GPU。
我想知道 *.mat、*.npy 或 *.lmdb 数据格式在以下方面是否存在差异:
- I/O 速度(加载/存储),
- 内存使用情况?
任何想法或提示表示赞赏!
python - Pytorch 以小批量加载数据
我有一个这样的图像文件夹
每个文件夹代表一个图像。文件夹中的每个文件代表图像的一个波段通道。
因此,每个图像都会有一个
我被困在编写 pytorch 自定义数据加载器以分批加载 64 个
所以我可以有特征批次形状:torch.Size([64,5, 256, 256])
我试过下面的代码
但它没有给出我想要的结果Feature batch shape: torch.Size([64, 5, 256, 256])
python-3.x - What is the fastest way to load data from multiple csv files
I am working with multiple csv files, each containing multiple 1D data. I have about 9000 such files and total combined data is about 40 GB.
I have written a dataloader like this:
The way I am loading the whole dataset into the dataloader is like through a for
loop:
But this is working terribly slow. I was wondering if I could store all of that data in one file but I don’t have enough RAM. So is there a way around it?
Let me know if there’s a way.
deep-learning - PyTorch 层的输入和输出
我如何知道 PyTorch 中图层的输入节点或图层名称?假设我有一个torch.cat,我怎么知道它从哪里获取输入的张量或层的名称?
对于来自https://rosenfelder.ai/multi-input-neural-network-pytorch/的代码
因此,如果我想知道 torch.cat 从哪一层接收输入。
对于我们拥有的 keras model.get_layer(id=idx).input.name
,PyTorch 是否也有类似的东西?
python-imaging-library - pytorch dataset.imageFolder 与 Google Colab 中的自定义数据集的问题
我正在尝试使用 pytorch 为分类任务加载数据集,这是我使用的代码:
代码运行良好,但由于我的数据集是灰度的,我需要将其转换为 RGB,所以我使用了以下代码:
现在我的图像仍然是 jpeg,但现在它们是 RGB 而不是 L。问题是如果我重新运行代码以加载数据集,我会收到此错误
有人知道为什么会出现此错误吗?我检查了所有文件的扩展名,它们是 jpeg。
谢谢你。
pytorch - Pytorch DataLoader 返回可迭代,如何以及何时转换为张量以进行模型训练
我编写了两个 DataSet 类(一个 map 样式和一个 iterator 样式)与 DataLoader 一起使用(任何一个都可以,但我只是想自己试验和学习)TEXT 数据。
数据+采样器集成似乎工作正常,我能够“迭代”样本,为我生成一个文本及其相关标签。
所以我的问题和困惑的原因是:如果 DataLoader 返回一个可迭代对象,并且我必须围绕数据构建一个张量(批量大小 x 句子的最大长度 x 句子的数量),我应该在 Tokenizer 之后应用“粘合逻辑”吗?
湾。我将使用 AutoTokenizer 模型(来自 HuggingFace)进行标记化——它是一次处理一个样本还是接受批量?如果是后者,它如何处理标签?
这是DataSet类的地图样式实现的代码
这是 DataLoader 的 Iterable 样式数据集实现的代码
这是通过 DataLoader 对数据集的迭代
google-colaboratory - Google Colab 上的运行时崩溃 Pytorch DataLoader
我在 google colab 上使用了一个简单的可迭代数据集,并且在迭代数据集时遇到了崩溃。这是一个最小的代码:
但是,我经常遇到 google colab 崩溃(错误消息说所有 RAM 都已使用)。有什么办法可以解决这个问题吗?
pytorch - Pytorch 视频数据集
嗨,我制作了一个视频帧加载器数据集,以输入到 pytorch 模型中。我想从视频中采样帧,但是应该从每个视频中统一采样帧。这是我想出的课程。我想知道是否有更好的方法来加快采样过程。
你有什么建议,特别是在read_video
方法部分?
谢谢