问题标签 [torchtext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
469 浏览

pytorch - 当 BucketIterator 构造函数的 data 参数是 Dataset 时如何迭代 BucketIterator 实例?

我的源代码结构如下:

定义字段

更新:获取词汇

创建示例和数据集实例

创建桶迭代器实例

更新:我也尝试使用 data.BucketIterator.split

遍历桶迭代器

当尝试使用可自定义的数据集迭代存储桶迭代器时,会出现以下错误:

0 投票
0 回答
87 浏览

torch - torchtext - 内容处置错误 - download_from_url

我正在尝试使用 torchtext 下载数据集并收到以下错误

我正在使用torchtext 0.7.0,并且在最新版本中也复制了相同的错误。有人可以帮忙吗?

0 投票
0 回答
71 浏览

python - 我尝试使用torchtext BucketIterator 获取batch.src。获取密钥错误:0

我创建了一个简单的数据 集 dataset。我需要使用batch.src 和batch.trg 获取批处理,因为我的带有torch 架构的模型使用batch.trg 和batch.src 获取批处理的迭代器样本。我不想重做火炬架构。

得到这个错误:

错误

0 投票
1 回答
917 浏览

pytorch - 旧版 torchtext 0.9.0

在最新版本的torchtext中,他们将很多功能移到了torchtext.legacy,我想在不使用的情况下做同样的事情torchtext.legacy.data.Field和其他功能legacy,可以做到吗?如何?

0 投票
1 回答
696 浏览

python - AttributeError:模块“torchtext.data”没有属性“TabularDataset”

我想用 pytorch 从 tsv 文件创建数据集。我正在考虑使用

但我收到一条错误消息。

0 投票
0 回答
193 浏览

pandas - 如何从 Pandas 数据框中为 PyTorch 加载和预处理数据

我有一个完全预处理的 Pandas 数据框,我想使用 pytorch 在其上运行 NLP。以下是使用TabularDataset库加载和处理文件数据的代码:

但是,我已经将数据作为 Pandas 数据帧,我不想将它们写入.csv然后使用TablularDataset.

我可以从他们的数据帧(例如 train_df、valid_df、test_df)中获取train_datavalid_datatest_data的等效代码是什么?我的 Pandas 数据框中的数据示例如下:

标签 文本
1 文本重要处理数据nlp过程预测
0 视觉模型成功时间模拟大快

请注意,文本数据是一些标记“”。连接在一起。

0 投票
1 回答
765 浏览

python - "module 'torchtext.data' has no attribute 'Field'"

Error:

It won't import torchtext.data.Field for some reason even though that's whats in the docs

0 投票
0 回答
138 浏览

python - PyTorch TabularDataset 拆分显示错误的结果

我一直在关注这个关于情绪分析的教程。作者有一个关于我们如何使用自己的数据集而不是 PyTorch 内置数据集的笔记本。所以我跟随他的脚步,在清理并删除标点符号和不必要的列并最终将数据集修剪为仅 500000 行之后,将我的数据集拆分为和csv 文件。traintestvalidation

因此,在完成所有这些并按照作者的脚步创建我的字段、创建 train_data、valid_data 和 test_data 并最终创建 vocab 之后,我想我会检查我的 train_data 变量中的内容,我得到了这个:{'text': ['0'], 'polarity': '0'}。为什么会显示这个?

这是我的代码:

0 投票
1 回答
341 浏览

pytorch - 在torchtext bucketiterator中获取填充前每个句子的长度

在 torchtext bucketiterator 中填充之前是否可以获取每个句子的长度:

bucketiterator 数据加载器:

就像使用 pytorch 数据加载器时一样:

pytorch 数据加载器:

0 投票
1 回答
243 浏览

torchtext - AttributeError:类型对象“TabularDataset”没有属性“名称”

import spacy label_field = Field(sequential=False, use_vocab=False, batch_first=True) text_field = Field(tokenize='spacy', lower=True, include_lengths=True, batch_first=True) fields = [('label', label_field) , ('title', text_field)]

表格数据集

训练,有效,测试 = TabularDataset.splits(train='train.xlsx', validation='valid.xlsx', test='test.xlsx',format='xlsx', fields=fields, skip_header=True)

我真的解决不了这个问题