问题标签 [torchtext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pytorch - 当 BucketIterator 构造函数的 data 参数是 Dataset 时如何迭代 BucketIterator 实例?
我的源代码结构如下:
定义字段
更新:获取词汇
创建示例和数据集实例
创建桶迭代器实例
更新:我也尝试使用 data.BucketIterator.split
遍历桶迭代器
当尝试使用可自定义的数据集迭代存储桶迭代器时,会出现以下错误:
torch - torchtext - 内容处置错误 - download_from_url
我正在尝试使用 torchtext 下载数据集并收到以下错误
我正在使用torchtext 0.7.0,并且在最新版本中也复制了相同的错误。有人可以帮忙吗?
pytorch - 旧版 torchtext 0.9.0
在最新版本的torchtext中,他们将很多功能移到了torchtext.legacy
,我想在不使用的情况下做同样的事情torchtext.legacy.data.Field
和其他功能legacy
,可以做到吗?如何?
python - AttributeError:模块“torchtext.data”没有属性“TabularDataset”
我想用 pytorch 从 tsv 文件创建数据集。我正在考虑使用
但我收到一条错误消息。
pandas - 如何从 Pandas 数据框中为 PyTorch 加载和预处理数据
我有一个完全预处理的 Pandas 数据框,我想使用 pytorch 在其上运行 NLP。以下是使用TabularDataset
库加载和处理文件数据的代码:
但是,我已经将数据作为 Pandas 数据帧,我不想将它们写入.csv
然后使用TablularDataset
.
我可以从他们的数据帧(例如 train_df、valid_df、test_df)中获取train_data、valid_data、test_data的等效代码是什么?我的 Pandas 数据框中的数据示例如下:
标签 | 文本 |
---|---|
1 | 文本重要处理数据nlp过程预测 |
0 | 视觉模型成功时间模拟大快 |
请注意,文本数据是一些标记“”。连接在一起。
python - "module 'torchtext.data' has no attribute 'Field'"
Error:
It won't import torchtext.data.Field for some reason even though that's whats in the docs
python - PyTorch TabularDataset 拆分显示错误的结果
我一直在关注这个关于情绪分析的教程。作者有一个关于我们如何使用自己的数据集而不是 PyTorch 内置数据集的笔记本。所以我跟随他的脚步,在清理并删除标点符号和不必要的列并最终将数据集修剪为仅 500000 行之后,将我的数据集拆分为和csv 文件。train
test
validation
因此,在完成所有这些并按照作者的脚步创建我的字段、创建 train_data、valid_data 和 test_data 并最终创建 vocab 之后,我想我会检查我的 train_data 变量中的内容,我得到了这个:{'text': ['0'], 'polarity': '0'}
。为什么会显示这个?
这是我的代码:
pytorch - 在torchtext bucketiterator中获取填充前每个句子的长度
在 torchtext bucketiterator 中填充之前是否可以获取每个句子的长度:
bucketiterator 数据加载器:
就像使用 pytorch 数据加载器时一样:
pytorch 数据加载器:
torchtext - AttributeError:类型对象“TabularDataset”没有属性“名称”
import spacy label_field = Field(sequential=False, use_vocab=False, batch_first=True) text_field = Field(tokenize='spacy', lower=True, include_lengths=True, batch_first=True) fields = [('label', label_field) , ('title', text_field)]
表格数据集
训练,有效,测试 = TabularDataset.splits(train='train.xlsx', validation='valid.xlsx', test='test.xlsx',format='xlsx', fields=fields, skip_header=True)
我真的解决不了这个问题