我正在尝试使用 R 和 H2O 构建情绪分类模型。我有一个格式为:
+-----------+------------------------------------------------------+
| Sentiment | Text |
+-----------+------------------------------------------------------+
| 1 | This is a sample text. This is another sentence. |
+-----------+------------------------------------------------------+
| 0 | Another sentence. And another! |
+-----------+------------------------------------------------------+
| -1 | Text text and Text! Text everywhere! So much text... |
+-----------+------------------------------------------------------+
因此,情感值为 1、0 和 -1,并且每行中的文本可以由多个句子组成。我知道想要准备数据集以将其与 h2o 的深度学习功能一起使用。因此我想使用tmcn.word2vec R 包。但我不能用这个包逐行转换它。我可以获取整个文本列并将其转换为 word2vec 文档,但随后我的情绪信息将丢失。
是否有另一种方法可以将文本转换为 R 中深度学习函数的数字输入?特别是H2O?
此致