0

我是 Alteryx 的新手,正在尝试用它来分析非结构化数据。我有一列文本形式的描述,我打算使用 K-Means 聚类工具进行主题建模。为了让 K-means 处理文本,我需要将我的文本转换为文档术语矩阵 (DTM),以便它们在聚类工具中显示为连续变量。但是,我正在努力寻找一种可以将文本转换为 DTM 的方法。

有谁知道这样做的方法?我目前正在研究 R 工具,但也不确定如何开始。希望各位高手能帮帮我!

我浏览了有关文本分析的帖子,并意识到大多数都依赖于 Microsoft Azure ML 文本分析宏。但是,我想避免使用宏(不限于每月有限运行以实现可扩展性),而是使用 Alteryx 中可用的工具。

提前感谢大家!

4

1 回答 1

1

Alteryx 更像是一个图形化的拖放工作流,在这里解释起来并不简单,但是我创建了以下工作流,并将实际工作流本身包含在 Alteryx 论坛。该工作流程利用就职演讲中的术语频率,但应适用于任何文档集合。它只是根据各种非数字字符拆分单词并进行摘要。这是工作流程的样子:

在此处输入图像描述

于 2018-10-01T15:35:22.187 回答