1

我在让 koRpus 分析我的数据方面取得了一些进展,但仍有一些挥之不去的问题。

“tokenize”命令似乎起作用了——有点。我运行以下代码行:

word <- tokenize("/Users/gdballingrud/Desktop/WPSCASES 1/", lang="en")

它会生成一个“大 krp.text”对象。但是,文件的大小(5.6 MB)远小于我在代码中引用的文件大小(260 MB)。此外,当我使用“可读性”命令生成文本分析分数时(像这样:)

all <- readability(word)

它为整个 krp.text 对象返回一个可读性分数(我的意思是每个可读性度量一个)。

我需要我文件夹中每个 Word 文件的可读性分数,并且我需要使用 koRpus(其他像 quanteda 不会生成我需要的一些可读性度量,比如 LIX 和 kuntzsch 的 text-redundandz-index)。

是否有人对 koRpus 有足够的经验来指出我做错了什么?反复出现的问题是:1) 让 tokenize 命令识别我文件夹中的每个文件,以及 2) 获得每个单独文件的可读性分数。

谢谢,戈登

4

0 回答 0