readability - koRpus--word文件大文件夹上的tokenize命令

翻译自：https://stackoverflow.com/questions/71024216 2022-02-07T19:21:33.040

26 次

我在让 koRpus 分析我的数据方面取得了一些进展，但仍有一些挥之不去的问题。

“tokenize”命令似乎起作用了——有点。我运行以下代码行：

word <- tokenize("/Users/gdballingrud/Desktop/WPSCASES 1/", lang="en")

它会生成一个“大 krp.text”对象。但是，文件的大小（5.6 MB）远小于我在代码中引用的文件大小（260 MB）。此外，当我使用“可读性”命令生成文本分析分数时（像这样：）

all <- readability(word)

它为整个 krp.text 对象返回一个可读性分数（我的意思是每个可读性度量一个）。

我需要我文件夹中每个 Word 文件的可读性分数，并且我需要使用 koRpus（其他像 quanteda 不会生成我需要的一些可读性度量，比如 LIX 和 kuntzsch 的 text-redundandz-index）。

是否有人对 koRpus 有足够的经验来指出我做错了什么？反复出现的问题是：1) 让 tokenize 命令识别我文件夹中的每个文件，以及 2) 获得每个单独文件的可读性分数。

谢谢，戈登

0 回答 0