问题标签 [korpus]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

12 问题

0 投票

0 回答

26 浏览

readability - koRpus--word文件大文件夹上的tokenize命令

我在让 koRpus 分析我的数据方面取得了一些进展，但仍有一些挥之不去的问题。

“tokenize”命令似乎起作用了——有点。我运行以下代码行：

它会生成一个“大 krp.text”对象。但是，文件的大小（5.6 MB）远小于我在代码中引用的文件大小（260 MB）。此外，当我使用“可读性”命令生成文本分析分数时（像这样：）

它为整个 krp.text 对象返回一个可读性分数（我的意思是每个可读性度量一个）。

我需要我文件夹中每个 Word 文件的可读性分数，并且我需要使用 koRpus（其他像 quanteda 不会生成我需要的一些可读性度量，比如 LIX 和 kuntzsch 的 text-redundandz-index）。

是否有人对 koRpus 有足够的经验来指出我做错了什么？反复出现的问题是：1) 让 tokenize 命令识别我文件夹中的每个文件，以及 2) 获得每个单独文件的可读性分数。

谢谢，戈登

readability korpus

2022-02-07T19:21:33.040

0 投票

0 回答

23 浏览

r - 如何使用 R（也许是 koRpus 包）从语料库中获取句子列表？

我是 R 的新手，我正在尝试使用它的功能在葡萄牙语文本中进行语料库分析。我正在使用 koRpus 包。我正在编写一个闪亮的应用程序，它显示出现搜索词的所有句子。为此，我需要列出语料库中的所有句子。首先，我使用了“tokenize”函数，它创建了一个包含所有单词和标点符号的数据框，这对我来说非常有用：

（也许有一种更简单的方法，但这对我有用。）这个数据框列出了文本中的所有单词（在“token”列中），并且在“sntc”列中，它列出了一个数字，即出现这个词的句子。现在我需要一个文本中所有句子的列表，用“sntc”列中的相同数字编号。我设法使用“for”循环来实现这一点：

str_replace_all正确间隔标点字符是必要的。这对我有用，但我想知道是否有更简单的方法；毕竟，如果“tokenize”功能可以拆分句子并将每个单词与一个句子编号匹配，那么我写的这个编码显然是在做一个“反向”操作。但是，由于我是一个计算背景较差的语言学家，我无法理解“标记化”是如何做到这一点的。如果有人可以帮助我展示一种更简单的方法来获取句子列表，或者可能为我指出另一个更适合我需要的 R 库，我将不胜感激。谢谢！

r corpus sentence korpus

2022-02-09T14:50:55.933

1 2 3 4 5 6 7 8 9 10

问题标签 [korpus]

readability - koRpus--word文件大文件夹上的tokenize命令

r - 如何使用 R（也许是 koRpus 包）从语料库中获取句子列表？

Reference