问题标签 [korpus]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
readability - koRpus--word文件大文件夹上的tokenize命令
我在让 koRpus 分析我的数据方面取得了一些进展,但仍有一些挥之不去的问题。
“tokenize”命令似乎起作用了——有点。我运行以下代码行:
它会生成一个“大 krp.text”对象。但是,文件的大小(5.6 MB)远小于我在代码中引用的文件大小(260 MB)。此外,当我使用“可读性”命令生成文本分析分数时(像这样:)
它为整个 krp.text 对象返回一个可读性分数(我的意思是每个可读性度量一个)。
我需要我文件夹中每个 Word 文件的可读性分数,并且我需要使用 koRpus(其他像 quanteda 不会生成我需要的一些可读性度量,比如 LIX 和 kuntzsch 的 text-redundandz-index)。
是否有人对 koRpus 有足够的经验来指出我做错了什么?反复出现的问题是:1) 让 tokenize 命令识别我文件夹中的每个文件,以及 2) 获得每个单独文件的可读性分数。
谢谢,戈登
r - 如何使用 R(也许是 koRpus 包)从语料库中获取句子列表?
我是 R 的新手,我正在尝试使用它的功能在葡萄牙语文本中进行语料库分析。我正在使用 koRpus 包。我正在编写一个闪亮的应用程序,它显示出现搜索词的所有句子。为此,我需要列出语料库中的所有句子。首先,我使用了“tokenize”函数,它创建了一个包含所有单词和标点符号的数据框,这对我来说非常有用:
(也许有一种更简单的方法,但这对我有用。)这个数据框列出了文本中的所有单词(在“token”列中),并且在“sntc”列中,它列出了一个数字,即出现这个词的句子。现在我需要一个文本中所有句子的列表,用“sntc”列中的相同数字编号。我设法使用“for”循环来实现这一点:
str_replace_all
正确间隔标点字符是必要的。这对我有用,但我想知道是否有更简单的方法;毕竟,如果“tokenize”功能可以拆分句子并将每个单词与一个句子编号匹配,那么我写的这个编码显然是在做一个“反向”操作。但是,由于我是一个计算背景较差的语言学家,我无法理解“标记化”是如何做到这一点的。如果有人可以帮助我展示一种更简单的方法来获取句子列表,或者可能为我指出另一个更适合我需要的 R 库,我将不胜感激。谢谢!