问题标签 [corpus]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
7 回答
1122 浏览

nlp - NLP:构建(小型)语料库,或“从哪里获得大量不太专业的英语文本文件?”

有没有人建议在哪里可以找到用于小型语料库的日常英语文本的档案或集合?我一直在使用 Gutenberg Project 书籍作为工作原型,并希望融入更多现代语言。最近的一个答案间接指向了一个很好的usenet电影评论档案,这是我没有想到的,而且非常好。对于这个特定的程序,技术用户网档案或编程邮件列表会使结果倾斜并且难以分析,但任何类型的一般博客文本、聊天记录或任何可能对其他人有用的东西都会非常有帮助。此外,非常感谢没有太多标记的部分或可下载的研究语料库,或者一些用于查找适当的维基百科文章子集或任何其他想法的启发式方法。

(顺便说一句,我是一个下载的好公民,使用故意缓慢的脚本,对托管此类材料的服务器没有要求,以防你认为将我指向一些巨大的东西存在道德风险。)

更新:用户 S0rin 指出维基百科不要求抓取,而是提供此导出工具。Project Gutenberg 在这里指定了一个策略,最重要的是,尽量不要爬行,但如果您需要:“将您的机器人配置为在请求之间至少等待 2 秒。”

更新 2 维基百科转储是要走的路,感谢指出它们的回答者。我最终从这里使用了英文版本:http: //download.wikimedia.org/enwiki/20090306/,以及大约一半大小的西班牙转储。它们是一些需要清理的工作,但非常值得,并且它们在链接中包含许多有用的数据。


0 投票
4 回答
4539 浏览

nlp - CORPUS resource

I am designing an Automatic text summarizer. One of the major modules in this project requires TRAINING CORPUS. Can someone please help me out by providing TRAINING CORPUS or referring some link to download it. Thanks in anticipation

0 投票
1 回答
223 浏览

nlp - 用于搜索引擎的俄语文档语料库

我正在研究一种跨语言信息检索,它接受英语查询并搜索俄语文档。要评估这个系统,最好有一组俄罗斯文档可供搜索。有没有人知道我可以搜索的文档集合或我可以轻松地将一堆俄罗斯文档(维基百科除外)拼凑在一起的网站?

文档可以是任何东西,但如果它们位于人类知识的某个特定领域(计算机科学、建筑、工程、艺术、文学分析等),那就太好了。

0 投票
3 回答
487 浏览

text-processing - Google 图书的热门段落功能是如何开发的?

我很好奇是否有人理解、知道或可以向我指出有关 Google 如何创建其流行的段落块功能的综合文献或源代码。但是,如果您知道任何其他可以执行相同操作的应用程序,请也发布您的答案。

如果你不知道我在写什么,这里有一个通俗段落示例的链接。当您查看Modeling the legal decision process for information technology applications ... By Georgios N. Yannopoulos一书的概述时,您会看到如下内容:

热门段落

...方向,不确定。我们还没有解决,因为我们没有预料到意外情况发生时会引发的问题;公园里的某种程度的和平是要牺牲还是保护那些以使用这些东西为乐趣或兴趣的孩子。当未设想的情况确实出现时,我们会直面所涉及的问题,然后可以通过在相互竞争的利益中以最能满足我们的方式进行选择来解决问题。在做... ‎ 第86 页

出现在 1968-2003 年的 15 本书中

这将是一个适合“机械”法理学的世界。显然,这个世界不是我们的世界;人类立法者不可能对未来可能带来的所有可能的情况组合有这样的了解。这种无法预测的情况带来了目标的相对不确定性。当我们足够大胆地制定一些一般的行为规则(例如,禁止车辆进入公园的规则)时,在这种情况下使用的语言会确定任何事物都必须满足的必要条件...... ‎ 第86 页

出现在 1968-2000 年的 8 本书中

更多的

它必须是一个密集的模式匹配过程。我只能想到 n-gram 模型、文本语料库、自动抄袭检测。但是,有时 n-gram 是用于预测序列中下一个项目的概率模型,并且文本语料库(据我所知)是手动创建的。而且,在这种特殊情况下,流行的段落可能会有很多单词。

我真的迷路了。如果我想创建这样的功能,我应该如何或从哪里开始?此外,在您的回复中包括最适合这些东西的编程语言:F# 或任何其他功能语言、PERL、Python、Java...(我自己也成为 F# 粉丝)

PS:有人可以包含标签自动抄袭检测吗,因为我不能

0 投票
3 回答
3302 浏览

nlp - 如何从 Project Gutenberg 文本中去除页眉/页脚?

我尝试了各种方法来从 Project Gutenberg 文本中剥离许可证,以用作语言学习项目的语料库,但我似乎无法提出一种无监督、可靠的方法。到目前为止,我想出的最好的启发式方法是剥离前 28 行和最后 398 行,这适用于大量文本。关于我可以自动剥离文本的方法的任何建议(这对于许多文本来说非常相似,但在每种情况下略有不同,还有一些不同的模板),以及关于如何验证文本已被准确剥离,将非常有用。

0 投票
4 回答
107 浏览

regex - 协助查找和替换正则表达式

我有一个文本文件,每一行的形式是:

TAB WORD TAB PoS TAB FREQ#

你们中的一个正则表达式向导会帮助我从文件中分离出单词吗?希望我会在 TextPad 中进行查找和替换,就是这样。多次查找和替换很好。一件事:注意搜索“动词”也会出现“动词”这个词,而不仅仅是词性,所以要小心。最后,我想以每行 1 个单词结束。

非常感谢!

0 投票
3 回答
2781 浏览

mysql - Need free English dictionary or Corpus, ultimately for a MySQL database

I'm trying to find a free downloadable dictionary (or Corpus might be the better word) which I can import into MySQL. I need to words to have the type (noun, verb, adjective) associated with them. Any tips on where I can find one? I found one several years ago that worked nicely, but I no longer have it around.

Thanks! Chris

0 投票
2 回答
8791 浏览

python - NLTK - 如何找出从 python 中安装的语料库?

我正在尝试加载一些我使用 NLTK 安装程序安装的语料库,但我得到了:

但是在下载管理器 ( nltk.download()) 中,machado 包被标记为已安装,并且我有一个nltk_data/corpus/machado文件夹。

我如何从 python 解释器内部看到已安装的语料库是什么?

另外,我应该安装什么包来使用这个方法? http://nltk.googlecode.com/svn/trunk/doc/howto/portuguese_en.html

我找不到操作指南中nltk.examples提到的模块。

0 投票
2 回答
5296 浏览

text - 专有名词列表?

我正在尝试从文本 blob 中过滤名称。目前我只是生成一个单词列表并手动过滤它,但我有大约 8k 个单词要走,所以我正在寻找更好的方法。我可以拿一本字典并将它们过滤掉,但这会剔除史密斯和悬崖之类的名字。

我需要的是以下任一:

  • 常用名称列表(我需要 >5k 最常用的名称)
  • 也恰好是单词的名称列表

我想在他们之间,我可以做一个组合的黑名单/白名单来获得我需要的东西。

0 投票
1 回答
146 浏览

archive - 我在哪里可以获得去年的原始新闻文章?

我正在编写一些代码来计算有关单词使用的某些统计信息。

有谁知道我在哪里可以找到去年(比如说)一段时间内来自各种主题的原始新闻文章的数据库?它们最好是纯文本格式或 XML。尝试从随机网站上抓取内容不是一个好的选择。

我知道今后我可能会自己归档它们。但是,我需要从一堆现有的文章开始这个过程……越多越好。

对于易于以易于解析的形式获得的语料库数据集的任何其他想法,也将不胜感激。