问题标签 [text-segmentation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用动态规划进行分词
所以首先我对 Python 很陌生,所以如果我做了一些糟糕的事情,我会在这篇文章的开头表示抱歉。我被分配了这个问题:
我们想为以下问题设计一个动态规划解决方案:有一个字符串,它可能是一个删除所有空格的单词序列,我们想找到一种方法,如果有的话,在其中插入空格分开有效的英文单词。例如,青年事件可能来自“the you the vent”、“the Youth event”或“they out he vent”。如果输入是eaglehaslande,那么就没有这种方法。您的任务是以两种不同的方式实现动态规划解决方案:
- 迭代自下而上版本
- 递归记忆版本
假设原始单词序列没有其他标点符号(例如句点)、大写字母和专有名称 - 所有单词都将在提供给您的字典文件中可用。
所以我有两个主要问题:
- 我知道这可以而且应该在 O(N^2) 中完成,我认为我的不是
- 查找表并没有添加所有看起来可以降低时间复杂度的单词
我想要什么:
- 任何类型的输入(更好的方法,你在代码中看到的错误,我如何让查找表工作,如何使用布尔值表来构建一个有效的单词序列)
- 关于如何处理递归版本的一些想法,尽管我觉得一旦我能够解决迭代解决方案,我将能够从中设计出递归版本。
一如既往地感谢任何人为此付出的任何时间和努力,我们始终不胜感激。
这是我的尝试:
uima - 如何运行 uima-text-segmenter 的示例?
我想调用 uima-text-segmenter 的 API https://code.google.com/p/uima-text-segmenter/source/browse/trunk/INSTALL?r=22来运行一个例子。但是我不知道如何调用API......自述文件说,
例如,谁能给我一些可以直接在 main func 中运行的代码?非常感谢!
python - 将段落分段为句子
我正在尝试将段落分割成句子。我选择了“.”、“?” 和 '!' 作为分割符号。我试过了:
但它给了我sre_constants.error: unexpected end of pattern
我也试过
它也会导致错误。
我的方法有什么问题?
javascript - UAX 29 Unicode 文本分割的 Javascript 实现?
有人知道UAX #29, Unicode Text Segmentation的任何 JavaScript 实现吗?我对Word Boundaries特别感兴趣。
当我遇到XRegExp时,我充满希望,但它似乎使用了标准的 JavaScript 实现\b
。
python - 使用 Python 提取包含单词的句子......以及它周围的句子?
有很多问题可以提取包含单词的特定句子(例如使用 python提取句子和Python 提取包含单词的句子),我有足够的 NLTK 和 SciPy 初学者经验,能够在我的自己的。
但是,我在尝试提取包含一个单词的句子时遇到了困难……以及目标句子之前和之后的句子。
例如:
“前几天我正在上学路上下雨了。我伸手去拿我的雨伞,但我意识到我把它忘在家里了。我该怎么办?我立即跑到最近的树上。但后来我意识到我不能一直尝试一棵没有叶子的树。”
在这个例子中,目标词是“could”。如果我想提取目标句子(我能做什么?)以及前后句子(我伸手去拿我的伞,但我意识到我把它忘在家里了。我立即跑到最近的树。) ,什么是好方法?
假设我将每个段落划分为自己的文本...
...有没有解决这个问题的正确方法?我有大约 10,000 个段落,目标词周围有不同数量的句子(每个段落都出现)。
nlp - 独立子句边界消歧和独立子句分割——有什么工具可以做到这一点?
我记得很久以前浏览过 NLTK 网站的句子分割部分。
我使用粗略的文本替换“句号”“空格”与“句号”“手动换行符”来实现句子分割,例如使用 Microsoft Word 替换 ( .
-> .^p
) 或 Chrome 扩展:
https://github.com/AhmadHassanAwan/Sentence-Segmentation
https://chrome.google.com/webstore/detail/sentence-segmenter/jfbhkblbhhigbgdnijncccdndhbflcha
这不是 NLP 方法,如 NLTK 的 Punkt 分词器。
我进行分段以帮助我更轻松地定位和重读句子,这有时有助于阅读理解。
独立子句边界消歧和独立子句分割呢?是否有任何工具试图做到这一点?
下面是一些示例文本。如果可以在句子中识别出独立的子句,则存在拆分。从句尾开始,向左移动,贪婪地分裂:
例如
句子边界消歧(SBD),也称为断句,是自然语言处理中的问题
句子开始和结束。
通常,自然语言处理工具
出于多种原因,需要将他们的输入分成句子。
然而,句子边界识别具有挑战性,因为标点符号。
标记通常是模棱两可的。
例如,一个时期可能
表示缩写、小数点、省略号或电子邮件地址 - 而不是句子的结尾。
华尔街日报语料库中约47% 的时期
表示缩写。[1]
同样,问号和感叹号也可以
出现在嵌入的引语、表情符号、计算机代码和俚语中。
另一种方法是自动
从句子所在的一组文档中学习一组规则
休息是预先标记的。
日语和中文等语言
有明确的句尾标记。
标准的“香草”方法
找到句子的结尾:
(a)如果
这是一个时期,
它结束了一个句子。
(b)如果上述
令牌在我手工编制的缩写列表中,然后
它没有结束一个句子。
(c)如果下一个
token 大写,然后
它结束了一个句子。
这个
策略使大约 95% 的句子正确。[2]
解决方案基于最大熵模型。 [3]
SATZ 架构使用神经网络
消除句子边界的歧义并达到 98.5% 的准确率。
(我不确定我是否正确拆分它。)
如果无法分割独立子句,是否有任何搜索词可用于进一步探索该主题?
谢谢。
python - python.NLTK (WindowDiff and PK) vs python.Segeval (WindowDiff and PK)
Python NLTK implementation of Beeferman's PK and WindowDIFF are getting complete different results from python segeval implementation of both.
Using the same parameters.
This could lead different research results for who use it.
Why I am getting different results with PK in these 2 Implementations? PK has to have just one result.
javascript - javascript:在段落中选择句子
我想创建一个文本注释工具。假设我们有一些如下图所示的文本,客观的效果是:用户点击文本中的某处后,整个句子被自动选中并突出显示。
我不知道如何实现这种效果。有人可以指出可以解决此问题的代码或资源吗?
谢谢!
xml - 分段规则交换文件
我正在从事句子分割项目,并且正在搜索用于句子分割的 SRX 文件(Segmentation Rules Exchange)。我试图找到用于英语、法语、德语、西班牙语、意大利语的句子分割的 srx(分段规则交换)文件。但我失败了:(
有没有人可以帮助我,因为我不想花时间写这些文件?
这是这个文件的一个例子:
java - 从段落中删除句子
我正在尝试编写代码以从段落中删除整个句子。它是哪一个句子并不重要,但它必须至少是一个。
这是我目前拥有的代码。它目前正在打印与我开始时完全相同的字符串。有人有想法么?
编辑:我错误地暗示应该删除任何句子。我的意思是除了第一句话之外的任何句子。最好将要删除的句子落在字符串中间的某个位置,并且实际应用程序将用于非常大的字符串。