问题标签 [text-segmentation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1082 浏览

nlp - 输入句子没有标点符号时使用的句子分割工具(已标准化)

假设有一个像“给我找点爵士音乐然后播放”这样的句子,其中所有文本都被规范化并且没有标点符号(语音识别库的输出)。

除了在连词上拆分的幼稚方法之外,还可以使用哪些在线/离线工具来进行“句子分割”?

输入:

给我找些爵士乐然后播放

输出:

找我一些爵士音乐
播放它

0 投票
1 回答
548 浏览

java - HTML中的句子边界检测

我需要检测 HTML 中的句子边界。那里有很多句子边界检测软件(java.text.BreakIterator 是我正在使用的软件),但所有这些软件都假设纯文本。HTML 比这更丰富,并且包含一些关于句子中断位置的线索。

例如,<p>, <ul>/<li>, <td>其他标签标记句子边界,或者至少表明句子可能不会跨越它们。<b>, <i>, <em>, <span>, <a>句子中可能会出现其他一些标签。

除了正常的 NLP 内容之外,是否有人知道任何利用 HTML 标记来确定句子边界的软件?

0 投票
1 回答
341 浏览

solr - 为什么 solr 不索引一些分词

我正在尝试用 Solr 索引一些中文文档,但看起来 Solr 没有索引一些分段词。

我使用的分析器是 IK 分析器http://code.google.com/p/ik-analyzer/

要索引的字段:

cn_ik 定义:

例如,将被索引的单词是“AB”(不带引号)。使用中文分析器进行分词后,我得到了 3 个标记,它们是“AB”、“A”和“B”。

如我们所见,第一个标记“AB”涵盖了以下两个标记。

在将这些令牌提供给 Solr 之后,看起来 Solr 仅索引“AB”、“A”和“B”被忽略了。因为当我搜索“A”或搜索“B”时没有得到任何结果。

我猜当 Solr 索引“AB”时,它已经到达索引词的末尾,所以“A”和“B”被忽略了。

使用 Luke 和 Analysis Request Handler 不会向我显示更多提示。我不确定这是 Solr 的错误还是功能。

有什么意见或建议吗?

谢谢 :)

0 投票
3 回答
2795 浏览

jquery - 用第一句话分割段落

我有这个 div,我想在第一句话中添加一些样式。

我正在尝试这段代码,但没有按预期工作。

演示

0 投票
3 回答
3552 浏览

algorithm - 动态规划分词

假设我有一个像 'meetateight' 这样的字符串,我需要使用动态编程将它分割成有意义的单词,比如 'meet' 'at' 'eight'。

为了判断一个块/段“x = x1x2x3”有多“好”,给我一个黑盒子,在输入 x 上返回一个实数 quality(x),这样: quality(x) 的大正值表示x接近英文单词,负数大表示x远离英文单词。

我需要帮助来设计相同的算法。

我尝试考虑一种算法,在该算法中,只要质量下降,我就会根据它们的质量和分段迭代地添加字母。但这在上面的例子中失败了,因为它切断了我而不是见面。

我需要更好的算法的建议。

谢谢

0 投票
2 回答
3027 浏览

c++ - 使用 ICU 进行分词

我正在使用 ICU4C 音译 CJK。我想知道是否可以在 ICU 中进行分词,将中文文本拆分为根据某些分词标准定义的单词序列。

例如,当我尝试音译时:

使用

我得到以下输出:

检查在线拼音工具似乎非常好,但我的问题是ICU的字符一个一个音译。不过,我正在寻找的更像是下面的文字(我不懂任何中文,所以下面的文字可能没有任何意义,但它应该展示我感兴趣的输出类型) :

有人告诉我ICU 50 能够进行分词,但我在他们的网页上也找不到任何文档。想知道你们中是否有人在 ICU 中使用过分词或知道如何做,或者您是否有任何关于如何做的好链接。

0 投票
1 回答
302 浏览

alignment - 嘈杂文本语料库中的句子分割和对齐

我有一个平行语料库,其中包含大约 100,000 个阿拉伯语和波斯语对齐的段落。

我的语料库是一个嘈杂的语料库,它的段落相互翻译不完整(即阿拉伯语段落的部分没有翻译成波斯语,标点符号也不匹配)。

为了将段落划分为句子,我使用了标点符号,但句子数量不匹配。

然后,我使用Microsoft Aligner 对齐句子,但结果确实是错误的。

如何分割和对齐语料库的句子?

0 投票
2 回答
2064 浏览

algorithm - OCR 分词

我正在开发一个 OCR 系统,在分词方面需要一些帮助。

目前,OCR 系统检测一行中的 blob(使用连接组件标记算法)。每个 blob 代表一个单独的字母,并在其周围有一个边界框。某些字符可能在其边界框中重叠。

我怎样才能将这些字母组合成单词?如何确定将单词彼此分开的最佳距离,以便: 1.单词不会被剪切 2.单词不会与其他单词连接据我所见 - 字母和单词之间的距离可能会有所不同很多。

这部分是在字母分类之前完成的,因此无法按实际词义进行区分。

谢谢!

0 投票
5 回答
49924 浏览

regex - 正则表达式匹配句子中的第一个单词

我正在寻找一个匹配句子中第一个单词的正则表达式,不包括标点符号和空格。例如:“This is a sentence”中的“This”。和“首先,我想说“你好!”中的“第一”

这不起作用:

0 投票
0 回答
588 浏览

java - 搜索引擎如何处理分词和索引

我正在考虑实现一个小型搜索引擎。但是我不确定搜索引擎如何进行分词。

我的想法是这样的:

  1. 建立一个包含流行词的词典
  2. 对于 html 文档中的每个句子,用空格分隔单词
  3. 进行线性搜索以检查某些单词是否在字典中。如果是,这些是该页面的关键字。
  4. 让关键字是数据库表。将 url 存储在所有对应的关键字表中

所以假设我们有一句话“我邀请她去市中心附近的当地餐馆吃饭”。不包括停止词的词是:{invited, Dinner, local, restaurant, Downtown}

字典只包含词{邀请、晚餐、餐厅}

以下是问题:

  1. 字典外的词怎么处理?(例如市中心)
  2. 如何处理过去时、复数形式等?我应该将所有带有特定前缀的单词存储在一起吗?(例如“邀请”将包含“邀请、邀请、邀请...”) 那么像“后退”和“后退”这样的词呢?
  3. 如何处理“本地餐厅”之类的查询?简单地将“local”和“restaurant”的结果结合起来似乎不是一个好的解决方案,而将“local restaurant”存储为另一个关键字表可能会导致更多的重复,给分词带来困难。
  4. 有什么比我的想法更好的方法吗?

欢迎任何意见。谢谢!