“text-segmentation”的相关标签问题

0 投票

2 回答

1082 浏览

nlp - 输入句子没有标点符号时使用的句子分割工具（已标准化）

假设有一个像“给我找点爵士音乐然后播放”这样的句子，其中所有文本都被规范化并且没有标点符号（语音识别库的输出）。

除了在连词上拆分的幼稚方法之外，还可以使用哪些在线/离线工具来进行“句子分割”？

输入：

给我找些爵士乐然后播放

输出：

找我一些爵士音乐
播放它

nlp text-segmentation

2012-07-07T01:09:47.973

0 投票

1 回答

548 浏览

java - HTML中的句子边界检测

我需要检测 HTML 中的句子边界。那里有很多句子边界检测软件（java.text.BreakIterator 是我正在使用的软件），但所有这些软件都假设纯文本。HTML 比这更丰富，并且包含一些关于句子中断位置的线索。

例如，, <ul>/<li>, <td>其他标签标记句子边界，或者至少表明句子可能不会跨越它们。, , , , <a>句子中可能会出现其他一些标签。

除了正常的 NLP 内容之外，是否有人知道任何利用 HTML 标记来确定句子边界的软件？

2012-07-25T17:20:15.200

0 投票

1 回答

341 浏览

solr - 为什么 solr 不索引一些分词

我正在尝试用 Solr 索引一些中文文档，但看起来 Solr 没有索引一些分段词。

我使用的分析器是 IK 分析器http://code.google.com/p/ik-analyzer/。

要索引的字段：

cn_ik 定义：

例如，将被索引的单词是“AB”（不带引号）。使用中文分析器进行分词后，我得到了 3 个标记，它们是“AB”、“A”和“B”。

如我们所见，第一个标记“AB”涵盖了以下两个标记。

在将这些令牌提供给 Solr 之后，看起来 Solr 仅索引“AB”、“A”和“B”被忽略了。因为当我搜索“A”或搜索“B”时没有得到任何结果。

我猜当 Solr 索引“AB”时，它已经到达索引词的末尾，所以“A”和“B”被忽略了。

使用 Luke 和 Analysis Request Handler 不会向我显示更多提示。我不确定这是 Solr 的错误还是功能。

有什么意见或建议吗？

谢谢：）

solr indexing text-segmentation

2012-09-23T04:18:58.807

0 投票

3 回答

2795 浏览

jquery - 用第一句话分割段落

我有这个 div，我想在第一句话中添加一些样式。

我正在尝试这段代码，但没有按预期工作。

演示

jquery regex text-segmentation

2012-11-08T23:25:22.823

0 投票

3 回答

3552 浏览

algorithm - 动态规划分词

假设我有一个像 'meetateight' 这样的字符串，我需要使用动态编程将它分割成有意义的单词，比如 'meet' 'at' 'eight'。

为了判断一个块/段“x = x1x2x3”有多“好”，给我一个黑盒子，在输入 x 上返回一个实数 quality(x)，这样： quality(x) 的大正值表示x接近英文单词，负数大表示x远离英文单词。

我需要帮助来设计相同的算法。

我尝试考虑一种算法，在该算法中，只要质量下降，我就会根据它们的质量和分段迭代地添加字母。但这在上面的例子中失败了，因为它切断了我而不是见面。

我需要更好的算法的建议。

谢谢

algorithm theory text-segmentation

2012-11-09T13:27:53.517

0 投票

2 回答

3027 浏览

c++ - 使用 ICU 进行分词

我正在使用 ICU4C 音译 CJK。我想知道是否可以在 ICU 中进行分词，将中文文本拆分为根据某些分词标准定义的单词序列。

例如，当我尝试音译时：

使用

我得到以下输出：

检查在线拼音工具似乎非常好，但我的问题是ICU的字符一个一个音译。不过，我正在寻找的更像是下面的文字（我不懂任何中文，所以下面的文字可能没有任何意义，但它应该展示我感兴趣的输出类型）：

有人告诉我ICU 50 能够进行分词，但我在他们的网页上也找不到任何文档。想知道你们中是否有人在 ICU 中使用过分词或知道如何做，或者您是否有任何关于如何做的好链接。

c++cjk icu transliteration text-segmentation

2012-11-21T14:00:02.593

0 投票

1 回答

302 浏览

alignment - 嘈杂文本语料库中的句子分割和对齐

我有一个平行语料库，其中包含大约 100,000 个阿拉伯语和波斯语对齐的段落。

我的语料库是一个嘈杂的语料库，它的段落相互翻译不完整（即阿拉伯语段落的部分没有翻译成波斯语，标点符号也不匹配）。

为了将段落划分为句子，我使用了标点符号，但句子数量不匹配。

然后，我使用Microsoft Aligner 对齐句子，但结果确实是错误的。

如何分割和对齐语料库的句子？

alignment nlp corpus text-segmentation giza++

2013-01-31T12:48:14.233

0 投票

2 回答

2064 浏览

algorithm - OCR 分词

我正在开发一个 OCR 系统，在分词方面需要一些帮助。

目前，OCR 系统检测一行中的 blob（使用连接组件标记算法）。每个 blob 代表一个单独的字母，并在其周围有一个边界框。某些字符可能在其边界框中重叠。

我怎样才能将这些字母组合成单词？如何确定将单词彼此分开的最佳距离，以便： 1.单词不会被剪切 2.单词不会与其他单词连接据我所见 - 字母和单词之间的距离可能会有所不同很多。

这部分是在字母分类之前完成的，因此无法按实际词义进行区分。

谢谢！

algorithm statistics ocr text-segmentation

2013-02-05T18:56:31.867

0 投票

5 回答

49924 浏览

regex - 正则表达式匹配句子中的第一个单词

我正在寻找一个匹配句子中第一个单词的正则表达式，不包括标点符号和空格。例如：“This is a sentence”中的“This”。和“首先，我想说“你好！”中的“第一”

这不起作用：

regex text-segmentation

2013-02-08T06:38:56.310

0 投票

0 回答

588 浏览

java - 搜索引擎如何处理分词和索引

我正在考虑实现一个小型搜索引擎。但是我不确定搜索引擎如何进行分词。

我的想法是这样的：

建立一个包含流行词的词典
对于 html 文档中的每个句子，用空格分隔单词
进行线性搜索以检查某些单词是否在字典中。如果是，这些是该页面的关键字。
让关键字是数据库表。将 url 存储在所有对应的关键字表中

所以假设我们有一句话“我邀请她去市中心附近的当地餐馆吃饭”。不包括停止词的词是：{invited, Dinner, local, restaurant, Downtown}

字典只包含词{邀请、晚餐、餐厅}

以下是问题：

字典外的词怎么处理？（例如市中心）
如何处理过去时、复数形式等？我应该将所有带有特定前缀的单词存储在一起吗？（例如“邀请”将包含“邀请、邀请、邀请...”）那么像“后退”和“后退”这样的词呢？
如何处理“本地餐厅”之类的查询？简单地将“local”和“restaurant”的结果结合起来似乎不是一个好的解决方案，而将“local restaurant”存储为另一个关键字表可能会导致更多的重复，给分词带来困难。
有什么比我的想法更好的方法吗？

欢迎任何意见。谢谢！

java search indexing search-engine text-segmentation

2013-02-22T22:47:33.697

问题标签 [text-segmentation]

Reference