问题标签 [text-segmentation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
7961 浏览

python - 将文本拆分成句子

我希望将文本拆分为句子。谁能帮我?

我还需要处理缩写。但是我的计划是在更早的阶段替换这些。先生 -> 先生

谢谢,巴里

编辑:首先,我很乐意满足上面包含的四个测试。这将帮助我更好地理解正则表达式是如何工作的。现在我可以将一个句子定义为 X. 等,如我的测试中定义的那样。

0 投票
2 回答
800 浏览

python - 得到一个完整的 unicode 句子

我正在尝试像Base: Lote Numero 1, Marcelo T de Alvear 500. Demanda: otras palabras.我想要的那样解析一个句子:首先,用句点分割文本,然后,使用冒号之前的任何内容作为冒号label之后的句子。现在我有以下定义:

和一种作品,但它放弃了 unicode 字符(以及任何不在字母数字中的字符),我想我希望有value一个完整的句子而不是这个:'value': [(([u'Lote', u'Numero', u'1', ',', u'Marcelo', u'T', u'de', u'Alvear', u'500'], {}), 1)

有一个简单的方法来解决这个问题吗?

0 投票
1 回答
192 浏览

python - 正则表达式来区分句子和章节文本

我有一个包含很多句子的(正在运行的)文本。我有一个正则表达式,它能够提取以句号、问号或感叹号结尾的句子。一个句子的结尾必须跟在下一个句子的开头(空格/制表符/换行符和大写字母或数字)。我读取了存储在数据中的字符串并调用了正则表达式。

如果我们不考虑缩写情况,这个正则表达式似乎是有效的。在文本中,我可能还有一些不以句号结尾的章节文本。例如:

这是第一章
这里是第一句话。这是第二句话。这里是第三个发送的ID。这是第四次发送...

我的问题是是否有可能有一个只读取章节文本的正则表达式以及一个读取句子的正则表达式。这些章节是一行中没有句号的松散文本。常规句子可能涵盖几行。也就是说,句子也可以在一行中包含没有句点的文本。是否可以用正则表达式区分这两种情况(章节与句子)?

0 投票
3 回答
599 浏览

c - 将段落转换为具有动态记忆的句子

如何将段落转换为句子?我有一个函数签名如下:

其中:

  • paragraph是一个包含多个句子的字符串。段落确保每个句子都以句点 (.) 结尾,并且整个段落以空终止符结尾。
  • 返回一个动态分配的句子数组。

我对如何为动态句子数组分配内存有点困惑。

0 投票
2 回答
1323 浏览

objective-c - CFStringTokenizer 中日文如何使用?

我在这里使用代码将文本拆分为单个单词,它适用于我尝试过的所有语言,除了日语和中文。

有没有办法可以调整代码以正确标记日语和中文?文档说支持这些语言,但它似乎并没有在适当的地方破坏单词。例如,当它标记“新しい”时,它将它分成两个词“新し”和“い”,而应该是一个(我不会说日语,所以我不知道这是否真的正确,但是样本我说过这些都应该是一个词)。其他时候它会跳过单词。

我确实在使用 kCFStringTokenizerUnitWordBoundary 时尝试创建中文和日文语言环境。结果有所改善,但对于我正在做的事情仍然不够好(向词汇添加超链接)。

我知道其他一些可用的标记器,但如果我能坚持核心基础,我宁愿避免使用它们。

[更新]一段时间以来,我们最终使用 mecab 和特定的日语用户词典,现在已经转移到仅在服务器端完成所有这些工作。那里可能并不完美,但我们在所有平台上都有一致的结果。

0 投票
3 回答
8219 浏览

python - 用于从python中的段落中提取句子的正则表达式

我正在尝试使用 python 中的正则表达式从段落中提取一个句子。
通常,我正在测试的代码会正确提取句子,但在下一段中,句子没有被正确提取。

这段落:

“但在疟疾感染和败血症的情况下,全身的树突状细胞都集中在提醒免疫系统,这会阻止它们检测和应对任何新的感染。” 新型疫苗?

编码:

当用上面的段落进行测试时,它给出的输出与输入段落完全相同,但输出应该看起来像 -

但在疟疾感染和败血症的情况下,全身的树突状细胞都集中在提醒免疫系统,这会阻止它们检测和应对任何新的感染

一种新型疫苗

正则表达式有什么问题吗?

0 投票
5 回答
5208 浏览

java - Sentence detection using NLP

I am trying to parse out sentences from a huge amount of text. using java I started off with NLP tools like OpenNLP and Stanford's Parser.

But here is where i get stuck. though both these parsers are pretty great they fail when it comes to a non uniform text.

For example in my text most sentences are delimited by a period, but in some cases like bullet points they aren't. Here both the parses fail miserably.

I even tried setting the option in the stanford parses for multiple sentence terminators but the output was not much better!

Any ideas??

Edit :To make it simpler I am looking to parse text where the delimiter is either a new line ("\n") or a period(".") ...

0 投票
1 回答
715 浏览

actionscript-3 - 从句子中删除除第一个单词以外的所有单词

我需要找到一种方法来获取一个句子并删除除第一个之外的所有单词。

如果句子是“嗨,我的名字是 dingo”
,我只需要得到“嗨”这个词

0 投票
2 回答
4876 浏览

php - 如何在PHP中将句子中的第一个字母大写?

可能重复:
如何将第一个字母显示为大写?
PHP将句子中第一个单词的首字母大写

我想大写句子中的第一个字母和句号。谁能建议怎么做?

例如,

我想要以下输出。

0 投票
2 回答
20295 浏览

python - 如何在 Python 中逐句拆分段落

我需要从 Python 的段落中解析句子。是否有现有的软件包可以做到这一点,还是我应该在这里尝试使用正则表达式?