问题标签 [text-segmentation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - 将段落拆分为句子
给定一段,我想把它分成句子。目前我只是这样做:
它在大多数情况下都有效,但是当它给出这样的句子时开始失败:
阿拉斯加是美国最大的州
因为U.S.
有句点,所以它被解析S
为一个句子。
确定段落中句子的最佳方法是什么?我考虑过根据大写字母之前的最后一个句点来解析它们,但是如果该段落的键入不正确(句点后的小写字母),它也会失败
java - 将段落拆分为带有标题和数字的句子
我在 Java 中使用 BreakIterator 类将段落分成句子。这是我的代码:
问题是当段落包含标题或数字时,例如:
“罗伯茨教授试图通过编写 1.200 行代码来解决问题。”
我的代码将产生的是:
由于标题和数字中的句点,而不是 1 个句子。
有没有办法解决这个问题以使用 Java 处理标题和数字?
java - 正则表达式将文本文档拆分为句子
我有一个大文本字符串,我试图将其拆分为基于“。?!”的句子。但是我的正则表达式无法正常工作,有人可以指导我检测错误吗?
但它不是拆分句子。有人可以检测到错误吗?
c# - 某些象形文字语言中的字数计数器?
是否有任何可用的库用于某些象形文字语言的字数统计(例如:中文、日文、韩文......)?
我发现 MS Word 可以有效地计算这些语言的文本。我可以在我的 .NET 应用程序中添加对 MS Word 库的引用来实现此功能吗?
或者有没有其他解决方案可以达到这个目的?
python - 与正则表达式匹配的句子
我有一个分成多行的文本,没有特定的格式。所以我决定line.strip('\n')
为每一行。然后我想使用句子结束标记将文本分成句子,.
考虑:
.
后跟\s
(空格)、\S
(like"
'
)和后跟[A-Z]
将拆分的句点- 不要分裂
[0-9]\.[A-Za-z]
,喜欢1.stackoverflow real time solution
。
我的程序只解决了 1 - 句点 (.) 的一半,后跟 \s 和 [AZ]。下面是代码:
请!我想知道哪个是掌握正则表达式的最佳方法。这似乎令人困惑。
php - 将句子拆分成单词
例如我有这样的句子:
我需要这样的数组
我对正则表达式很陌生..
这是我尝试过的:
这个
有效,但我有第二个问题,我想用 mu 正则表达式写列表“wd”是特例。例如,这个词是我的列表“wd”、“先生”、“博士”。
如果我要接受文字:
$text = "单词,博士单词 wd 单词!..";
我需要数组:
对不起英语不好...
php - 将句子拆分为单词(带有特殊单词列表)
我有一句话:
$text = "word word, dr. word: a.sh. word ak word?!..";
特殊词是:“博士”。、“a.sh”和“ak”
这个 :
$text = "word word, dr. word: a.sh. word ak word?!..";
$split = preg_split("/[^\w] ([\s]+[^\w] |$)/", $text, -1, PREG_SPLIT_NO_EMPTY);
print_r($split);
正则表达式给了我这个:
我需要
数组 (
[0] => word
[1] => word
[2] => dr. #<----- 点必须在这里,因为“dr.”是特殊词 [3] => word
[4] = > a.sh. #<----- 点必须在这里,因为“a.sh”是特殊词 [5] => 词
[6] => ak
[7] => 词)
regex - 将多段落文档拆分为段落编号的句子
我有一个解析良好的多段落文档列表(所有段落由\n\n分隔,句子由“。”分隔),我想将其拆分为句子,以及一个表示段落编号的数字文档。例如,(两段)输入是:
理想情况下,输出应该是:
我熟悉 Perl 中的 Lingua::Sentences 包,它可以将文档分成句子。但是它与段落编号不兼容。因此,我想知道是否有其他方法可以实现上述目标(文档不包含缩写)。任何帮助是极大的赞赏。谢谢!
php - 段落中句子的首字母大写
我正在使用 WordPress 和 WP-O-Matic 自动从不同的提要中提取内容。内容全部大写,使 WordPress 博客中的帖子看起来很糟糕。我尝试使用不同的技术,但它们似乎都没有完美地工作。
以下是我尝试的一些示例:
如何在 php 中将句子中的第一个字母大写 如何将句子中
第一个单词的首字母大写?
我目前正在使用这段代码,但它不能正常工作:
问题是这段代码删除了所有<p></p>
标签,使整个帖子看起来像一个段落。
这是我需要做的:
示例输入:
预期输出:
请帮忙
python - Python提取包含2个单词的句子
我有这个链接中讨论的相同问题Python extract sentence contains word,但不同之处在于我想在同一个句子中找到 2 个单词。我需要从包含 2 个特定单词的语料库中提取句子。有人可以帮助我吗?