问题标签 [wordsegment]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

5 问题

0 投票

2 回答

1239 浏览

python - 使用 Python 的 wordsegment 包进行文本分割

伙计们，

wordsegment在过去的几个小时里，我正在使用 Grant Jenks 的 python 库。该库适用于任何不完整的单词或分隔组合词，例如e nd ==> end和thisisacat ==> this is a cat。

我正在处理涉及数字的文本数据，并且在此文本数据上使用此库会产生相反的效果。increased $55 million or 23.8% for转换为非常奇怪的东西的完美文本increased 55millionor238 for（在重新调整的列表上执行连接操作之后）。请注意，对于文本中涉及数字的任何部分，这都是随机发生的（可能会发生也可能不会发生）。

以前有人用过这个库吗？
如果是，您是否遇到过类似情况并找到解决方法？
如果没有，你知道任何其他为我们做这个技巧的 python 库吗？

谢谢你。

2018-11-30T00:12:47.000

0 投票

1 回答

303 浏览

python-3.x - wordsegement python库：ValueError：max（）arg是一个空序列

我正在使用wordsegmentpython 库来标记我的文本，如下所示：

但是，我遇到了一个我无法理解的奇怪错误，无法修复：

我在 Windows 10 上使用以下内容：

Python3
蟒蛇3
wordgemt==1.3.0

有关如何解决此问题的任何提示？这是图书馆的错误吗？

python-3.x anaconda3 wordsegment

2020-02-17T11:47:19.947

0 投票

1 回答

197 浏览

python - 如何使用来自wordsegment内部的segment（）到re.sub从python中的主题标签中提取单词？

我正在使用 python 对推文进行情感分析。在清理推文的过程中，我想从标签中提取单词。我发现 wordsegment 库非常有效地完成了这项工作。但是我的问题是，wordsegment 库在我使用df['tweet].apply(lambda x: segment(x)). segment()我想我可以通过对主题标签应用操作来减少这个时间。为此，我首先创建了一个函数作为休闲：

然后我尝试使用 re.sub：

此代码不起作用并给了我一个错误。我该怎么做才能仅在主题标签上应用细分？

python regex nlp data-cleaning wordsegment

2020-09-10T04:45:06.910

0 投票

1 回答

49 浏览

r - jieba 分段器应用于“内容”列，然后在 r 中创建带有分隔字符的新列“单词”

我正在尝试使用 r 中的 jieba 包将“content”列中的中文句子分割成单词，然后创建一个新的对应列“words”，其中每一行包含上一个“content”列中对应行的分割词。

其中 words 列与 content 列的分段版本有 3 个对应的行。

jieba 包很好地分割了中文单词，但是我在将分割的单词保持在 1 行内时遇到了麻烦。jieba分词器似乎将“内容”列的所有单词都进行了分段，然后将每个单词视为单独的行。我真的被困在如何解决这个问题上——我需要改变回收的向量数量吗？任何帮助将不胜感激。

这是我的代码：

返回错误：

r wordsegment

2020-10-25T15:15:04.037

0 投票

0 回答

73 浏览

python - 合并重叠或包含在其他段python中的词段

我正在从事一个项目，该项目涉及在包含手写文本的图像中进行分词。为此，我正在使用比例空间技术进行分词。

一个问题是重叠部分，如图所示：

我想将任何 2 个重叠段（或包含在其他段中的段）合并为一个（对于一行中的所有此类段）。

以下是我尝试过的代码：

它不能按预期工作，因为当我们遍历段列表时，段会动态更新。感谢您对此的任何帮助。

segment_scp = [[(75, 0), (189, 52)], [(126, 0), (243, 61)], [(347, 0), (419, 50)], [(419, 0 ), (507, 50)], [(507, 13), (668, 70)]]

segment_cleaner(segments_scp)

输出：[[(75, 0), (243, 61)], [(347, 0), (507, 50)], [(419, 0), (668, 70)]]

所需输出：[[(75, 0), (243, 61)], [(347, 0), (668, 70)]]

python python-3.x image-processing opencv-python wordsegment

2021-05-31T18:42:27.377

1 2 3 4 5 6 7 8 9 10

问题标签 [wordsegment]

python - 使用 Python 的 wordsegment 包进行文本分割

python-3.x - wordsegement python库：ValueError：max（）arg是一个空序列

python - 如何使用来自wordsegment内部的segment（）到re.sub从python中的主题标签中提取单词？

r - jieba 分段器应用于“内容”列，然后在 r 中创建带有分隔字符的新列“单词”

python - 合并重叠或包含在其他段python中的词段

Reference