问题标签 [wordsegment]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 Python 的 wordsegment 包进行文本分割
伙计们,
wordsegment
在过去的几个小时里,我正在使用 Grant Jenks 的 python 库。该库适用于任何不完整的单词或分隔组合词,例如e nd
==> end
和thisisacat
==> this is a cat
。
我正在处理涉及数字的文本数据,并且在此文本数据上使用此库会产生相反的效果。increased $55 million or 23.8% for
转换为非常奇怪的东西的完美文本increased 55millionor238 for
(在重新调整的列表上执行连接操作之后)。请注意,对于文本中涉及数字的任何部分,这都是随机发生的(可能会发生也可能不会发生)。
- 以前有人用过这个库吗?
- 如果是,您是否遇到过类似情况并找到解决方法?
- 如果没有,你知道任何其他为我们做这个技巧的 python 库吗?
谢谢你。
python-3.x - wordsegement python库:ValueError:max()arg是一个空序列
我正在使用wordsegment
python 库来标记我的文本,如下所示:
但是,我遇到了一个我无法理解的奇怪错误,无法修复:
我在 Windows 10 上使用以下内容:
- Python3
- 蟒蛇3
- wordgemt==1.3.0
有关如何解决此问题的任何提示?这是图书馆的错误吗?
python - 如何使用来自wordsegment内部的segment()到re.sub从python中的主题标签中提取单词?
我正在使用 python 对推文进行情感分析。在清理推文的过程中,我想从标签中提取单词。我发现 wordsegment 库非常有效地完成了这项工作。但是我的问题是,wordsegment 库在我使用df['tweet].apply(lambda x: segment(x))
. segment()
我想我可以通过对主题标签应用操作来减少这个时间。为此,我首先创建了一个函数作为休闲:
然后我尝试使用 re.sub
:
此代码不起作用并给了我一个错误。我该怎么做才能仅在主题标签上应用细分?
r - jieba 分段器应用于“内容”列,然后在 r 中创建带有分隔字符的新列“单词”
我正在尝试使用 r 中的 jieba 包将“content”列中的中文句子分割成单词,然后创建一个新的对应列“words”,其中每一行包含上一个“content”列中对应行的分割词。
其中 words 列与 content 列的分段版本有 3 个对应的行。
jieba 包很好地分割了中文单词,但是我在将分割的单词保持在 1 行内时遇到了麻烦。jieba分词器似乎将“内容”列的所有单词都进行了分段,然后将每个单词视为单独的行。我真的被困在如何解决这个问题上——我需要改变回收的向量数量吗?任何帮助将不胜感激。
这是我的代码:
返回错误:
python - 合并重叠或包含在其他段python中的词段
我正在从事一个项目,该项目涉及在包含手写文本的图像中进行分词。为此,我正在使用比例空间技术进行分词。
一个问题是重叠部分,如图所示:
我想将任何 2 个重叠段(或包含在其他段中的段)合并为一个(对于一行中的所有此类段)。
以下是我尝试过的代码:
它不能按预期工作,因为当我们遍历段列表时,段会动态更新。感谢您对此的任何帮助。
segment_scp = [[(75, 0), (189, 52)], [(126, 0), (243, 61)], [(347, 0), (419, 50)], [(419, 0 ), (507, 50)], [(507, 13), (668, 70)]]
segment_cleaner(segments_scp)
输出:[[(75, 0), (243, 61)], [(347, 0), (507, 50)], [(419, 0), (668, 70)]]
所需输出:[[(75, 0), (243, 61)], [(347, 0), (668, 70)]]