python-3.x - 孟加拉语中的 Unicode 文本规范化

Question

我想用孟加拉语执行 Unicode 文本规范化。例如：考虑句子：প্রায়শ্চিত্ত-মনীন্দ্রমনীন্দ্রতারপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনা-মণীন্দ্রপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনা（请注意，在单词মনীন্দ্রমনীন্দ্র的第一个和第二句话中，请注意ন和第二句的差异）：

句子 1: প্রায়শ্চিত্ত - মনীন্দ্র ও তার পড়াশুনা</p>

[('প', 2474), ('্', 2509), ('র', 2480), ('া', 2494), ('য়', 2527), ('শ', 2486), ( '্', 2509), ('চ', 2458), ('ি', 2495), ('ত', 2468), ('্', 2509), ('ত', 2468), (' ' , 32), ('-', 45), (' ', 32), ('ম', 2478), ('ন', 2472) , ('ী', 2496), ('ন', 2472) , ('্', 2509), ('দ', 2470), ('্', 2509), ('র', 2480), (' ', 32), ('ও', 2451), (' ', 32), ('ত', 2468), ('া', 2494), ('র', 2480), (' ', 32), ('প', 2474), ('ড়', 2524 ), ('া', 2494), ('শ', 2486), ('ু', 2497), ('ন', 2472), ('া', 2494)]

第 2 句：প্রায়শ্চিত্ত - মণীন্দ্র ও তার পড়াশুনা</p>

[('প', 2474), ('্', 2509), ('র', 2480), ('া', 2494), ('য়', 2527), ('শ', 2486), ( '্', 2509), ('চ', 2458), ('ি', 2495), ('ত', 2468), ('্', 2509), ('ত', 2468), (' ' , 32), ('-', 45), (' ', 32), ('ম', 2478), ('ণ', 2467) , ('ী', 2496), ('ন', 2472) , ('্', 2509), ('দ', 2470), ('্', 2509), ('র', 2480), (' ', 32), ('ও', 2451), (' ', 32), ('ত', 2468), ('া', 2494), ('র', 2480), (' ', 32), ('প', 2474), ('ড়', 2524 ), ('া', 2494), ('শ', 2486), ('ু', 2497), ('ন', 2472), ('া', 2494)]

我找到了这个库https://github.com/csebuetnlp/normalizer用于规范化，但在规范化输入文本后它没有显示 Unicode 值的任何差异。同样来自使用https://github.com/anoopkunchukuttan/indic_nlp_library文本规范化只发生在像poorna viram（'|'句号）这样的有限字符上。执行标准化的任何建议都会有所帮助。

详细说明：

我要提到的问题是同一字符的 Unicode 值不一致。如果我正在搜索字符串“apple”，其中“a”的 Unicode 值为 200，并且系统中存在 n 个字符串中的两个候选字符串。字符串 1 包含“apple”，其中“a”具有 Unicode 值 200，字符串 2 包含“apple”，其中“a”具有 Unicode 值 300，然后我希望字符串 1 和字符串 2 都显示。目前，只有字符串 1 会显示，因为它与查询字符串完全匹配。

ন 和 ণ 都是相同的字符，但它们的处理方式不同，因为它们的 Unicode 值不同。对于这种特殊情况，我可以将 ণ 替换为 ন。我这样做是因为当我执行字符串搜索时，我想获取包含“ন”和“ণ”的单词。但是，可能存在其他一些字母具有这种歧义的情况，或者可能 ন 以其他方式编写，其 Unicode 值不同于 2472 和 2467。我想知道处理这种情况的原则方法。

PS 如果您可以将我指向任何特定于孟加拉语的资源以获取规范表示，这也将非常有帮助。

python-3.x - 孟加拉语中的 Unicode 文本规范化

0 回答 0

Related

Reference