1

我想用孟加拉语执行 Unicode 文本规范化。例如:考虑句子:প্রায়শ্চিত্ত-মনীন্দ্রমনীন্দ্রতারপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনা-মণীন্দ্রপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনা(请注意,在单词মনীন্দ্রমনীন্দ্র的第一个和第二句话中,请注意ন和第二句的差异):

句子 1: প্রায়শ্চিত্ত - মনীন্দ্র ও তার পড়াশুনা</p>

[('প', 2474), ('্', 2509), ('র', 2480), ('া', 2494), ('য়', 2527), ('শ', 2486), ( '্', 2509), ('চ', 2458), ('ি', 2495), ('ত', 2468), ('্', 2509), ('ত', 2468), (' ' , 32), ('-', 45), (' ', 32), ('ম', 2478), ('ন', 2472) , ('ী', 2496), ('ন', 2472) , ('্', 2509), ('দ', 2470), ('্', 2509), ('র', 2480), (' ', 32), ('ও', 2451), (' ', 32), ('ত', 2468), ('া', 2494), ('র', 2480), (' ', 32), ('প', 2474), ('ড়', 2524 ), ('া', 2494), ('শ', 2486), ('ু', 2497), ('ন', 2472), ('া', 2494)]

第 2 句:প্রায়শ্চিত্ত - মণীন্দ্র ও তার পড়াশুনা</p>

[('প', 2474), ('্', 2509), ('র', 2480), ('া', 2494), ('য়', 2527), ('শ', 2486), ( '্', 2509), ('চ', 2458), ('ি', 2495), ('ত', 2468), ('্', 2509), ('ত', 2468), (' ' , 32), ('-', 45), (' ', 32), ('ম', 2478), ('ণ', 2467) , ('ী', 2496), ('ন', 2472) , ('্', 2509), ('দ', 2470), ('্', 2509), ('র', 2480), (' ', 32), ('ও', 2451), (' ', 32), ('ত', 2468), ('া', 2494), ('র', 2480), (' ', 32), ('প', 2474), ('ড়', 2524 ), ('া', 2494), ('শ', 2486), ('ু', 2497), ('ন', 2472), ('া', 2494)]

我找到了这个库https://github.com/csebuetnlp/normalizer用于规范化,但在规范化输入文本后它没有显示 Unicode 值的任何差异。同样来自使用https://github.com/anoopkunchukuttan/indic_nlp_library文本规范化只发生在像poorna viram('|'句号)这样的有限字符上。执行标准化的任何建议都会有所帮助。

详细说明:

我要提到的问题是同一字符的 Unicode 值不一致。如果我正在搜索字符串“apple”,其中“a”的 Unicode 值为 200,并且系统中存在 n 个字符串中的两个候选字符串。字符串 1 包含“apple”,其中“a”具有 Unicode 值 200,字符串 2 包含“apple”,其中“a”具有 Unicode 值 300,然后我希望字符串 1 和字符串 2 都显示。目前,只有字符串 1 会显示,因为它与查询字符串完全匹配。

ন 和 ণ 都是相同的字符,但它们的处理方式不同,因为它们的 Unicode 值不同。对于这种特殊情况,我可以将 ণ 替换为 ন。我这样做是因为当我执行字符串搜索时,我想获取包含“ন”和“ণ”的单词。但是,可能存在其他一些字母具有这种歧义的情况,或者可能 ন 以其他方式编写,其 Unicode 值不同于 2472 和 2467。我想知道处理这种情况的原则方法。

PS 如果您可以将我指向任何特定于孟加拉语的资源以获取规范表示,这也将非常有帮助。

4

0 回答 0