问题标签 [bengali]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - 使用reportlab python库以Bangla语言生成PDF损坏的联合字母问题
我正在尝试使用 python reportlab 库创建孟加拉语 pdf。但我面临一个问题。联名信大多是这样断的
我正在 Ubuntu 16.04 中尝试这个。我已经在我的电脑中安装了 SolaimanLipi 字体。我可以在浏览器或编辑器中正确查看孟加拉语单词。我在我的代码引用中添加了以下内容,来自此处的帖子
以下是我的代码。TIA。
php - 无法区分 mysql 和 phpMyAdmin 中由不同 Unicode 字母组成的单词
我正在使用来自 php 脚本的以下 sql 查询插入一个单词。
在这种特殊情况下会出现问题 - cb_words 表包含孟加拉语的单词。
- word - আর 编码为 Unicode 格式是 %u0986%u09B0
- 另一个词 - আঁর 编码为 Unicode 格式是 %u0986%u0981%u09B0
正如人们可能从 Unicode 编码中注意到的那样,这两个词几乎是相似的,只是在第二个词中多了一个字母。
现在,表 - cb_words 已经包含第二个单词,但是当我尝试插入第一个单词时它失败了。它不插入单词,只是说插入了 0 行。
令人震惊的是,当我在表格中搜索这个词时 -
返回的结果是 -
注意:该表只有上述单词 (2)。我正在尝试插入 (1)
那么,尽管事实上,这两个词并不是 100% 相同的,为什么 mysql 无法区分这两者呢?
python-3.x - 孟加拉语中的 Unicode 文本规范化
我想用孟加拉语执行 Unicode 文本规范化。例如:考虑句子:প্রায়শ্চিত্ত-মনীন্দ্রমনীন্দ্রতারপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনা-মণীন্দ্রপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনা(请注意,在单词মনীন্দ্রমনীন্দ্র的第一个和第二句话中,请注意ন和第二句的差异):
句子 1: প্রায়শ্চিত্ত - মনীন্দ্র ও তার পড়াশুনা</p>
[('প', 2474), ('্', 2509), ('র', 2480), ('া', 2494), ('য়', 2527), ('শ', 2486), ( '্', 2509), ('চ', 2458), ('ি', 2495), ('ত', 2468), ('্', 2509), ('ত', 2468), (' ' , 32), ('-', 45), (' ', 32), ('ম', 2478), ('ন', 2472) , ('ী', 2496), ('ন', 2472) , ('্', 2509), ('দ', 2470), ('্', 2509), ('র', 2480), (' ', 32), ('ও', 2451), (' ', 32), ('ত', 2468), ('া', 2494), ('র', 2480), (' ', 32), ('প', 2474), ('ড়', 2524 ), ('া', 2494), ('শ', 2486), ('ু', 2497), ('ন', 2472), ('া', 2494)]
第 2 句:প্রায়শ্চিত্ত - মণীন্দ্র ও তার পড়াশুনা</p>
[('প', 2474), ('্', 2509), ('র', 2480), ('া', 2494), ('য়', 2527), ('শ', 2486), ( '্', 2509), ('চ', 2458), ('ি', 2495), ('ত', 2468), ('্', 2509), ('ত', 2468), (' ' , 32), ('-', 45), (' ', 32), ('ম', 2478), ('ণ', 2467) , ('ী', 2496), ('ন', 2472) , ('্', 2509), ('দ', 2470), ('্', 2509), ('র', 2480), (' ', 32), ('ও', 2451), (' ', 32), ('ত', 2468), ('া', 2494), ('র', 2480), (' ', 32), ('প', 2474), ('ড়', 2524 ), ('া', 2494), ('শ', 2486), ('ু', 2497), ('ন', 2472), ('া', 2494)]
我找到了这个库https://github.com/csebuetnlp/normalizer用于规范化,但在规范化输入文本后它没有显示 Unicode 值的任何差异。同样来自使用https://github.com/anoopkunchukuttan/indic_nlp_library文本规范化只发生在像poorna viram('|'句号)这样的有限字符上。执行标准化的任何建议都会有所帮助。
详细说明:
我要提到的问题是同一字符的 Unicode 值不一致。如果我正在搜索字符串“apple”,其中“a”的 Unicode 值为 200,并且系统中存在 n 个字符串中的两个候选字符串。字符串 1 包含“apple”,其中“a”具有 Unicode 值 200,字符串 2 包含“apple”,其中“a”具有 Unicode 值 300,然后我希望字符串 1 和字符串 2 都显示。目前,只有字符串 1 会显示,因为它与查询字符串完全匹配。
ন 和 ণ 都是相同的字符,但它们的处理方式不同,因为它们的 Unicode 值不同。对于这种特殊情况,我可以将 ণ 替换为 ন。我这样做是因为当我执行字符串搜索时,我想获取包含“ন”和“ণ”的单词。但是,可能存在其他一些字母具有这种歧义的情况,或者可能 ন 以其他方式编写,其 Unicode 值不同于 2472 和 2467。我想知道处理这种情况的原则方法。
PS 如果您可以将我指向任何特定于孟加拉语的资源以获取规范表示,这也将非常有帮助。
wordpress - 为什么 WordPress 孟加拉语帖子链接被缩短?
我的网站是Mahtab.Online它是用孟加拉语设计的。我网站的永久链接设置为%category%/%postname%
我帖子的标题是“বাংলাদেশেবিভিন্নমানুষেরহারপ্রতিকারপ্রতিকার”。因此,链接应为“ https://mahtab.online/” https://mahtab.online/স্বাস্থ্য/বাংলাদেশে/বাংলাদেশে/বাংলাদেশে-স্বাস্থ্য/বাংলাদেশে--বিভিন্ন--বিভিন্ন--রোগে--রোগে--মানুষের--হার--প্রতিকার- বাংলাদেশে-বিভিন্ন-রোগে-ম”。
为什么链接被剪短了?如何使链接完整?
请帮我。