问题标签 [bengali]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
50 浏览

python-3.x - 使用reportlab python库以Bangla语言生成PDF损坏的联合字母问题

我正在尝试使用 python reportlab 库创建孟加拉语 pdf。但我面临一个问题。联名信大多是这样断的

破碎的孟加拉语文本

我正在 Ubuntu 16.04 中尝试这个。我已经在我的电脑中安装了 SolaimanLipi 字体。我可以在浏览器或编辑器中正确查看孟加拉语单词。我在我的代码引用中添加了以下内容,来自此处的帖子

以下是我的代码。TIA。

0 投票
2 回答
186 浏览

python - 为什么读取外来字符时只有 VS Code 显示“SyntaxError: Non-UTF-8 code started with '\xe0'”,但仅超出一定长度?

0 投票
2 回答
33 浏览

php - 无法区分 mysql 和 phpMyAdmin 中由不同 Unicode 字母组成的单词

我正在使用来自 php 脚本的以下 sql 查询插入一个单词。

在这种特殊情况下会出现问题 - cb_words 表包含孟加拉语的单词。

  1. word - আর 编码为 Unicode 格式是 %u0986%u09B0
  2. 另一个词 - আঁর 编码为 Unicode 格式是 %u0986%u0981%u09B0

正如人们可能从 Unicode 编码中注意到的那样,这两个词几乎是相似的,只是在第二个词中多了一个字母。

现在,表 - cb_words 已经包含第二个单词,但是当我尝试插入第一个单词时它失败了。它不插入单词,只是说插入了 0 行。

从 PHPMyAdmin 尝试时 插入查询结果

令人震惊的是,当我在表格中搜索这个词时 -

返回的结果是 -

SELECT SQL 语句的结果

注意:该表只有上述单词 (2)。我正在尝试插入 (1)

那么,尽管事实上,这两个词并不是 100% 相同的,为什么 mysql 无法区分这两者呢?

我正在添加表结构以防万一: cb_words 的表结构

0 投票
0 回答
17 浏览

plot - 如何在 seaborn 图中添加孟加拉语字体?

我制作了一个可视化孟加拉语停用词的代码,

而且效果也很好,但是没有显示孟加拉语字体

在此处输入图像描述

0 投票
0 回答
50 浏览

python-3.x - 孟加拉语中的 Unicode 文本规范化

我想用孟加拉语执行 Unicode 文本规范化。例如:考虑句子:প্রায়শ্চিত্ত-মনীন্দ্রমনীন্দ্রতারপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনা-মণীন্দ্রপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনাপড়াশুনা(请注意,在单词মনীন্দ্রমনীন্দ্র的第一个和第二句话中,请注意ন和第二句的差异):

句子 1: প্রায়শ্চিত্ত - মনীন্দ্র ও তার পড়াশুনা</p>

[('প', 2474), ('্', 2509), ('র', 2480), ('া', 2494), ('য়', 2527), ('শ', 2486), ( '্', 2509), ('চ', 2458), ('ি', 2495), ('ত', 2468), ('্', 2509), ('ত', 2468), (' ' , 32), ('-', 45), (' ', 32), ('ম', 2478), ('ন', 2472) , ('ী', 2496), ('ন', 2472) , ('্', 2509), ('দ', 2470), ('্', 2509), ('র', 2480), (' ', 32), ('ও', 2451), (' ', 32), ('ত', 2468), ('া', 2494), ('র', 2480), (' ', 32), ('প', 2474), ('ড়', 2524 ), ('া', 2494), ('শ', 2486), ('ু', 2497), ('ন', 2472), ('া', 2494)]

第 2 句:প্রায়শ্চিত্ত - মণীন্দ্র ও তার পড়াশুনা</p>

[('প', 2474), ('্', 2509), ('র', 2480), ('া', 2494), ('য়', 2527), ('শ', 2486), ( '্', 2509), ('চ', 2458), ('ি', 2495), ('ত', 2468), ('্', 2509), ('ত', 2468), (' ' , 32), ('-', 45), (' ', 32), ('ম', 2478), ('ণ', 2467) , ('ী', 2496), ('ন', 2472) , ('্', 2509), ('দ', 2470), ('্', 2509), ('র', 2480), (' ', 32), ('ও', 2451), (' ', 32), ('ত', 2468), ('া', 2494), ('র', 2480), (' ', 32), ('প', 2474), ('ড়', 2524 ), ('া', 2494), ('শ', 2486), ('ু', 2497), ('ন', 2472), ('া', 2494)]

我找到了这个库https://github.com/csebuetnlp/normalizer用于规范化,但在规范化输入文本后它没有显示 Unicode 值的任何差异。同样来自使用https://github.com/anoopkunchukuttan/indic_nlp_library文本规范化只发生在像poorna viram('|'句号)这样的有限字符上。执行标准化的任何建议都会有所帮助。

详细说明:

我要提到的问题是同一字符的 Unicode 值不一致。如果我正在搜索字符串“apple”,其中“a”的 Unicode 值为 200,并且系统中存在 n 个字符串中的两个候选字符串。字符串 1 包含“apple”,其中“a”具有 Unicode 值 200,字符串 2 包含“apple”,其中“a”具有 Unicode 值 300,然后我希望字符串 1 和字符串 2 都显示。目前,只有字符串 1 会显示,因为它与查询字符串完全匹配。

ন 和 ণ 都是相同的字符,但它们的处理方式不同,因为它们的 Unicode 值不同。对于这种特殊情况,我可以将 ণ 替换为 ন。我这样做是因为当我执行字符串搜索时,我想获取包含“ন”和“ণ”的单词。但是,可能存在其他一些字母具有这种歧义的情况,或者可能 ন 以其他方式编写,其 Unicode 值不同于 2472 和 2467。我想知道处理这种情况的原则方法。

PS 如果您可以将我指向任何特定于孟加拉语的资源以获取规范表示,这也将非常有帮助。

0 投票
1 回答
26 浏览

wordpress - 为什么 WordPress 孟加拉语帖子链接被缩短?

我的网站是Mahtab.Online它是用孟加拉语设计的。我网站的永久链接设置为%category%/%postname%

我帖子的标题是“বাংলাদেশেবিভিন্নমানুষেরহারপ্রতিকারপ্রতিকার”。因此,链接应为“ https://mahtab.online/” https://mahtab.online/স্বাস্থ্য/বাংলাদেশে/বাংলাদেশে/বাংলাদেশে-স্বাস্থ্য/বাংলাদেশে--বিভিন্ন--বিভিন্ন--রোগে--রোগে--মানুষের--হার--প্রতিকার- বাংলাদেশে-বিভিন্ন-রোগে-ম”。

为什么链接被剪短了?如何使链接完整?

请帮我。