问题标签 [text]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
12462 浏览

bash - 从命令行将文本转换为 7 位 ASCII

我在 OS X 10.5.5 上(尽管我猜这并不重要)

我有一组带有花哨字符的文本文件,例如双反引号、省略号(“...”)在一个字符中等等。

我需要将这些文件转换为良好的老式纯 7 位 ASCII,最好不要丢失字符含义(即,将这些省略号转换为三个句点,将反引号转换为通常的 "s 等)。

请建议一些智能命令行(bash)工具/脚本来做到这一点。

0 投票
5 回答
22946 浏览

unicode - 当我的文本显示为框时是什么意思?

我正在尝试使用(例如)Windows GDI 在我的程序中显示一些文本,并且某些 unicode 字符显示为框?怎么了?

另请参阅:当我的文本显示为问号时,这意味着什么?

0 投票
3 回答
21290 浏览

unicode - 我的文字显示为问号是什么意思?

我正在尝试使用(比如说)Windows GDI 在我的程序中显示一些文本,并且一些 unicode 字符显示为问号?怎么了?

另请参阅:当我的文本显示为框时是什么意思?

0 投票
7 回答
10612 浏览

algorithm - 用于文本分析的算法或库,特别是:主要词、跨文本的短语和文本集合

我正在做一个项目,我需要分析一页文本和一组文本来确定主导词。我想知道是否有一个库(首选 c# 或 java)可以为我处理繁重的工作。如果没有,是否有一种或多种算法可以实现我的以下目标。

我想做的类似于从您在网络上找到的 url 或 rss 提要构建的词云,除了我不想要可视化。它们一直用于分析总统候选人的演讲,以了解主题或最常用的词是什么。

复杂之处在于我需要对数千个短文档执行此操作,然后是这些文档的集合或类别。

我最初的计划是解析文档,然后过滤常用词 - of、the、he、she 等。然后计算剩余词在文本中出现的次数(以及整个集合/类别)。

问题是将来我想处理词干、复数形式等。我也想看看有没有办法识别重要的短语。(而不是一个单词的计数,一个短语的计数是2-3个单词一起)

任何有关策略、库或算法的指导都将受到赞赏。

0 投票
6 回答
198492 浏览

string - 在 Excel 中将时间字段转换为字符串

我有一个完整的 Excel 表。

它们的格式如下:1:00:15

但是,如果我将单元格上的格式更改为文本,它们将更改为时间的基础数字表示:0.041840278

如何将单元格转换为文本单元格但仍有时间?

0 投票
12 回答
167036 浏览

html - HTML 中的软连字符(vs. )

您如何解决网页上的软连字符问题?在文本中可能有很长的单词,您可能想用连字符换行。但是您不希望连字符显示整个单词是否在同一行。

根据这个页面 <wbr>的评论是一个非标准的“网景发明的标签汤”。似乎&shy; 在标准合规性方面也存在问题。似乎没有办法为所有浏览器找到可行的解决方案

你处理软连字符的方式是什么,你为什么选择它?是否有首选解决方案或最佳实践?


在此处 查看相关的 SO 讨论。

0 投票
7 回答
2798 浏览

pdf - 删除多个 PDF 文件的密码

所以我有大量的 PDF 文件需要从中提取文本。这些文件是加密的,但我知道它们的密码。我正在寻找一种方法来自动化提取文本的过程。

我可以在 Acrobat Professional 中手动打开文件,通过输入密码删除安全性,然后另存为 .txt 文件。但是没有办法通过批处理 600 个文件来自动化它。

我正在寻找一些工具来帮助解决这个问题。我很擅长 Perl,所以我尝试了 CPAN 的各种 PDF 处理模块,但它们无法读取加密的文档。有人对此有任何解决方案吗?

0 投票
3 回答
1625 浏览

macos - OS X 文件复制默认转换文本编码

我工作区中的所有 PHP 文件都以Unicode (UTF-8, no BOM)编码。我经常复制现有的源文件以用作新脚本的基础。总是(使用路径查找器或原始查找器),OS X 会将重复文件的编码转换为Western (Mac OS Roman)

复制文本文件时,有什么方法可以使 OS X 正常运行而不转换文本编码?或者让它对所有扩展名为 .php 的文件默认使用特定的文本编码(西方除外!)?

0 投票
1 回答
2007 浏览

text - 如何检测具有一定模糊性的重复文本

前段时间,我使用Text::DeDupe编写了一个小脚本来删除重复的博客文章,然后才不得不关注它们。

在阅读了实现所依据的 Web 论文的句法聚类之后,我希望能够找到重叠的文档(例如,与全文相对的博客片段,也许还有引号)。

您是否知道在编写自己的 C、C++ 或 perl 中我可以尝试的任何其他实现?

0 投票
2 回答
2445 浏览

c# - 从 Web 浏览器控件中检索选定的文本

这是我想做的事情:

从我使用网络浏览器控件拉出的网页中选择文本。在仍然选择此文本时单击按钮后,我希望弹出一个消息框,显示用户突出显示的文本。如何让这个功能在我的 wpf 应用程序中工作?

我认为我使用 mshtml 走在正确的轨道上,但我收到一条错误消息:

对 COM 组件的调用已返回错误 HRESULT E_FAIL。

即使我在文档上尝试一些小的操作(例如更改标题),也会发生此错误。

代码如下: