问题标签 [text-parsing]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1151 问题

0 投票

10 回答

4913 浏览

c++ - 在 C++ 中解析字符串

我有大量的日志行，我需要解析每一行（所以效率非常重要）。

每个日志行的格式为

cust_name time_start time_end (IP 或 URL)*

因此，ip 地址、时间、时间和一个可能为空的 ip 地址或 url 列表，以分号分隔。如果最后一个列表中只有 ip 或 url，则没有分隔符。如果超过 1 个，则用分号分隔。

我需要一种方法来解析这一行并将其读入数据结构。time_start 或 time_end 可以是系统时间或 GMT。cust_name 也可以有多个由空格分隔的字符串。

我可以通过逐个字符读取并编写自己的解析器来做到这一点。有一个更好的方法吗？

c++parsing logging text-parsing

duli

2009-03-05T18:32:17.153

0 投票

6 回答

3726 浏览

python - 如何在 Vim 中转置文件中行和列的内容？

我知道我可以使用 Awk，但我在 Windows 机器上，并且我正在为可能没有 Awk 的其他人创建一个函数。我也知道我可以编写一个 C 程序，但我不希望为我正在制作的一个小 Vim 实用程序提供需要编译和维护的东西。

原始文件可能是：

在转置之后，它应该变成：

更新

高尔夫规则适用于选择正确答案。
Python 爱好者应该在下面查看Charles Duffy 的答案。

python vim text-files text-parsing

ojblass

2009-04-01T05:09:10.120

0 投票

3 回答

14390 浏览

ruby - 如何在 Ruby 中标记这个字符串？

我有这个字符串：

我想将其转换为将其标记为哈希数组：

我知道 StringScanner 和Syntax gem，但我找不到足够的代码示例。

任何指针？

ruby parsing tokenize text-parsing

Radamanthus

2009-04-03T11:28:35.320

0 投票

1 回答

1216 浏览

regex - 正则表达式和 XSS 上的“战争”

我一直对编写像论坛或博客这样的网络软件很感兴趣，这些东西需要有限的标记才能重写为 HTML。但是最近，我越来越多地注意到对于 PHP，尝试谷歌搜索“PHP BBCode parser -PEAR”并测试一些，你要么得到一个低效的混乱，要么你得到的代码很糟糕，到处都是 XSS 漏洞。

以我之前提到的例子为例，在那些糟糕的 BBCode 解析器中，你将如何避免 XSS？我现在将使用您的典型正则表达式来处理链接，您可以提及它的脆弱性以及如何避免它。

处理图像标签几乎没有比这更安全的了。

所以我有几个具体的问题，主要是针对 PHP 实现的。

在此示例中，仅使用 uri/url 验证表达式进行匹配是否更好？或者，最好使用(.*?)回调，然后确定输入是否是有效链接？正如上面显而易见的javascript:alert('XSS!')那样，在上面的 URL 标记中可以工作，但如果完成 uri 匹配，则会失败。
回调中的函数怎么样urlencode()，它们会是什么威慑或问题（就 URI 标准而言）？
编写全栈解析器会更安全吗？或者，对于每页处理多个不同条目的东西来说，开发和使用这样的东西所需的时间和处理能力是否太重了？

我知道我的示例是众多示例之一，并且比某些示例更具体。但是，不要逃避提供自己的。 因此，我正在寻找文本解析情况下 XSS 保护的原则和最佳实践以及一般建议。

regex xss markup text-parsing bbcode

2009-04-09T14:58:54.700

0 投票

6 回答

10046 浏览