问题标签 [text-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
1222 浏览

ms-access - 解析的最佳文件格式是什么?

场景:我正在开发一个 Rails 应用程序,它将以上传的基于文本的文件的形式输入数据。我需要在导入数据之前解析这些文件。我可以选择上传到应用程序的文件类型;上传者使用的软件(Microsoft Access)有几个关于文件类型的导出选项。

虽然它可能微不足道,但我想知道是否存在最有效解析的特定文件类型。我相信这个问题可以被视为与语言无关。

(虽然 XML 通常被解析,但对于这个项目来说,它不是一种可行的文件类型。)

0 投票
2 回答
1667 浏览

parsing - 帮助解析日志文件 (ANTLR3)

我需要一些指导来编写语法来解析游戏 Aion 的日志文件。我决定使用 Antlr3(因为它似乎是一个可以完成这项工作的工具,而且我认为学习使用它对我有好处)。但是,我遇到了问题,因为日志文件的结构不完全。

我需要解析的日志文件如下所示:

如您所见,大多数行都以时间戳开头,但也有例外。我想在 Antlr3 中做的是编写一个解析器,它只使用以时间戳开头的行,同时默默地丢弃其他行。

这是我到目前为止所写的(我是这些东西的初学者,所以请不要笑:D)

因此,我需要一个示例,说明如何在不为没有时间戳的行生成错误的情况下对其进行解析。

谢谢!

0 投票
4 回答
247 浏览

c# - C#中的正则表达式

我有这样的文字。

@@MMIVLoader@ProductVer@4.1.2@BCM_7400S_LE@Product@2009 年 8 月 21 日@@@
MMIVLib@ObjectVer@4.1.2@BCM_7400S_LE@Product@2009 年 8 月 21 日@@@
HuaweFGDLDrv@ObjectVer@01.00.09@7324@PRODUCT@ 2009 年 8 月 20 日@@@
ProtectVer@ObjectVer@127.8.1 @BCM_SDE5.03@PRODUCT@2009 年 8 月 4 日
06:56:19@@@KernelSw@ObjectVer@0.0.1@BCM-7454@PRODUCT@ 2007 年 12 月 19 日
@@ @ReceiverSw@ObjectVer@E.5.6.001@HWBC01ZS@PRODUCT@2010 年 5 月 3 日@

我想把输出放在一个数组中

任何人都可以建议我如何使用正则表达式在 c# 中执行此操作,或者是否有任何复杂的方法来执行此操作

提前致谢

0 投票
2 回答
351 浏览

c# - 文本解析 - 我的解析器跳过命令

我正在尝试解析文本格式。`我想用反引号 ( )标记内联代码,就像 SO 一样。规则应该是,如果你想在内联代码元素内使用反引号,你应该在内联代码周围使用双反引号。

像这样:

``用反引号(`)标记内联代码``

由于某种原因,我的解析器似乎完全跳过了双反引号。下面是执行内联代码解析的函数的代码:

如果我在某些东西周围使用单个反引号,它会<code>正确地将其包装在标签中。

0 投票
3 回答
1070 浏览

php - 解析格式化的字符串——隔离带引号的子字符串和花括号的 UUID

我正在尝试使用其唯一标识符解析操作系统实例列表。我正在寻找一种解析文本字符串并将值传递给两个变量的解决方案。要解析的字符串如下:

0 投票
2 回答
95 浏览

c - 如何在C中以某种方式从文件中获取输入

假设数据为 123 134 2312 32131 2131231 211212

它应该将它们作为不同的数字并将它们存储在一个整数数组中。

0 投票
4 回答
11609 浏览

java - 从字符串中获取所有字符及其编号

如何在 Java 中获取出现在字符串中的所有字符的列表,以及它们的出现次数?假设我们有一个字符串“我现在真的很忙”,所以我应该得到:

i-2、a-2、r-2、m-1 等。

0 投票
2 回答
318 浏览

text-parsing - 代码/方法高尔夫:在文本文件中查找具有太多列的行

给定一个文本文件,它应该包含 10 个制表符分隔的列(即 9 个制表符),我想找到所有列超过 10 个(超过 9 个制表符)的行。每行以 CR-LF 结尾。

除了上述之外,对数据、字段宽度等不做任何假设。

关于方法和/或工作代码的评论将不胜感激。打印违规行的行号的奖励也是如此。

提前致谢!

编辑,正如评论者所指出的(谢谢!),您可以假设数据不包含制表符或 CRLF。

0 投票
1 回答
428 浏览

c# - 解析自定义标签以获取属性以进行数据解析

嗨,我正在寻找清理标签或至少从文本中的自定义标签中获取数据的最佳实践或想法。

我确信我可以编写某种“解析器”,它会手动遍历每一行,但今天不是有一些更聪明的方法吗?

数据思路:

{电话:555-123456789}

在这里,我们将“电话”作为键,将数字作为数据。看起来很像 JSON 格式,但它更容易为人类编写。

或者

也可以是普通的 (X)HTML:

人类并不总是很好地“修剪”他们的输入,也不是用懒惰的所见即所得编辑器制作的旧网站,所以我首先需要弄清楚哪些对属于一起,然后在找到“内部数据”之后修剪结果。

问题出在上面的“标题”部分,标题文本周围没有“”,因此它可以自动添加它们或向人类显示错误。

关于如何以最佳方式获取这些数据的任何想法?似乎有几种方法可能有效,但您解决这个问题的最佳方法是什么?

0 投票
2 回答
2338 浏览

java - 从字符串中解析值

您将如何解析字符串中的值,例如下面的字符串?

数字之间的差距各不相同,第一个值是时间。以下正则表达式不分隔时间组件:

有什么建议么?