问题标签 [fileparsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ruby - 在 Ruby 中解析文件时跳过行的最快方法?
我试图搜索这个,但找不到太多。这似乎是以前可能被问过的问题(很多次?),所以如果是这样的话,我很抱歉。
我想知道在 Ruby 中解析文件某些部分的最快方法是什么。例如,假设我知道我想要的特定函数的信息位于 1000 行文件的第 500 行和第 600 行之间。(显然这种问题是针对很多大文件的,我只是使用那些较小的数字来举例),因为我知道它不会在上半年,有没有一种快速的方法来忽略这些信息?
目前我正在使用以下内容:
它有效,但我不禁认为它可以更好地工作。
我对 Ruby 非常陌生,并且有兴趣在其中学习新的做事方式。
java - 如何解析类似 INI(或类似 XML)的文件但带有结束部分标记?
我需要以这种格式粘贴一个文本文件:
每个部分有 1 个开始标签和 1 个结束标签;这些部分可以嵌套,但不能交错;该文件可能很大,无法在内存中整体读取。
问题:解析此类文件的最简单方法是什么(任何要使用的开源库)?
c - 使用 strtok 时如何跳过输入文件中的空行?
我想使用 strtok 传递文件的行;这些值以逗号分隔。然而,strtok 也会读取只包含空格的空行。在这种情况下不应该返回一个空指针吗?
我怎么能忽略这样的一行?我试图检查NULL,但如上所述它不起作用。
ruby - 是否有 Ruby 文件解析问题/谜题列表
我今天遇到了这个文件解析编程挑战,发现它很有趣。大约 6 个月前,我还参加了一次面试,那里还给了我一个 txt 文件,必须用逻辑对其进行解析才能获得所需的结果。我想找到更多这样的问题。
Ruby 面试类型的问题/谜题有哪些好的资源?
java - 在 Java 中检查具有 500 万行的文件中的唯一行数据
我有一个大文件,其中一行像ID|VALUE
一次通过。
在 ID 重复的情况下,必须忽略行。
如何有效地进行这种检查?
补充:ID 很长(8 个字节)。我需要一个使用最少内存的解决方案。
谢谢你们的帮助。我现在能够增加堆空间并使用 Set。
python - python - 如何在python中将具有换行符和制表符的文件读入字符串?
我正在尝试读取具有制表符和换行符等的文件,并且数据是 JSON 格式。
当我使用file.read()
/readlines()
等阅读它时,所有的换行符和制表符也会被读取。
我试过rstrip()
,分裂等但徒劳无功,也许我错过了一些东西:
这基本上是我正在做的事情:
这是数据(包括原始选项卡,因此格式很差):
我想知道我们是否可以优雅地忽略它。
也希望能用json.dumps()
java - 如果 csv 文件具有空值并且我们需要与上列对应的数据,如何使用逗号分隔它?
我的代码是
但我需要与前一列分析物代码相对应的分析物结果......因为它也可能为空......所以它会消失所有逗号并且不解析与前一列分析物代码相对应的结果。
command-line - 解析和修改文件的最佳(最快)方法
最近我一直在使用很多 10-60k 行的文本文件(csv),像这样
大多数时候,我需要以数组的形式提取这些信息:
或者有时,独特的元素数组:
然后我的代码(java)使用结果来做某事。
现在,大多数时候我编写一个 java 函数来为我完成任务,从文件读取、逻辑然后返回 Id 列表。
有没有更好更快的方法来实现这一点,也许是通过命令行?
更新:
如果我被要求构建一个应该读取文件并对其执行某些操作的应用程序,我肯定会用 Java 编写该逻辑,但就我而言,我必须检查从数据仓库中获取的大量文本文件,从中提取相关信息,然后在我的基于 java 的应用程序上运行它。
现在,这仅用于我的应用程序的实验和评估。
c - 在文件中搜索行时使用哪种方法
我有一个带有文件路径名的文件:
文件结构是它在每一行中都有单独的路径。我要做的就是/my/path1
多次搜索上述文件中是否存在字符串或任何其他内容
我可以想到2种方法。
每次逐行获取文件内容然后搜索字符串。优点是文件可以是任意大小,我不需要担心缓冲区溢出。
将内容加载到缓冲区并使用缓冲区进行搜索。但由于我无法控制文件大小,我在这里应该小心。
最好的方法是什么?我在 unix 工作。我可以为此目的使用 C 中的任何内置库命令吗?或者我如何使用awk
C 代码完成相同的任务。
file-type - 关于格式错误的文件
假设您开始查看一个 XML 文件,您对其进行解析并确认它实际上是一个 XML 文件。生活很好。
然后有人删除了>
文件中的某个位置,从解析器的角度来看,这实际上使该文件成为格式错误的 XML。就它而言,该文件不再是格式正确的 XML 文件。
有没有一种方法可以确认该文件实际上仍然是一个 XML 文件,尽管它是一个格式错误的文件?
这个问题超出了 XML(显然)。如何得出一个文件“可能属于某种类型”的结论,而不是“我无法解析它,因此它肯定不是某种类型”?