scala - Scala：getLines 的错误？

Question

我在 scala 中遇到了一个非常简单的文件使用问题，我不明白这是由于错误还是对我正在做的事情的误解……甚至可以从 scala/eclipse IDE 中的工作表中重现。我使用的是 IDE4.6.1 和 scala 2.12.2 代码非常简单：

//********************************
import scala.io.Source
import java.io.File
import java.io.PrintWriter

object Embed {

  val filename = "proteins.csv"
  val handler = Source.fromFile(filename)

  val header:String = handler.getLines().next()
  println (">"+header)
  val header2:String = handler.getLines().next()
  println (">"+header2)

  val header3:String = handler.getLines().next()
  println (">"+header3)
}
//**********************

文件的前 3 行有点长，对非生物专家来说毫无意义：

Protein Group,Protein ID,Accession,Significance,Coverage (%),#Peptides,#Unique,PTM,Cond_A Intensity,Cond_B Intensity,Cond_C Intensity,Cond_D Intensity,Sample Profile (Ratio),Group 1 Intensity,Group 2 Intensity,Group 3 Intensity,Group 4 Intensity,Group Profile (Ratio),Avg. Mass,Description
261,247,P0AFG4|ODO1_ECOL6,200.00,39,30,30,Carbamidomethylation; Deamidation (NQ); Oxidation (M),1.7E5,9.87E4,5.51E4,3.09E4,3.09:1.79:1.00:0.56,1.7E5,9.87E4,5.51E4,3.09E4,3.09:1.79:1.00:0.56,105062,2-oxoglutarate dehydrogenase E1 component OS=Escherichia coli O6:H1 (strain CFT073 / ATCC 700928 / UPEC) GN=sucA PE=3 SV=1
287,657,B7NDL4|MDH_ECOLU,200.00,54,14,1,Carbamidomethylation; Deamidation (NQ); Oxidation (M),6.27E4,4.14E4,1.81E4,1.28E4,3.47:2.29:1.00:0.71,6.27E4,4.14E4,1.81E4,1.28E4,3.47:2.29:1.00:0.71,32336,Malate dehydrogenase OS=Escherichia coli O17:K52:H18 (strain UMN026 / ExPEC) GN=mdh PE=3 SV=1

我不会详细介绍这个文件，但它是一个 3600 行的文件，每个包含 20 个字段，用逗号分隔和一个 '' 行尾。第一行是标题。我也尝试了仅且仅具有相同的结果：第一行被正确读取，但第二行读取只是文件中第 8 行的最后一部分，依此类推，然后我无法读取/解析我的文件：

以下是我得到的结果

   val filename = "proteins.csv"
                                                  //> filename  : String = proteins.csv
  val handler = Source.fromFile(filename)         //> handler  : scala.io.BufferedSource = non-empty iterator

  val header:String = handler.getLines().next()   //> header  : String = Protein Group,Protein ID,Accession,Significance,Coverage 
                                                  //| (%),#Peptides,#Unique,PTM,Cond_A Intensity,Cond_B Intensity,Cond_C Intensity
                                                  //| ,Cond_D Intensity,Sample Profile (Ratio),Group 1 Intensity,Group 2 Intensity
                                                  //| ,Group 3 Intensity,Group 4 Intensity,Group Profile (Ratio),Avg. Mass,Descrip
                                                  //| tion
  println (">"+header)                            //> >Protein Group,Protein ID,Accession,Significance,Coverage (%),#Peptides,#Uni
                                                  //| que,PTM,Cond_A Intensity,Cond_B Intensity,Cond_C Intensity,Cond_D Intensity,
                                                  //| Sample Profile (Ratio),Group 1 Intensity,Group 2 Intensity,Group 3 Intensity
                                                  //| ,Group 4 Intensity,Group Profile (Ratio),Avg. Mass,Description
  val header2:String = handler.getLines().next()  //> header2  : String = TCC 700928 / UPEC) GN=fumA PE=3 SV=2
  println (">"+header2)                           //> >TCC 700928 / UPEC) GN=fumA PE=3 SV=2

  val header3:String = handler.getLines().next()  //> header3  : String = n SE11) GN=zapB PE=3 SV=1
  println (">"+header3)                           //> >n SE11) GN=zapB PE=3 SV=1

一个想法我做错了什么？非常感谢您的帮助不急：这是尝试使用 scala 的一部分，我现在将回到 Python 来完成这项工作！

score 1 · Accepted Answer

如果我理解正确，问题是每次打电话handler.getLines()时都会收到一个Iterator[String]默认指向 CSV 文件第一行的新对象。你应该尝试这样的事情：

val lineIterator = Source.fromFile("proteins.csv").getLines() // Get the iterator object
val firstLine = lineIterator.next()
val secondLine = lineIterator.next()
val thirdLine = lineIterator.next()

或这个：

val lines = Source.fromFile("proteins.csv").getLines().toIndexedSeq // Convert iterator to the list of lines
val n = 2
val nLine = lines(n)
println(nLine)

score 1 · Accepted Answer

你的错误是你已经调用了三次， 即被handler.getLines()实例化了三次，每次调用都意味着每个实例都试图从同一个源读取。这就是你得到随机输出的原因BufferedLineIteratornext

正确的方法是只创建一个实例handler.getLines()并调用next它

val linesIterator = handler.getLines()

val header:String = linesIterator.next()
println (">"+header)
val header2:String = linesIterator.next()
println (">"+header2)

val header3:String = linesIterator.next()
println (">"+header3)

next()更准确地说，你甚至不需要打电话

for(lines <- handler.getLines()){
  println(">"+lines)
}

scala - Scala：getLines 的错误？

2 回答 2

Related

Reference