我知道我可以使用 randomSplit 方法进行随机拆分:
val splittedData: Array[Dataset[Row]] =
preparedData.randomSplit(Array(0.5, 0.3, 0.2))
我可以使用一些“nonRandomSplit 方法”将数据分成连续的部分吗?
Apache Spark 2.0.1。提前致谢。
UPD:数据顺序很重要,我将在“较小 ID”的数据上训练我的模型,并在“较大 ID”的数据上对其进行测试。所以我想把数据分成连续的部分而不用改组。
例如
my dataset = (0,1,2,3,4,5,6,7,8,9)
desired splitting = (0.8, 0.2)
splitting = (0,1,2,3,4,5,6,7), (8,9)
我能想到的唯一解决方案是使用count和limit,但可能有更好的解决方案。