在 spark 1.6.1 中感谢这种方法 如何在 JAVA 中将 RDD 转换为 DStream?我能够从这样的文本文件创建排队流:
List<JavaRDD<String>> inputRdds = Arrays.stream(inputDirFile.listFiles((file) -> {
return file.getName().matches(properties.getInputFileRule());
})).map(file -> {
return sc().textFile(file.getAbsolutePath());
}).collect(Collectors.toList());
Queue<JavaRDD<String>> queue = new LinkedList<JavaRDD<String>>(inputRdds);
JavaDStream<String> inputForCheckpointAsStream = jsc().queueStream(queue, true);
像这样我得到了流,但每批只有一个文件。文件包含 JSON 数据。有没有办法在 spark2 中使用 SparkSession 和 Datasets 而不使用镶木地板文件来制作排队流(类似于上面的方法)?
sc()
是java spark上下文jsc()
是java流式上下文