scala - 如何在 Spark 结构化流中包含 kafka 时间戳值作为列？

Question

我正在寻找将 kafka 的时间戳值添加到我的 Spark 结构化流模式的解决方案。我已经从 kafka 中提取了 value 字段并制作了数据框。我的问题是，我还需要获取时间戳字段（来自 kafka）以及其他列。

这是我当前的代码：

val kafkaDatademostr = spark
  .readStream 
  .format("kafka")
  .option("kafka.bootstrap.servers","zzzz.xxx.xxx.xxx.com:9002")
  .option("subscribe","csvstream")
  .load

val interval = kafkaDatademostr.select(col("value").cast("string")).alias("csv")
  .select("csv.*")

val xmlData = interval.selectExpr("split(value,',')[0] as ddd" ,
    "split(value,',')[1] as DFW",
    "split(value,',')[2] as DTG",
    "split(value,',')[3] as CDF",
    "split(value,',')[4] as DFO",
    "split(value,',')[5] as SAD",
    "split(value,',')[6] as DER",
    "split(value,',')[7] as time_for",
    "split(value,',')[8] as fort")

如何从 kafka 获取时间戳并与其他列一起添加为列？

score 2 · Accepted Answer

时间戳包含在源模式中。只需添加一个“选择时间戳”即可获得如下所示的时间戳。

val interval = kafkaDatademostr.select(col("value").cast("string").alias("csv"), col("timestamp")).select("csv.*", "timestamp")

score 1 · Accepted Answer

在 Apache Spark 官方网页您可以找到指南：Structured Streaming + Kafka 集成指南（Kafka 代理版本 0.10.0 或更高版本）

在那里，您可以找到有关从 Kafka 加载的 DataFrame 架构的信息。

来自 Kafka 源的每一行都有以下列：

key - 消息键
value - 消息值
topic - 命名消息主题
partition - 该消息来自的分区
offset - 消息的偏移量
时间戳 - 时间戳
timestampType 时间戳类型

以上所有列均可查询。在您的示例中，您只使用value，因此只需添加timestamp到您的 select 语句中即可获取时间戳：

  val allFields = kafkaDatademostr.selectExpr(
    s"CAST(value AS STRING) AS csv",
    s"CAST(key AS STRING) AS key",
    s"topic as topic",
    s"partition as partition",
    s"offset as offset",
    s"timestamp as timestamp",
    s"timestampType as timestampType"
  )

score 0 · Accepted Answer

就我的 Kafka 而言，我收到的是 JSON 格式的值。其中包含实际数据以及原始事件时间而不是 kafka 时间戳。下面是架构。

val mySchema = StructType(Array(
      StructField("time", LongType),
      StructField("close", DoubleType)
    ))

为了使用Spark Structured Streaming 的水印功能，我必须将时间字段转换为时间戳格式。

val df1 = df.selectExpr("CAST(value AS STRING)").as[(String)]
      .select(from_json($"value", mySchema).as("data"))
      .select(col("data.time").cast("timestamp").alias("time"),col("data.close"))

现在您可以将时间字段用于窗口操作以及水印目的。

import spark.implicits._
val windowedData = df1.withWatermark("time","1 minute")
                      .groupBy(
                          window(col("time"), "1 minute", "30 seconds"),
                          $"close"
                      ).count()

我希望这个答案能澄清。

scala - 如何在 Spark 结构化流中包含 kafka 时间戳值作为列？

3 回答 3

Related

Reference