问题标签 [apache-spark-2.0]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 无法导入 org.apache.spark.sql.cassandra.CassandraSQLContext
我的路径中有 spark-cassandra-connector_2.11-2.0.0-M3.jar 但仍然无法导入 org.apache.spark.sql.cassandra.CassandraSQLContext。这是在其他一些包中吗?所有文档都指向这个包(或已弃用)。
谢谢
scala - Parsing json in spark
I was using json scala library to parse a json from a local drive in spark job :
But when i try to use the same parser by pointing to hdfs file location it doesnt work:
and gives me an error:
How can i use Json.parseFull library to get data from hdfs file location ?
Thanks
amazon-s3 - 是否有任何 google/aws 服务可以将数据从 google store 移动到 s3
在我的用例中,所有与谷歌相关的应用程序和广告数据生成都将存储在谷歌商店中。但我的处理引擎在 AWS 云上的 Spark 上运行。有人可以帮助我如何移动这个 GS 数据 S3 来处理。
先感谢您
streaming - Zeppelin 6.5 + 用于结构化流 2.0.2 的 Apache Kafka 连接器
我正在尝试运行一个 zeppelin 笔记本,其中包含带有 Kafka 连接器的 spark 结构化流示例。
这是我的环境:
这是我的飞艇笔记本中的代码:
这是我运行笔记本时遇到的错误:
import org.apache.spark.sql.functions.{explode, split} java.lang.ClassNotFoundException:找不到数据源:kafka。请在https://cwiki.apache.org/confluence/display/SPARK/Third+Party+Projects找到软件包 在 org.apache.spark.sql.execution.datasources.DataSource.lookupDataSource(DataSource.scala:148) 在 org.apache.spark.sql.execution.datasources.DataSource.providingClass$lzycompute(DataSource.scala:79) 在 org .apache.spark.sql.execution.datasources.DataSource.providingClass(DataSource.scala:79) 在 org.apache.spark.sql.execution.datasources.DataSource.sourceSchema(DataSource.scala:218) 在 org.apache.spark .sql.execution.datasources.DataSource.sourceInfo$lzycompute(DataSource.scala:80) at org.apache.spark.sql.execution.datasources.DataSource.sourceInfo(DataSource.scala:80) at org.apache.spark.sql .execution.streaming.StreamingRelation$.apply(StreamingRelation.scala:30) at org.apache.spark.sql.streaming.DataStreamReader.load(DataStreamReader.scala:124) ... 86 被忽略 原因:java.lang.ClassNotFoundException : 卡夫卡。DefaultSource 在 scala.reflect.internal.util.AbstractFileClassLoader.findClass(AbstractFileClassLoader.scala:62) 在 java.lang.ClassLoader.loadClass(ClassLoader.java:424) 在 java.lang.ClassLoader.loadClass(ClassLoader.java:357)在 org.apache.spark.sql.execution.datasources.DataSource$$anonfun$5$$anonfun$apply$1.apply(DataSource.scala:132) 在 org.apache.spark.sql.execution.datasources.DataSource$$anonfun $5$$anonfun$apply$1.apply(DataSource.scala:132) 在 scala.util.Try$.apply(Try.scala:192)132)在 org.apache.spark.sql.execution.datasources.DataSource$$anonfun$5$$anonfun$apply$1.apply(DataSource.scala:132) 在 scala.util.Try$.apply(Try.scala:192 )132)在 org.apache.spark.sql.execution.datasources.DataSource$$anonfun$5$$anonfun$apply$1.apply(DataSource.scala:132) 在 scala.util.Try$.apply(Try.scala:192 )
任何帮助建议将不胜感激。
谢谢
apache-spark - 将 DAG 转换为任务的巨大延迟
这是我的步骤:
- 将 spark 应用程序提交到 EMR 集群
- 驱动程序启动,我可以看到 Spark-ui(尚未创建任何阶段)
- 驱动程序从 s3 中读取约 3000 个部分的 orc 文件,进行一些转换并将其保存回 s3
- 保存的执行应该在 spark-ui 中创建一些阶段,但是这些阶段需要很长时间才能出现在 spark-ui 中
- 阶段出现并开始执行
为什么我在第 4 步中会出现如此大的延迟?在此期间,集群显然在等待某些东西,CPU 使用率为 0%
谢谢
apache-spark - 如何对多个 Spark 作业并行执行多个 Kafka 主题
如果这个问题没有意义,请原谅,因为我刚刚开始使用 Spark 并试图理解它。
根据我的阅读,Spark 是对流数据进行实时分析的一个很好的用例,然后可以将其推送到下游接收器,例如 hdfs/hive/hbase 等。
我有两个问题。我不清楚在任何给定时间是否只有 1 个 spark 流作业正在运行或多个。假设我需要对来自 Kafka 的每个主题或流入 Kafka 的每个源执行不同的分析,然后将这些结果推送到下游。
Spark 是否允许您并行运行多个流作业,以便您可以为每个流(或在本例中为每个 Kafka 主题)保持单独的聚合分析。如果是这样,那是如何完成的,您可以指出我的任何文件吗?
需要明确的是,我的用例是从不同的来源进行流式传输,并且每个来源都可能具有我需要执行的不同分析以及不同的数据结构。我希望能够拥有多个 Kafka 主题和分区。我了解每个 Kafka 分区都映射到一个 Spark 分区,并且可以并行化。
不过,我不确定您如何并行运行多个 Spark 流作业,以便能够从多个 Kafka 主题中读取数据,并对这些主题/流进行单独的分析。
如果不是 Spark,这在 Flink 中可以做到吗?
其次,如何开始使用 Spark,似乎每个组件都有一个公司或发行版可供选择,Confluent-Kafka、Databricks-Spark、Hadoop-HW/CDH/MAPR。是否真的需要所有这些,或者在限制供应商数量的同时使用大数据管道的最小和最简单的方法是什么?甚至从 POC 开始似乎都是一项艰巨的任务。
java - Apache Spark 在 Jersey 依赖注入方面表现不佳
我正在尝试使用该com.github.sps.metrics.metrics-opentsdb
库将我的 spark 作业中的指标记录到我的 OpenTSDB 服务器。我遇到了一个问题,我在处理 EncodingFilters 的球衣代码中得到了一个奇怪的 NPE。
这是我得到的例外:
我查看了 EncodingFilter.class 中的代码,发现我失败的那一行是:
在课堂上,我看到 serviceLocator 没有实例化,而是在课堂顶部看到这一行:
我最初认为这可能是一个糟糕的依赖关系,所以我检查my mvn dependency:tree
并确保 cxf 和 jersey 项目的所有版本都匹配,所以我认为这不是问题所在。现在我认为它与 Apache Spark 有特殊关系,我认为这是因为我有一个使用相同metrics-opentsdb
库的单独应用程序,而且我从未看到上述异常,在我的其他应用程序中一切正常。
那么,有谁知道球衣依赖注入和火花发生了什么?有没有人处理过同样的问题并修复它?问题完全是别的吗?
apache-spark - 预构建 Spark 2.1.0 在启动 spark-shell 时创建 metastore_db 文件夹和 derby.log
我刚刚从 Spark 2.0.2 升级到 Spark 2.1.0(通过下载 Hadoop 2.7 及更高版本的预构建版本)。没有安装 Hive。
启动 spark-shell 时,会在启动位置创建metastore_db/
文件夹和derby.log
文件,以及一堆警告日志(在以前的版本中未打印)。
仔细检查调试日志显示 Spark 2.1.0 尝试初始化 a HiveMetastoreConnection
:
17/01/13 09:14:44 INFO HiveUtils: Initializing HiveMetastoreConnection version 1.2.1 using Spark classes.
Spark 2.0.2 的类似调试日志不显示任何HiveMetastoreConnection
.
这是预期的行为吗?这可能与spark.sql.warehouse.dir
现在会话之间共享的静态配置有关吗?由于我没有安装 Hive,如何避免这种情况?
提前致谢!
java - Spark无法序列化功能接口
你能帮我弄清楚为什么 Spark 无法序列化我的功能接口SerializablePredicate
吗?
导致异常的代码
MyKryoRegistrator.java
可序列化谓词
java - spark-sql - 使用嵌套查询过滤数据
我有巨大的 .csv 文件,其中有几列,但对我来说重要的列是 .csv USER_ID(User Identifier), DURATION(Duration of Call), TYPE(Incoming or Outgoing), DATE, NUMBER(Mobile No.)
。
所以我想做的是:将列中的所有null
值替换为.DURATION
average of duration of all the calls of same type by the same user(i.e. of same USER_ID)
我发现平均值如下:
在下面的查询中,我找出了同一用户所有相同类型的呼叫的平均持续时间。
filtersData.show() 给出:
在下面的查询中,我正在过滤数据并null
在步骤 2 中将所有出现的事件替换为 0。
filtersData2.show() 给出:
请帮助我将这两者结合起来或使用这两者来获得所需的结果。我是 Spark 和 SparkSQL 的新手。
谢谢。