问题标签 [pyspark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3579 浏览

apache-spark - scala和python之间的API兼容性?

我已经阅读了十几页文档,似乎:

  1. 我可以跳过学习 scala 部分

  2. API 完全在 python 中实现(我不需要学习 scala 任何东西)

  3. 交互模式与 scala shell 一样完整和快速,故障排除同样容易

  4. 仍然会导入像 numpy 这样的 python 模块(没有残缺的 python 环境)

是否存在无法实现的空缺区域?

0 投票
20 回答
196083 浏览

python - 在 python shell 中导入 pyspark

这是另一个论坛上其他人的问题的副本,从未得到回答,所以我想我会在这里重新提问,因为我有同样的问题。(见http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736

我已经在我的机器上正确安装了 Spark,并且在使用 ./bin/pyspark 作为我的 python 解释器时,能够使用 pyspark 模块运行 python 程序而不会出错。

但是,当我尝试运行常规 Python shell 时,当我尝试导入 pyspark 模块时,我收到此错误:

它说

我怎样才能解决这个问题?是否需要设置一个环境变量以将 Python 指向 pyspark 头文件/库/等?如果我的 spark 安装是 /spark/,我需要包含哪些 pyspark 路径?还是只能从 pyspark 解释器运行 pyspark 程序?

0 投票
6 回答
48440 浏览

python - PySpark 拖放行

如何从 PySpark 中的 RDD 中删除行?特别是第一行,因为它往往包含我的数据集中的列名。通过仔细阅读 API,我似乎找不到一种简单的方法来做到这一点。当然,我可以通过 Bash / HDFS 做到这一点,但我只想知道这是否可以在 PySpark 中完成。

0 投票
3 回答
62734 浏览

python - 为 pyspark 设置 SparkContext

我是spark和的新手pyspark。如果有人解释SparkContext参数的作用,我将不胜感激?我该如何设置spark_contextpython 应用程序?

0 投票
16 回答
151444 浏览

python - 如何在 Spark 中关闭 INFO 日志记录?

我使用 AWS EC2 指南安装了 Spark,我可以使用bin/pyspark脚本很好地启动程序以获取 spark 提示,还可以成功完成快速入门。

但是,我一生都无法弄清楚如何INFO在每个命令之后停止所有详细的日志记录。

我已经尝试了以下代码中几乎所有可能的场景(注释掉,设置为 OFF) ,在我启动应用程序的文件夹中log4j.propertiesconf文件中以及在每个节点上,并且什么都没有做任何事情。执行每个语句后,我仍然会INFO打印日志记录语句。

我对这应该如何工作感到非常困惑。

这是我使用时的完整类路径SPARK_PRINT_LAUNCH_COMMAND

火花命令:/Library/Java/JavaVirtualMachines/jdk1.8.0_05.jdk/Contents/Home/bin/java -cp :/root/spark-1.0.1-bin-hadoop2/conf:/root/spark-1.0.1 -bin-hadoop2/conf:/root/spark-1.0.1-bin-hadoop2/lib/spark-assembly-1.0.1-hadoop2.2.0.jar:/root/spark-1.0.1-bin-hadoop2/lib /datanucleus-api-jdo-3.2.1.jar:/root/spark-1.0.1-bin-hadoop2/lib/datanucleus-core-3.2.2.jar:/root/spark-1.0.1-bin-hadoop2 /lib/datanucleus-rdbms-3.2.1.jar -XX:MaxPermSize=128m -Djava.library.path= -Xms512m -Xmx512m org.apache.spark.deploy.SparkSubmit spark-shell --class org.apache.spark。 repl.Main

内容spark-env.sh

0 投票
3 回答
49060 浏览

python - 在 Spark 中将简单的单行字符串转换为 RDD

我有一条简单的线:

我想将它转换为只有一个元素的 RDD。我努力了

但它得到:

有任何想法吗?

0 投票
2 回答
3783 浏览

apache-spark - 如何在 Apache Spark 中聚合数据

我在 3 个节点上有一个分布式系统,我的数据分布在这些节点之间。例如,我有一个test.csv文件存在于所有 3 个节点上,它包含 4 列

我想尝试聚合上述结果集。如何按idc1c2c3列聚合数据集并像这样输出?

我尝试了以下方法:

0 投票
1 回答
1623 浏览

apache-spark - 来自 NLTK 的 PySpark textblob 在地图 MissingCorpusError 中使用

我正在尝试在 PySpark 中实现文本预处理功能。我有亚马逊 EMR,我正在从引导脚本安装 Python 依赖项。这些依赖项之一是 textblob “python -m textblob.download_corpora”。然后我尝试在所有机器上本地使用它,没有任何问题。

但是当我尝试从 Spark 运行它时,我收到以下错误:

我正在尝试在同一用户下运行 Spark 和单节点脚本。有人知道什么可能是错的吗?

0 投票
3 回答
44574 浏览

python - spark-submit 和 pyspark 有什么区别?

如果我启动 pyspark 然后运行这个命令:

一切都很好。但是,如果我尝试通过命令行和 spark-submit 执行相同的操作,则会收到错误消息:

我的脚本:

为什么会这样?运行 pyspark 和运行 spark-submit 会导致这种分歧有什么区别?我怎样才能在 spark-submit 中完成这项工作?

编辑:我尝试从 bash shell 运行它,但pyspark my_script.py collapse ./data/我得到了同样的错误。唯一一切正常的时候是我在 python shell 中并导入脚本。

0 投票
4 回答
45483 浏览

scala - 如何在对 RDD 中找到最大值?

我有一个火花对 RDD (key, count) 如下

如何使用 spark scala API 找到计数最高的密钥?

编辑:对 RDD 的数据类型是 org.apache.spark.rdd.RDD[(String, Int)]