问题标签 [hadoop2.7.3]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1027 浏览

java - Hadoop 异常。

我正在尝试运行 hadoop 的字数问题,因为这是我第一次使用它。我已经使用视频按照说明进行操作,甚至在运行程序之前阅读了很多内容。
但是我在运行hadoop时仍然遇到了异常。这是例外,我得到了:

现在我不明白如何解决这个问题。我已经尝试了互联网上与之相关的每个链接,但没有用。
我目前使用的是 Ubuntu 16.04 OS 和 Hadoop 2.7.3
我的 Java 版本是:

希望听到此异常的解决方案。

0 投票
0 回答
98 浏览

java - 有疑问的常见爬取示例

我正在尝试运行一个常见的爬网示例并从 Warc 文件中提取 URL 和电子邮件。我只有一个疑问。无论我提取的电子邮件属于 URL 还是其他网站,这都是一个令人困惑的部分。
请帮助我。我该如何解决这种困惑?
我所做的是:使用 WordCount 的常见抓取示例,我设置了一个它来提取 url,然后发送电子邮件。提取后它将存储在一个文件中。

这就是提取的简单逻辑。但是我想知道我怎么能相信找到的URL和找到的电子邮件是相互对应的?

0 投票
1 回答
6197 浏览

java - Hadoop 2.7.3 Java 运行时错误 - 找不到 core-site.xml

运行时hdfs dfs -mkdir /abc出现以下错误。

我的 core-site.xml 的路径是 /usr/local/hadoop/etc/hadoop/core-site.xml。

如何修复此错误?

0 投票
1 回答
2365 浏览

hadoop - datanode Hadoop 2.7.3 单节点报错(伪分布式模式)

我对 hadoop 很陌生,我已经回答了我之前的问题,但是评论部分太短了,我无法显示我的日志文件。 这是我以前的问题。谁能帮我在这个日志文件中找到错误?我将不胜感激。谢谢你。

0 投票
1 回答
29 浏览

linux - Hadoop 2.7.3 未在离线模式下运行

我在 ubuntu 16.04 上运行 hadoop 2.7.3 单节点......但它不能在离线模式下工作.. 问题是否在 /etc/hosts 文件中,因为我试图编辑它,使其成为一个多节点集群.. .

0 投票
1 回答
1301 浏览

hadoop - 一些数据节点在清除 HDFS 后仍然显示使用的块池

Hadoop 版本:2.7.3 数据节点:32 块大小:512m 复制:3

我使用命令清除了 HDFS 中的所有数据 hdfs dfs -rm -r /*

清除 HDFS 集群后,很少有数据节点仍然显示Block pool used,尽管块为零。

hdfs webui的截图 在此处输入图像描述

的输出hdfs fsck /如下

我知道块删除是异步过程,但是Block Pool Used未设置为 0 的数据节点需要花费大量时间来释放块。谁能帮我弄清楚,为什么在这些服务器上,块删除很慢,或者任何其他问题,因为这些块正在被使用。

0 投票
2 回答
668 浏览

hadoop2.7.3 - 无法启动 Namenode、Secondary Namenode 和 Datanode

我已经在VirtualBox上安装了Hadoop-2.7.3

./start-all.sh当我在终端中键入命令时, Namenode, Secondary Namenode&Datanode没有启动。下面是错误截图。请为此问题提出一些解决方案。

错误我正在进入我的终端窗口。

我在终端窗口上看到的错误。

0 投票
0 回答
1009 浏览

java - Spark 应用程序不写入 s3 存储桶

问题是:

我有 spark 应用程序,它无法将数据写入 s3。读书就好。

火花配置:

写结构是:

例外是:

这意味着,火花无法在目标文件系统上找到模板文件夹。

当前的hadoop版本:2.7.3

爪哇 8

在 Hadoop 2.8.1 上 - 一切正常。但是 AWS EMR 暂时不支持 hadoop 2.8.* 版本。

0 投票
1 回答
818 浏览

sqoop - 在 Hadoop 2.7.3 上执行简单 SQOOP 导入命令时出现 Sqoop 错误

我正在使用 Hadoop-2.7.3 运行 Sqoop 1.4。并且还使用 MySQL 5.7 作为 Hive-2.1.1 的元存储。当运行任何 Sqoop eval 命令或 HDFS 操作时,它工作正常。但是当将数据从 MySQL 导入 HDFS 时,会产生以下错误。在某些时候,它显示如下:

“容器 [pid=8424,containerID=container_1522677715514_0003_01_000002] 的运行超出了虚拟内存限制。当前使用情况:已使用 109.8 MB 的 1 GB 物理内存;已使用 2.1 GB 的 2.1 GB 虚拟内存。正在杀死容器。”

但是我已经为我的 VM 分配了 8Gb 内存,并且 VM HardDisk 中还有 23 GB 的可用空间。我要导入的数据是 3 行,例如:

Sow 怎么会占用我的 2.1 GB 虚拟内存?我该如何解决这个问题?

这是从 Sqoop 导入命令生成的日志。

0 投票
1 回答
1233 浏览

java - apache spark2.3.0 使用 master 作为纱线启动时,失败并出现错误找不到或加载主类 org.apache.spark.deploy.yarn.ApplicationMaster

我已经安装Apache Hadoop 2.7.5Apache Spark 2.3.0.
当我提交我的工作时,--master local[*]它运行良好。但是当我--master yarn从网络日志中运行错误时说

这是我正在触发的命令:

控制台显示:

诊断书内容如下:

当我单击日志以获取详细信息时:

这是我的 spark-defaults.conf:

我的 spark-env.sh:

还有我的yarn-site.xml:

我已经复制spark-yarn_2.11-2.3.0.jar/opt/hadoop-2.7.5/share/hadoop/yarn/*.
我浏览了几个stackoverflow解决方案,其中提到了传递,--conf "spark.driver.extraJavaOptions=-Diop.version=4.1.0.0"但它不适用于我的情况。
一些解决方案说缺少日志罐子,但我不确定哪个罐子。我是否缺少任何配置?