问题标签 [hadoop2.7.3]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoop 异常。
我正在尝试运行 hadoop 的字数问题,因为这是我第一次使用它。我已经使用视频按照说明进行操作,甚至在运行程序之前阅读了很多内容。
但是我在运行hadoop时仍然遇到了异常。这是例外,我得到了:
现在我不明白如何解决这个问题。我已经尝试了互联网上与之相关的每个链接,但没有用。
我目前使用的是 Ubuntu 16.04 OS 和 Hadoop 2.7.3
我的 Java 版本是:
希望听到此异常的解决方案。
java - 有疑问的常见爬取示例
我正在尝试运行一个常见的爬网示例并从 Warc 文件中提取 URL 和电子邮件。我只有一个疑问。无论我提取的电子邮件属于 URL 还是其他网站,这都是一个令人困惑的部分。
请帮助我。我该如何解决这种困惑?
我所做的是:使用 WordCount 的常见抓取示例,我设置了一个它来提取 url,然后发送电子邮件。提取后它将存储在一个文件中。
这就是提取的简单逻辑。但是我想知道我怎么能相信找到的URL和找到的电子邮件是相互对应的?
java - Hadoop 2.7.3 Java 运行时错误 - 找不到 core-site.xml
运行时hdfs dfs -mkdir /abc
出现以下错误。
我的 core-site.xml 的路径是 /usr/local/hadoop/etc/hadoop/core-site.xml。
如何修复此错误?
hadoop - datanode Hadoop 2.7.3 单节点报错(伪分布式模式)
我对 hadoop 很陌生,我已经回答了我之前的问题,但是评论部分太短了,我无法显示我的日志文件。 这是我以前的问题。谁能帮我在这个日志文件中找到错误?我将不胜感激。谢谢你。
linux - Hadoop 2.7.3 未在离线模式下运行
我在 ubuntu 16.04 上运行 hadoop 2.7.3 单节点......但它不能在离线模式下工作.. 问题是否在 /etc/hosts 文件中,因为我试图编辑它,使其成为一个多节点集群.. .
hadoop2.7.3 - 无法启动 Namenode、Secondary Namenode 和 Datanode
我已经在VirtualBox上安装了Hadoop-2.7.3。
./start-all.sh
当我在终端中键入命令时, Namenode
, Secondary Namenode
&Datanode
没有启动。下面是错误截图。请为此问题提出一些解决方案。
错误我正在进入我的终端窗口。
java - Spark 应用程序不写入 s3 存储桶
问题是:
我有 spark 应用程序,它无法将数据写入 s3。读书就好。
火花配置:
写结构是:
例外是:
这意味着,火花无法在目标文件系统上找到模板文件夹。
当前的hadoop版本:2.7.3
爪哇 8
在 Hadoop 2.8.1 上 - 一切正常。但是 AWS EMR 暂时不支持 hadoop 2.8.* 版本。
sqoop - 在 Hadoop 2.7.3 上执行简单 SQOOP 导入命令时出现 Sqoop 错误
我正在使用 Hadoop-2.7.3 运行 Sqoop 1.4。并且还使用 MySQL 5.7 作为 Hive-2.1.1 的元存储。当运行任何 Sqoop eval 命令或 HDFS 操作时,它工作正常。但是当将数据从 MySQL 导入 HDFS 时,会产生以下错误。在某些时候,它显示如下:
“容器 [pid=8424,containerID=container_1522677715514_0003_01_000002] 的运行超出了虚拟内存限制。当前使用情况:已使用 109.8 MB 的 1 GB 物理内存;已使用 2.1 GB 的 2.1 GB 虚拟内存。正在杀死容器。”
但是我已经为我的 VM 分配了 8Gb 内存,并且 VM HardDisk 中还有 23 GB 的可用空间。我要导入的数据是 3 行,例如:
Sow 怎么会占用我的 2.1 GB 虚拟内存?我该如何解决这个问题?
这是从 Sqoop 导入命令生成的日志。
java - apache spark2.3.0 使用 master 作为纱线启动时,失败并出现错误找不到或加载主类 org.apache.spark.deploy.yarn.ApplicationMaster
我已经安装Apache Hadoop 2.7.5
和Apache Spark 2.3.0
.
当我提交我的工作时,--master local[*]
它运行良好。但是当我--master yarn
从网络日志中运行错误时说
这是我正在触发的命令:
控制台显示:
诊断书内容如下:
当我单击日志以获取详细信息时:
这是我的 spark-defaults.conf:
我的 spark-env.sh:
还有我的yarn-site.xml:
我已经复制spark-yarn_2.11-2.3.0.jar
到/opt/hadoop-2.7.5/share/hadoop/yarn/*
.
我浏览了几个stackoverflow解决方案,其中提到了传递,--conf "spark.driver.extraJavaOptions=-Diop.version=4.1.0.0"
但它不适用于我的情况。
一些解决方案说缺少日志罐子,但我不确定哪个罐子。我是否缺少任何配置?