问题标签 [oozie]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Oozie 和 sqoop 配置问题
我正在尝试设置 oozie 和 sqoop 工作流程(我想将 mySql 数据备份到我的 hdfs 中)。但是当我尝试开始我的工作时,我被卡住了。
我正在使用 oozie 的最新版本 hadoop2(工作 hdfs 节点)。我在我的计算机上安装了 oozie 服务器(我想在部署之前对其进行测试),并在 oozie conf/ 上使用 hdfs 配置(core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml) haddop-conf 目录),以及我在服务器上的 hdfs。
我做了一个基本的工作流程(测试目的,我只是想看看 sqoop 是否工作)是这样的:
我将此工作流程放入我的 hdfs 中。我制作了一个 java 代码来开始我的工作:
在 Oozie 网络界面中,我可以看到我的工作正在运行
当我检查纱线网络界面时,我可以看到我的工作,但状态为 FAILED
我真的不知道出了什么问题。我需要你的建议。
谢谢~
hadoop - oozie不允许冒充oozie
我对oozie有点陌生。我在我的服务器上安装了(使用 cdh 存储库)oozie(我遵循了 CDH4 文档 [我的 hadoop 在 cdh4 中运行])。
我已经使用以下信息更新了我的 core-site.xml:
但是当我开始工作时:
我得到:
但是当我查看 oozie webconsole 时,我可以看到我的工作,但我的工作状态为“START_RETRY”,并出现以下错误
而且我没有任何日志.....我真的不知道出了什么问题..
我不明白为什么我不能开始工作?你能帮我解决这个问题吗?
java - Oozie 无法通过 Cloudera Manager 创建 MySQL 数据库:java.lang.ClassNotFoundException: com.mysql.jdbc.Driver
这让我完全难住了。我在 Amazon EC2 Ubuntu 实例上使用 Cloudera Manager 来启动带有 MySQL 的 Oozie。我尝试阅读有关 jdbc 和 MySQL 的所有其他问题,并在过去两天尝试了很多事情来尝试进行此设置,但仍然失败。每一个。时间。
我已经尝试将 mysql-connector-java-5.1.25-bin.jar 添加到几乎每个 /lib/ 用于 oozie 和 java 的文件夹中。它在以下几个地方:
但是,当我尝试使用 Cloudera Manager 在 oozie 中创建一个新数据库时,我遇到了以下问题:
这是我的 /etc/environment:
关于从这里去哪里的任何提示/指针?
hadoop - 如何找到运行pig作业的节点
我使用 oozie 运行了一个猪工作流程。作业已成功完成,但现在我想知道作业在哪个奴隶或主人上运行。我的输入文件是一个 1.4GB 的文件,分布在节点(1 个主节点和 2 个从节点)上。
而且我还想弄清楚猪在每个节点上执行了多少时间。
先感谢您
sql-server - Oozie Sqoop 工作
我正在尝试将 sqoop 作业作为 oozie 动作运行。我将 MySQL 作为 jobtracker 节点上的元存储。我在某处读到 oozie sqoop 无法通过导入创建配置单元表。所以我试图将数据转储到hdfs。那仍然是真的吗?
我检查了共享库。
我正在尝试从 MS SQL 数据库中进行 Sqoop。
当我运行不需要来自 shell 的元存储的 sqoop 命令时,它可以工作。
当我尝试将其作为 sqoop 操作运行时,出现此错误
工作流.xml
我认为这是主要原因。我在共享库目录 2285 [main] 错误 org.apache.sqoop.tool.BaseSqoopTool 中有库 - 创建数据库管理器时出错:java.io.IOException:连接字符串没有管理器:
我错过了什么吗?任何帮助表示赞赏。
谢谢, 阿布舍克
hadoop - 使用 oozie 协调器安排每月工作
你能帮我吗,可以用来安排一个 oozie 协调员工作在每个月的第一个星期一执行。
我知道我们有一个可以设置为 ${coord:months(1)} 的频率参数。但这不允许我将作业安排在一个月中特定一周的特定日期。希望我不会在这里使问题复杂化。
非常感谢任何帮助。
谢谢,赛义德
hadoop - 在旧数据集上启动 oozie 协调器
我如何安排 oozie 协调器仅在昨天的数据集输入可用后才运行今天的实例。它只需要检查一个输入数据集,该数据集必须是旧数据集,例如 1 天前或 2 天前的数据集。它不必等待今天的数据集输入。
我尝试过使用类似下面的东西,在这里我在实例标签中使用了 ${coord:current(-1)} 以便它可以检查昨天的数据,但这似乎不起作用。即使信号在昨天的日期不可用,作业也会在标称时间被解雇。
hadoop - 为 HA JobTracker 配置 oozie 工作流属性
使用 Oozie 工作流,您必须在工作流的属性中指定集群的 JobTracker。当您有一个 JobTracker 时,这很容易:
jobTracker=主机名:端口
当集群配置为 HA(高可用性)JobTracker 时,我需要能够设置我的属性文件以便能够访问任一 JobTracker 主机,而无需在 JobTracker 故障转移到时更新我的所有属性文件第二个节点。
通过 http 访问一个 JobTracker 时,如果它没有运行,它将重定向到另一个,但 oozie 不使用 http,因此没有重定向,如果属性文件指定了作业跟踪器主机,则会导致工作流失败没有运行。
如何配置我的属性文件以处理在 HA 中运行的 JobTracker?
hadoop - 从 oozie 的 Web UI 中删除作业?
Oozie 将在其 Web UI 中列出所有提交的作业,包括 RUNNING、KILLED、PREP 等。
有没有办法在不直接编辑 Metastore DB 的情况下从 oozie 的 Web UI 中删除作业?
hadoop - 通过 Oozie 命令行指定多个过滤条件
我正在尝试通过命令行搜索一些特定的 oozie 工作。
我对相同的使用以下语法
$ oozie jobs -filter status=RUNNING ;status=KILLED
但是该命令仅返回正在运行的作业而不是 KILLED 作业。需要帮助找出多个条件不起作用的原因(我期望 RUNNING 和 KILLED 作业的结果是 ORed如官方 oozie 文档中所述)
我在这里遗漏了一些明显的东西吗?请建议
版本:Oozie 客户端构建版本:2.3.2-cdh3u5