问题标签 [cloudera]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 如何将 Cloudera Hadoop“vbox”VMDK 转换为 VirtualBox VDI
大家好:我正在尝试在 Virtual box 中运行 Cloudera Hadoop VM。
首先,我注意到下载的是一个 .vmdk 文件。当然,这个后缀是针对 VMWare 的,所以这有点奇怪。
幸运的是,我在这里找到了有关如何将 cloudera vmdk 转换为虚拟盒文件的教程:http ://www.ubuntugeek.com/howto-convert-vmware-image-to-virtualbox-image.html 。但是,当我尝试使用 convertdd 将 vmdk 文件转换为虚拟盒文件时,最终收到一条消息“无法写入磁盘映像“cdh.vdi”VERR_DISK_FULL”
所以我的问题是,如何在 vbox 中运行 Cloudera Hadoop VM?我在这里找到了一个站点http://www.facebook.com/note.php?note_id=108313592002,但它似乎不起作用(该站点建议将 VMDK 映像加载为新硬盘,但“新”硬盘在我的全新虚拟盒安装中未启用)。我的 VBox 磁盘管理器中只有“删除”和“刷新”选项。
从 VBOX 转换到 CDH 的输出
~/Development$ VBoxManage convertdd /tmp/vh.bin cdh.vdi 从原始图像 file="/tmp/vh.bin" 转换为 file="cdh.vdi"... 创建大小为 5475663872 字节 (5222MB) 的动态图像... VBoxManage:错误:无法写入磁盘映像“cdh.vdi”:VERR_DISK_FULL :~/Development$ ls
encryption - 使用 Hadoop 加密
Cloudera 文档说 Hadoop 不支持磁盘加密。是否可以在 Hadoop 中使用硬件加密硬盘驱动器?
hadoop - 50 个节点的 Cloudera CDH3 体积是多少
免费版仅支持有限的 50 个节点。如果我用10倍2T的硬盘做一台电脑。这意味着 10*2*50 = 1000T 我可以保存 1000T 数据,对吗?
谢谢
hadoop - 如何在 Cloudera 的 Hadoop+Pig 发行版中编译 UDF
我正在运行 Cloudera 的 VM (CH3)。我在我的文本编辑器中复制了一个简单的 UDF,但我不知道如何编译它以便能够在脚本中调用它。Pig UDF 手册http://pig.apache.org/docs/r0.7.0/udf.html说要构建 pig.jar,但是到 SVN 的链接已损坏:svn co http://svn.apache.org/回购/asf/hadoop/pig/trunk。有人可以告诉我他们是如何编译 UDF 的吗?谢谢你
hadoop - CDH(Cloudera Distribution for hadoop)是开源的吗?
CDH(Cloudera Distribution for hadoop)是开源使用还是商业化?
对此的任何投入都非常感谢。
hadoop - 使用 Kerberos 的 Hadoop Web 身份验证
我使用 kerberos 配置了 hadoop,一切正常,我可以浏览 hdfs,提交作业等。但是 http web 身份验证失败。
我在 cdh3u2 中使用 hadoop-0.20.2,它支持 HTTP SPNEGO。
core-site.xml中HTTP认证相关配置如下:
在启动过程中,http 认证成功。
查看代码后,我发现 AuthenticationFilter 在 doFilter 期间获取了空令牌,因此,身份验证开始(代码如下),但 httpservletrequest 中的授权为空,因此,每次我重新加载页面时,都会出现一个日志。
是否有任何配置错误,或者只是我的浏览器不支持 SPNEGO。我在 Ubuntu 11.04 中使用 Chrome v16。
有没有人有线索可以帮助我弄清楚?
谢谢。
bash - Hadoop作业配置文件规范
我有大约 10 个 Hadoop 作业流。我有一系列配置这些作业的 XML 文件,例如:
假设我有一个用于运行名为“com.my.project.RunClass”的作业的类让我们假设我使用以下命令运行我的作业:
我想用一些占位符替换段“/path/on/my/local/system”,例如:${root.conf.dir},这样我就可以运行类似的作业:
任何版本的 Hadoop 都可以做到这一点吗?我正在使用 Cloudera 发行版,似乎每次都失败。
sql-server - 将 SQL Server 连接到“NoSQL”数据库
我目前正在进行一项关于将 Microsoft SQL Server 连接到 nosql 数据库的商业智能研究。
我的目标是将数据从 nosql 表导入到基于 SQL Server 的关系 DWH。
我发现了以下方法:
- 微软 Hadoop 连接器
- Hadoop Cloudera
- 构建一个单独的脚本并创建一个 xml 并通过集成服务包含它(不是很令人满意)
如果有人以前做过类似的事情或知道某种“最佳实践”。使用哪种 NoSQL 系统并不重要
chef-infra - 如何将 Cloudera Flume 安装到 linux Gentoo (EngineYard)
询问是否有人知道通过 portage (emerge) 在 linux Gentoo EngineYard 实例上安装 Cloudera Flume 的一些选项
或厨师食谱来编译水槽。
谢谢!
hadoop - fs.http.address ip 更改后 cloudera vm hadoop Hive 失败
我使用 Cloudera VM (cdh3u2) 作为模拟分布式文件系统。为了从 Web 服务器执行文件创建和写入,我将 fs.http.address 属性更改为指向 VM IP。此功能运行良好。当 HIVE 执行 map reduce 工作时会出现问题
我得到的信息是:
Hive 执行以下 SQL(不需要 map reduce 作业)没有问题: