问题标签 [qubole]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
175 浏览

hive - 插入覆盖不会删除所有旧数据文件

我们正在尝试插入覆盖配置单元表。大多数时候它会按预期覆盖,即删除任何旧文件并替换新文件。我们看到此行为存在一些不一致之处,有时所有旧文件都不会被删除,但会创建新文件。这导致数据不一致。

我无法重现此行为。只是想知道是否有人遇到过类似的问题或对可能发生的事情有任何指示。

我们使用的是 hive 版本 2.1.1。

下面是orc表结构和插入覆盖命令。Fileid 是表中的唯一列。该表大小约为 500GB。

Hive 表结构:

插入覆盖命令:-

0 投票
0 回答
43 浏览

qubole - sqlalchemy-qubole jdbc 错误所需的连接密钥:密码

这是我第一次通过 python 连接到 Qubole。

我可以按照以下示例直接使用 jaydebeapi 进行连接:this example,但是当按照pypiqubole指令使用 sqlalchemy-qubole 时,我收到有关缺少密码密钥的错误。我尝试将 API 密钥直接嵌入到连接字符串中并得到相同的错误,所以我假设这与我如何形成连接字符串无关。

代码:

错误信息:

0 投票
0 回答
109 浏览

pyspark - 如何在 Pyspark MLlib 模型中允许 NULL/NaN?

我们是否能够通过 pyspark mllib 管道允许缺失(特别是数字)值?

我通常在这里遵循 GBT 管道: https ://spark.apache.org/docs/latest/ml-classification-regression.html#gradient-boosted-tree-classifier

当我在管道之前 fillna() 一切正常,但是当我尝试让缺失的值流过时,我在下面得到这个错误:

原因:org.apache.spark.SparkException:在使用handleInvalid =“keep”组装一行时遇到null。考虑从数据集中删除空值或使用 handleInvalid = "keep" 或 "skip"。

从逻辑上讲,这意味着我可以将 handleInvalid 设置为跳过,但我想开发一个可以处理缺失值的管道;特别是因为基于树的模型可以处理它们

0 投票
0 回答
59 浏览

scala - Qubole spark-lens 构建失败

我正在尝试构建 Qubole spark-lens项目。我遇到了未解决的依赖错误。在 git 版本中,火花解析器指向https://dl.bintray.com/spark-packages/maven,我更改了它(按照开放 PR spark-lens repo 中的建议),因为此 URL 现在已停用并提供403 响应。

以下是 sbt 配置

构建.sbt

项目/plugins.sbt

项目/build.properties

有人能指出我哪里出错了吗?

0 投票
1 回答
29 浏览

qubole - Qubole中的数据比较

我对 Qubole 很陌生。我们最近将 Oracle ebiz 数据迁移到 Saleforce。我们在 Qubole Data Lake 中同时拥有 Ebiz 和 Salesforce 数据。Ebiz 和 Salesforce 之间存在一些差异。我可以在 Qubole 上使用什么技术来找到这些差异?

0 投票
1 回答
38 浏览

sql - 需要 regexp_extract 帮助,初学者

我有字符串列“49b8b35e-b62c-4a42-9d73-192d131d127a,03c8a7e0-5153-11ec-873a-0242ac11000a,eec8aee4-0500-4940-b319-15924cc2d248”

此字符串列有 3 个值,由“,”分隔。(值 1,值 2,值 3)。不能保证 vaule2 和 value3 必须始终存在。但 value1 总是如此。

所以我需要将此单列拆分为 3 个不同的列,同时牢记它们存在的上述条件,并且它们需要在“,”之前分隔成一个新列。

到目前为止,我写过

但在那之后,我的逻辑和思维给了我错误,我没有运气。