问题标签 [star-schema]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-warehouse - 夏令时导致重复数据行时该怎么办?
我有一个能耗事实表,如下所示:
日历表是根据 Kimball 建议构建的,正是数据仓库工具包中的建议是我拥有两个日历 ID 的原因,以便用户可以查询本地时间和 UTC 时间。
这一切都很好,但是当夏令时开始时问题就出现了。
由于粒度为半小时周期,时钟变化时会有重复的事实记录。
当时钟向另一个方向变化时,数据中就会出现间隙。
我该如何处理这种情况?
我应该平均重复值并存储它吗?
当它是数据的差距时,我应该使用差距之前的点和差距之后的点的平均值吗?
mysql - 用于 NBA/篮球统计数据的 Star Schema 数据库
我想设计一个篮球运动员及其统计数据的数据库。我听说星型模式数据库最适合这类任务。
如果我没记错的话,星型模式有暗淡和事实表。
我计划将分数/统计数据加载到暗表中的事实表和团队、年份、教练、会议等中。这是一种可接受的方法吗?
我是数据库设计的菜鸟,所以如果可以的话,请提供帮助,或者给我你对我的过程的想法。谢谢!
mysql - 如何将数据导入星型数据仓库。
我在网上到处搜索,以了解如何将数据导入星型模式数据仓库。网上很多东西都解释了星型模式和数据仓库的设计,但没有一个解释数据是如何准确地加载到 DW 中的。这是我到目前为止所做的:
我正在尝试为每个球员应用高中篮球统计数据。
我有:
- 所有球员姓名、身高、位置和号码的列表
- 所有高中的名单
- 所有时间表的列表
- 会议清单
- 本年度每位球员的统计数据(得分、篮板、抢断、出场次数等)。
我假设统计数据将是我的事实表,其余的是我的暗表。
现在是百万美元的问题——世界上如何正确地将数据转换为那种格式?
我尝试简单地将它们导入到各自的表中,但不知道它们是如何连接的。
示例:有 800 名玩家和 400 所学校。每所学校都有一个唯一的 id(主键)。我将玩家上传到昏暗的玩家和学校到昏暗的学校。现在我该如何连接它们?
请帮忙。提前致谢。很抱歉漫无边际:)
sql - 字符串作为星型模式中的主键
我们正在创建一个由大约 8 个星型模式组成的数据集市,每个模式代表一个业务事件、流程或报告数据集。我们有交易、快照和累积快照模式的同等组合。我们打算在大多数事实表中用作主键的值是 ContractID,但是在源数据库中,这是一个格式为“X12345.001”的字符串。
我已经阅读了一些关于使用字符串作为 PK 的相互矛盾的意见:
字符串作为 SQL 数据库中的主键- 本文中的最佳答案表明它可以,但问题不是数据集市特定的。
字符串作为主键?- 本文中的最佳答案是坚决反对使用字符串作为 PK。
数据集市的内容永远不会很大(所有星的低数百万行,永远不会数十亿)。使用当前的 PK (ContractID) 会更省力,因为这将在所有表中保持一致,但我担心性能。问题是字符串是否可以用作数据集市中的主键。
谢谢
scalability - OLAP 多维数据集的可扩展性 - 行/列的影响、属性的层次顺序、空/冗余属性
为了正确地重新设计一些遗留 OLAP 多维数据集,我需要了解一般可扩展性和 OLAP 多维数据集速度的一些特定驱动因素:
一般: OLAP 多维数据集如何针对行和列(属性)进行近似缩放? 例如,我会根据属性编号假设 n^2 或 n^3 之类的东西。
层次顺序的影响:层次顺序 如何影响计算、存储和响应时间? 例如,我会假设日-月-年层次结构比将三者视为单独的独立属性要快得多。
特殊情况——空属性和冗余属性: 空属性如何影响立方体的计算和使用速度?冗余属性的影响如何? 例如,关于后者,我认为有一个属性国家 = 美国和国家代码 = 美国是多余的。
sql - Postgresql - 窗口函数中的窗口函数
面对查询设计问题,不确定我解决问题的方法是否过于复杂:
我有一个事实表:
我目前正在针对它运行一些分析查询,其中之一(例如)是:
正如你们可能知道的那样 - 此查询计算给定时间段分布的消息的“分数”属性的平均值,然后计算跨段的累积值(使用窗口)。
我接下来要做的是找到messages.text
最接近每个桶的平均值的前 5 个(例如)。
现在,我唯一的计划是:
我之所以把这个命令式地按步骤写下来,是因为我第一次尝试设计一个涉及在窗口函数中使用窗口函数的设计(rank() over (partition by start_time, order by score - avg(score) over (partition by start_time))
,我什至不打算尝试看看它是否可行。
我可以就我是否朝着正确的方向寻求一些建议吗?
data-warehouse - 为什么我们要把维度和事实分开,而不是将两者结合在一张表中
需要对维度建模或星型模式有所了解。
通常,当我们设计数据仓库时,我们会有事实表和维度表。
但是,在事实表中嵌入维度确实有意义。特别是对于没有其他属性且很少更改其值的简单维度。
事实表中的维度将使查询运行非常快,无需单独维护维度表,进行ETL时无需查找维度表。
是否有任何考虑将维度与事实分开?
sql - 数据仓库模式:星形或雪花(包括案例)
我需要一个特定案例来为大学创建数据仓库模式。我试图创建一个 [schema] http://i.imgur.com/EJPaVgq.jpg但看起来我走错了方向
案子:
大学目前有 5 门课程——基础、商业计算、商业、经济学和法律。它提供5个级别的教育。每个学年包括2个学期。我们有许多属于课程的模块,其中一些是核心模块,有些是可选的。有些模块是一个学期,有些是一年。每个模块都有评估组件,这些组件的权重对模块的整体分数有所贡献。评估有不同的类型,如课堂测试、课程作业、期末考试等。学生从 Foundation 开始注册课程。学生可能会随着时间的推移改变课程(例如从商业转移到商业计算)。大学想了解: • 学生注册课程和模块,并跟踪他们随时间的变化。
如果可能,请将架构作为屏幕截图或其他方式附加。我是数据仓库的新手,所以我对它了解不多,也没有创建它们的经验。我将非常感谢任何能够以某种方式更接近解决问题的帮助。对不起我的英语不好。谢谢你,祝你有美好的一天。
stored-procedures - sql server 中的星型数据库
我在 sql server 2008 r2 中创建了一个 test1 数据库,然后创建了另一个 test 2 db ..
在测试 2 db 中,我创建星型模式 erd 是
现在在这里我想从 test1 db 中选择数据,然后在 test2 db 中执行 .. 像 etl .. 提取、转换和加载...
这是查询
当我执行此 uery 数据时,未将数据插入表中
那我是怎么做到的?
sql - 表 A 的 PK 被表 B 的 FK 引用。不能掉表A的PK
微软 SQL 服务器
我正在制作星型模式。我已经为我的表设置了PK's
and FK
,现在我正在尝试编写一个过程来删除约束、截断表、再次添加约束,然后重新填充表。当我尝试删除约束时,我收到错误:
“该约束PK_TIMEDIM
被表引用SalesFactTable
,外键约束FK_SALESFACTTABLE
。无法删除约束。”
编辑:一个问题解决了。又发现了一个。我收到了同样的错误,除了现在有神秘的自动生成的FK's
,例如FK__SalesFact__CUST___19DFD96B
.
请告诉我我做错了什么。