9

如果您检查概念,我试图了解数据湖和大数据之间是否存在真正的差异还是数据湖?

提前致谢

4

4 回答 4

9

我不能说我以前遇到过“大存储库”这个词,但要回答最初的问题,不,数据湖和大数据是不一样的,尽管公平地说它们都被扔了很多,而且定义取决于你问的是谁,但我会试着试一试:


大数据

用于描述围绕的技术生态系统,以及在某种程度上涉及处理数据的行业,这些数据在某种程度上太大或太复杂而无法通过传统方式方便地存储和/或处理。

有时这可能是纯粹的数据量问题:一旦达到 100 TB 或 PB,您的老式 RDBMS 数据库往往会放弃,我们被迫将数据分布在许多磁盘上,而不仅仅是一个磁盘大的。在这些数量上,我们希望并行化我们的工作负载,从而产生诸如 MPP 数据库、Hadoop 生态系统和基于 DAG 的处理之类的东西。

然而,仅凭数量并不能说明全部情况。大数据的一个流行定义是所谓的“4 Vs”:数量、多样性、速度和准确性。简而言之:

  • 体积——如前所述,是指数据大小造成的难度

  • 多样性——指处理不同类型数据的内在复杂性;您的一些数据将是结构化的(想想 SQL 数据表),而其他数据可能是半结构化的(XML 文档)或非结构化的(原始图像文件),而处理这种变化的技术是不平凡的

  • 速度——指可能产生新数据的速度;在收集实时事件(如物联网数据、网络流量、金融交易、数据库更改或其他任何实时发生的事件)时,数据流入(在许多情况下,流出)系统的“速度”,可以轻松超越传统数据库技术的能力,需要某种可扩展的消息总线 (Kafka) 和可能的复杂事件处理框架(例如 Spark Streaming 或 Apache Flink)

  • 真实性- 最后的“V”,是指处理数据的额外复杂性,这些数据通常来自您无法控制的来源,并且可能包含无效、错误、恶意、格式错误或上述所有数据。这增加了对数据验证、数据质量检查、数据规范化等的需求。

在这个定义中,“大数据”是指由于与 4 V 相关的特殊挑战,不适合用传统数据库技术处理的数据;而“大数据工具”是专门为应对这些挑战而设计的工具。


数据湖

相比之下,Data Lake 通常用作描述某种类型的文件或 blob 存储层的术语,它允许根据大数据架构的需要存储几乎无限量的结构化和非结构化数据。

一些公司将使用术语“数据湖”来表示不仅存储层,还包括所有相关工具,从摄取、ETL、争论、机器学习、分析,一直到数据仓库堆栈,甚至可能是 BI 和可视化工具. 然而,作为一名大数据架构师,我发现该术语的使用令人困惑,并且更愿意将数据湖及其周围的工具作为具有不同功能和职责的独立组件来讨论。因此,数据湖的职责是成为您可能希望静态存储的任何类型数据的中央、高持久性存储。

大多数人认为,“数据湖”一词是由 Pentaho 的创始人兼首席技术官 James Dixon 创造的,他是这样描述它的:

“如果您将数据集市视为瓶装水的商店——经过清洁、包装和结构化以便于饮用——那么数据湖就是处于更自然状态的一大片水体。数据湖的内容从源头流入,填满湖,湖的各种用户可以来检查、潜入或取样。”</p>

亚马逊网络服务在他们的页面“什么是数据湖”上定义了它:

数据湖是一个集中式存储库,可让您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据,而无需首先构建数据,并运行不同类型的分析——从仪表板和可视化到大数据处理、实时分析和机器学习,以指导更好的决策。

来自维基百科

数据湖是以自然格式存储的数据系统或存储库,通常是对象 blob 或文件。数据湖通常是所有企业数据的单一存储,包括源系统数据的原始副本和用于报告、可视化、分析和机器学习等任务的转换数据。

最后是 Gartner

数据湖是原始数据源之外的各种数据资产的存储实例的集合。这些资产存储在源格式的近乎精确甚至精确的副本中。数据湖的目的是仅向最熟练的分析师提供未经提炼的数据视图,以帮助他们探索数据提炼和分析技术,而不受传统分析中可能存在的任何记录系统妥协的影响数据存储(例如数据集市或数据仓库)。

在本地集群上,数据湖通常是指集群上的主存储,在分布式文件系统中,通常是 HDFS,但也存在其他文件系统,例如 Google 使用的 GFS 或 MapR 集群上的 MapR 文件系统。

在云中,数据湖通常不存储在集群上,因为保持集群始终运行并不划算,而是存储在持久的云存储上,例如 Amazon S3、Azure ADLS 或谷歌云存储。然后可以按需启动计算集群并无缝连接到云存储以运行转换、机器学习、分析作业等。


我希望这对您有所帮助,并祝您一切顺利,

于 2018-09-18T18:02:34.267 回答
3

大数据只是一个术语,用于封装现在正在生成的大量数据。它不涉及任何特定或任何特定数量的数据。

对我来说,数据湖 = 读取模式。非结构化数据并转储到对象存储或类似的没有关联架构的数据。

于 2018-09-18T18:16:29.153 回答
2

大数据和数据湖是两个相互关联的术语,但含义完全不同,这也是人们经常混淆这两个术语的主要原因。那么让我们简单了解一下两者的区别。

大数据 顾名思义,大数据就是规模巨大的数据。PB 级以上的数据被认为是大数据。不仅是大小,还有更多定义大数据的参数。生成这些数据的来源、不同的格式以及生成的速度,所有这些因素结合起来定义了大数据。 用最简单的话来说,大数据就是大量的数据。就是这样。

数据湖 数据湖是大数据的存储库。它存储从不同来源生成的所有类型的数据,即结构化、非结构化和半结构化数据。它以最原始的形式存储数据。数据湖不同于数据仓库。数据仓库以结构良好的形式存储数据。数据湖中的数据将来可能会或可能不会被使用,但数据仓库中的数据是为了使用,因为所有不相关的数据都已经被处理掉了。

大数据是巨大的数据,数据湖是它的仓库。

我希望这有帮助。

于 2019-09-27T11:08:56.243 回答
1

大数据是一个处理分析方法、系统地从中提取信息或以其他方式处理传统数据处理应用程序无法处理的大型或复杂数据集的领域。

数据湖是以自然/原始格式存储的数据系统或存储库,通常是对象 blob 或文件。数据湖通常是一个单一的数据存储,包括源系统数据、传感器数据、社交数据等的原始副本,以及用于报告、可视化、高级分析和机器学习等任务的转换数据。

于 2021-09-08T11:44:50.667 回答