大数据平台

来自牛奶河Wiki
阿奔讨论 | 贡献2023年3月28日 (二) 17:19的版本 (创建页面,内容为“以海量数据存储、计算及流数据实时计算等场景为主的一套基础设施。通过大数据平台,企业可以更方面地了解企业全方位信息,更快地作出数据驱动的决策,更快地推出适应客户需求的产品。 === Apache Hadoop === Hadoop是一个由 Apache 基金会所开发的分布式系统基础架构, 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是大…”)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳到导航 跳到搜索

以海量数据存储、计算及流数据实时计算等场景为主的一套基础设施。通过大数据平台,企业可以更方面地了解企业全方位信息,更快地作出数据驱动的决策,更快地推出适应客户需求的产品。

Apache Hadoop

Hadoop是一个由 Apache 基金会所开发的分布式系统基础架构, 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是大数据技术中的基石。Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理,用户可以在不了解分布式底层细节的情况下,开发分布式程序,用户可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。

  • 海量数据存储

HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(High throughput)来访问数据,适合那些有着超大数据集(large data set)的应用程序。

它由 n 台运行着 DataNode 的机器组成和 1 台(另外一个 standby )运行 NameNode 进程一起构成。每个 DataNode 管理一部分数据,然后 NameNode 负责管理整个 HDFS 集群的信息(存储元数据)。

  • 资源管理,调度和分配

Apache Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统 一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

Greenplum数据库

Greenplum 是业界最快最高性价比的关系型分布式数据库。它在开源的 PostgreSQL 的基础上采用 MPP 架构(Massive Parallel Processing,海量并行处理),具有强大的大规模数据分析任务处理能力。

  • 完善的标准

GreenPlum 数据库支持 ANSI SQL 2008 和 SQL OLAP 2003 扩展;支持 ODBC和JDBC 应用编程接口。完善的标准支持使得系统开发、维护和管理都大为方便。

(而现在的 NoSQL 和 Hadoop 对 SQL 的支持都不完善,不同的系统需要单独开发和管理,且移植性不好。)

  • 数据的强一致性

GreenPlum 数据库支持分布式事务,支持 ACID,保证数据库中数据的强一致性

  • 良好的线性扩展能力

GreenPlum 数据库采用 MPP 架构,其基本特征是有多台 SMP(Symmetric Multi-Processor,对称多处理器)服务器通过节点互联网络连接而成,是一种 Share Nothing(完全无共享)结构,因而扩展能力最强,理论上可以无限扩展。目前的技术可以实现512个节点互联,包含数千个CPU