大数据平台
以海量数据存储、计算及流数据实时计算等场景为主的一套基础设施。通过大数据平台,企业可以更方面地了解企业全方位信息,更快地作出数据驱动的决策,更快地推出适应客户需求的产品。
Apache Hadoop
Hadoop是一个由 Apache 基金会所开发的分布式系统基础架构, 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是大数据技术中的基石。Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理,用户可以在不了解分布式底层细节的情况下,开发分布式程序,用户可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。
- 海量数据存储
HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(High throughput)来访问数据,适合那些有着超大数据集(large data set)的应用程序。
它由 n 台运行着 DataNode 的机器组成和 1 台(另外一个 standby )运行 NameNode 进程一起构成。每个 DataNode 管理一部分数据,然后 NameNode 负责管理整个 HDFS 集群的信息(存储元数据)。
- 资源管理,调度和分配
Apache Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统 一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
Greenplum数据库
Greenplum 是业界最快最高性价比的关系型分布式数据库。它在开源的 PostgreSQL 的基础上采用 MPP 架构(Massive Parallel Processing,海量并行处理),具有强大的大规模数据分析任务处理能力。
- 完善的标准
GreenPlum 数据库支持 ANSI SQL 2008 和 SQL OLAP 2003 扩展;支持 ODBC和JDBC 应用编程接口。完善的标准支持使得系统开发、维护和管理都大为方便。
(而现在的 NoSQL 和 Hadoop 对 SQL 的支持都不完善,不同的系统需要单独开发和管理,且移植性不好。)
- 数据的强一致性
GreenPlum 数据库支持分布式事务,支持 ACID,保证数据库中数据的强一致性
- 良好的线性扩展能力
GreenPlum 数据库采用 MPP 架构,其基本特征是有多台 SMP(Symmetric Multi-Processor,对称多处理器)服务器通过节点互联网络连接而成,是一种 Share Nothing(完全无共享)结构,因而扩展能力最强,理论上可以无限扩展。目前的技术可以实现512个节点互联,包含数千个CPU