IBM dashDB Local 从入门到精通,第 1 部分 IBM 私有云数据仓库解决方案介绍(1)
- UID
- 1066743
|
IBM dashDB Local 从入门到精通,第 1 部分 IBM 私有云数据仓库解决方案介绍(1)
IBM dashDB Local 是一个非常灵活的数据仓库系统,它采用业界领先的 Docker 容器技术,专门优化用来快速部署于私有云或虚拟私有云环境。dashDB Local 采用基于内存优化的、列式存储技术,并结合自动水平扩展能力,充分提高了数据仓库系统的运行效率。dashDB Local 不仅提供丰富的库内分析、挖掘函数,还内置了 Apache Spark 分析引擎、R 运行环境,可以充分满足对数据分析的需求。
IBM dashDB Local 从入门到精通系列文章,旨在帮助读者能够对 dashDB Local 原理、架构、使用场景有一个比较深刻的理解,掌握 dashDB Local 部署、配置、使用的基本方法以及如何进行数据分析。本系列文章主要包括 dashDB Local 私有云数据仓库解决方案介绍、dashDB Local SMP& MPP部署指南、dashDB Local 管理及使用方法、dashDB Local &dashDB 私有云到公有云数据迁移方法、dashDB Local 本地仓库使用方法等文章组成。
本文,作为 IBM dashDB Local 从入门到精通系列第一篇文章,我们主要介绍 IBM 混合数据仓库策略、基于私有云数据仓库解决方案 dashDB Local,以及 dashDB Local 优势、使用场景、dashDB Local 架构、弹性伸缩能力、高可用性、dashDB Local 对 R 及 Apache Spark 的支持以及管理、维护相关话题,希望使读者可以对 dashDB Local 有一个比较全面的了解与认识。
云数据分析,数据仓库的未来之选我们知道,近年来,随着大数据与分析、云计算、AI 以及机器学习、深度学习等新技术不断涌现,数据分析已经成为人们关注的焦点,同时也已经在助力企业进行业务洞察、业务创新、优化生产及精准营销等方面发挥了积极作用。现阶段,数据分析已经成为企业的必选项。最近,我们通过对企业数据分析需求及技术挑战的调查表明,企业数据仓库 EDW(Enterprise Data Warehouse) 仍然是人们关注的焦点,其次是云计算及 Hadoop。Gartner 报告也指出,未来 5 年,EDW on prem 市场将达到 10-15 billion,增长近 50%。同时,IDC 报告也指出,大数据云部署市场约占 2015 年分析市场的 15%,到 2020 年,云部署市场将比 on-premises 市场增长快 4.5 倍。由此可见,数据仓库及云将是高速发展的领域,同时,基于云部署方式的数据仓库将是数据仓库发展的方向。
针对上述技术趋势,IBM 在基于云及 on-premises 数据仓库领域持续技术投入,力图帮助客户按照自己的时间表,以快速、简单、敏捷的方式迁移到云端,并且提供先进的数据分析解决方案-dashDB, BigInsights 以及 PDA、其他 EDW 解决方案来深度分析各种数据。
混合数据仓库(Hybrid Data Warehouse)或逻辑数据仓库(Logical Data Warehouse (LDW))是现代数据仓库体系结构的基础。混合数据仓库是指它包含了多种数据仓库技术及平台,如 IBM 的 BigInsights、dashDB、 PDA 一体机、DB2。混合数据仓库允许用户使用合适的技术来处理适合的工作负载,同时,它也可以处理历史海量数据。
如下图所示,混合数据仓库体系结构可以包含 Hadoop、on-premises 分析引擎、公有云分析引擎、私有云分析引擎以及在自己的笔记本上。
混合数据仓库的优势
采用混合数据仓库策略,可以为我们带来如下好处:
- 以可控的方式迁移到云平台,同时允许用户自助访问多种数据源及分析工具
- 灵活选择数据仓库技术及平台满足业务需求
- 加速业务价值实现,从小开始,快速发展
- 在不同数据存储之间实现无缝数据整合及应用迁移
- 通过一次编写、多处运行的应用范例保护已有投资
IBM 混合数据仓库策略 IBM 提供了丰富、完善的数据仓库解决方案来满足用户数据分析需求,dashDB 是 IBM 针对公有云数据仓库解决方案,它提供受管的公有云服务,完全由 IBM 负责运维管理,用户只需要专注自己的分析数据及应用即可;dashDB Local 是 IBM 针对私有云或虚拟私有云如 AWS 及 Microsoft Azure 数据仓库解决方案,它采用目前流行的 Docker 容器技术,软件的部署、运维快速、简单。dashDB Local 基于软件定义 SDE(Software Defined Environment)方式,数据库可以根据主机环境自动配置、优化,运维虽然需要用户自己完成,但工作量、复杂度极小。它适合需要云的简单、灵活,但由于隐私、监管要求,需要自己管理数据的场景;PureData for Analytics(PDA)数据仓库一体机,或 dashDB 一体机,它是基于 on-premises 数据仓库一体机解决方案,由于一体机方式预制好了软件、主机、存储及网络,并经过优化配置,性能高而且简单、易用,另外,PDA 采用了 FPGA 硬件加速技术,系统查询性能优异,同时,它不需要创建索引、创建表空间、不需要做统计更新,只需创建表、加载数据即可,运维十分简单。它还内置了丰富的数据库内数据分析、数据挖掘函数,可以针对海量数据进行数据库内高效分析。它比较适合需要高效数据分析、简单运维的场景;DB2 MPP 数据库,它是基于 on-premises、客户可定制的数据仓库解决方案,用户可以根据自己的分析需求,选择不同的主机、存储、网络配置,并相应地配置 DB2 MPP 数据库。DB2 MPP 数据库采用业界领先的非共享(Shared Nothing)体系结构,扩展性、性能及易用性十分出色,同时,DB2 BLU 提供了列式存储、内存优化、高效压缩等技术,查询效率更比传统数据仓库高 20 倍或更高。它比较适合需要高效数据分析能力,同时客户可以自己定制硬件环境的场景;BigInsights/BigSQL,IBM 大数据解决方案,它基于 Apache Hadoop 及 Spark 技术框架,同时,提供了业界领先的 SQL on Hadoop 技术 BigSQL,完全符合 ANSI SQL 2003 标准,用户已有的应用程序、现有的 BI 工具等不需要修改就可以访问 Hadoop 平台上的结构化数据,同时,BigSQL 提供了联邦查询功能,可以同时访问 Hadoop、DB2 以及 Oracle、SQL Server、MySQL、PostgreSQL 等数据库,真正实现了大数据的融合访问,避免了新的"信息孤岛"的出现。它比较适合需要处理非结构化数据、海量历史数据查询、海量数据预处理等场景。
IBM 混合数据仓库策略的核心是,不论是受管的公有云服务 dashDB、软件定义的 dashDB Local,还是基于 on-premises 的一体机解决方案 PDA、客户可部署的软件 DB2、Hadoop/Spark 环境的 BigSQL,都采用统一的通用 SQL 分析引擎,如下图,这样,可以真正实现:
- 应用兼容性:可以实现一次编写,多处运行,不论是 on-premises 环境,还是云环境
- 操作性兼容:系统操作、管理、运维命令相互兼容,可以复用操作型和管理型的过程,减少学习曲线
- 集成性:可以使用通用的 Fluid Query 能力,实现联邦查询及数据移动
- 标准化分析:可以复用数据库內建的通用的编程模型
- 生态系统:一次 ISV 产品认证,适用于所有平台,更好地构建数据分析生态环境
- 授权:可以为业务敏捷性及成本优化提供灵活的授权方式
由此,可以实现真正的、具有可移植的分析能力的混合数据仓库解决方案。
IBM 混合数据仓库策略可以为用户提供多种选择,帮助用户选用最佳的数据集(的组合)来满足他们对混合数据仓库解决方案的需求。如下图所示,围绕整个混合数据仓库解决方案,我们为用户提供了通用的服务能力,包括内置分析能力、SQL 及 NoSQ 兼容性、MPP 可扩展性、内存优化的高性能、原生数据加密、高级工作负载管理、应用兼容性等,所有这些特性都是源于通用 SQL 分析引擎。另外,在部署方式上,提供弹性扩展、灵活价格策略、快速部署及装载即运行(load-and-go)能力。
下边列出了混合数据仓库解决方案中每一个产品的特点及优势,可以作为我们选择实现路径时的参考:
受管的公有云服务 dashDB:
- 由 IBM 运维管理
- 敏捷,简化
- 预建与其他云数据服务的集成,如 Cloudant
- 通过 Aspera 实现并行数据加载
- 弹性伸缩
软件定义 dashDB Local:
- 本地部署/运维
- 针对结构化数据的成本与 Hadoop 相同
- 利用现有的架构
- 无缝的横向/纵向扩展
- 硬件/OS 无关性
- 按需整合计算/存储资源
一体机 PDA:
- 一体机
- 基于 FPGA 加速的高性能
- 内建的容灾
- 就地扩展
- 弹性资源消耗
客户可部署的软件 DB2:
- 由 IBM 或者用户管理
- 针对操作性数据或者 ODS 进行分析
- 用户部署,支持多种硬件/OS
- 数据发现和探索
- 需要自行实现高可用和容灾
Hadoop / Spark 环境:
- 由 IBM 或者用户管理
- 数据湖或者 Day-0 数据归档
- 非结构化或者混合数据类型
- 快速落地数据,并进行即时分析
- 数据发现和探索
- 数据转换
IBM 混合数据仓库策略的优势
- 提供业界独特的通用 SQL 分析引擎,跨越公有云、私有云、本地等多种部署方式,加速构建混合数据仓库架构
- 在所有数据服务引擎中内嵌 Apache Spark ,提供以开源的方式快速访问分析服务的能力。没有其他厂商可以像 IBM 一样同时提供对 Spark 社区的巨大贡献并将 Spark 引擎直接嵌入到数据库中。
- 使用 BLU 提供的 in-memory 、列式存储技术
- 加强同开源及第三方软件集成
- 在本地及连接通道中数据加密技术
- 提供同 Oracle 兼容特性,兼容性达 98%,可以轻松移植 Oracle 应用程序,并提供高性能、安全及混合处理能力
|
|
|
|
|
|