IBM dashDB Local 从入门到精通，第 1 部分 IBM 私有云数据仓库解决方案介绍（1）

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2017-12-18 10:10 | 只看该作者

IBM dashDB Local 从入门到精通，第 1 部分 IBM 私有云数据仓库解决方案介绍（1）

IBM dashDB Local 是一个非常灵活的数据仓库系统，它采用业界领先的 Docker 容器技术，专门优化用来快速部署于私有云或虚拟私有云环境。dashDB Local 采用基于内存优化的、列式存储技术，并结合自动水平扩展能力，充分提高了数据仓库系统的运行效率。dashDB Local 不仅提供丰富的库内分析、挖掘函数，还内置了 Apache Spark 分析引擎、R 运行环境，可以充分满足对数据分析的需求。
IBM dashDB Local 从入门到精通系列文章，旨在帮助读者能够对 dashDB Local 原理、架构、使用场景有一个比较深刻的理解，掌握 dashDB Local 部署、配置、使用的基本方法以及如何进行数据分析。本系列文章主要包括 dashDB Local 私有云数据仓库解决方案介绍、dashDB Local SMP& MPP部署指南、dashDB Local 管理及使用方法、dashDB Local &dashDB 私有云到公有云数据迁移方法、dashDB Local 本地仓库使用方法等文章组成。
本文，作为 IBM dashDB Local 从入门到精通系列第一篇文章，我们主要介绍 IBM 混合数据仓库策略、基于私有云数据仓库解决方案 dashDB Local，以及 dashDB Local 优势、使用场景、dashDB Local 架构、弹性伸缩能力、高可用性、dashDB Local 对 R 及 Apache Spark 的支持以及管理、维护相关话题，希望使读者可以对 dashDB Local 有一个比较全面的了解与认识。
云数据分析，数据仓库的未来之选我们知道，近年来，随着大数据与分析、云计算、AI 以及机器学习、深度学习等新技术不断涌现，数据分析已经成为人们关注的焦点，同时也已经在助力企业进行业务洞察、业务创新、优化生产及精准营销等方面发挥了积极作用。现阶段，数据分析已经成为企业的必选项。最近，我们通过对企业数据分析需求及技术挑战的调查表明，企业数据仓库 EDW(Enterprise Data Warehouse) 仍然是人们关注的焦点，其次是云计算及 Hadoop。Gartner 报告也指出，未来 5 年，EDW on prem 市场将达到 10-15 billion，增长近 50%。同时，IDC 报告也指出，大数据云部署市场约占 2015 年分析市场的 15%，到 2020 年，云部署市场将比 on-premises 市场增长快 4.5 倍。由此可见，数据仓库及云将是高速发展的领域，同时，基于云部署方式的数据仓库将是数据仓库发展的方向。
针对上述技术趋势，IBM 在基于云及 on-premises 数据仓库领域持续技术投入，力图帮助客户按照自己的时间表，以快速、简单、敏捷的方式迁移到云端，并且提供先进的数据分析解决方案-dashDB, BigInsights 以及 PDA、其他 EDW 解决方案来深度分析各种数据。
混合数据仓库（Hybrid Data Warehouse）或逻辑数据仓库（Logical Data Warehouse (LDW)）是现代数据仓库体系结构的基础。混合数据仓库是指它包含了多种数据仓库技术及平台，如 IBM 的 BigInsights、dashDB、 PDA 一体机、DB2。混合数据仓库允许用户使用合适的技术来处理适合的工作负载，同时，它也可以处理历史海量数据。
如下图所示，混合数据仓库体系结构可以包含 Hadoop、on-premises 分析引擎、公有云分析引擎、私有云分析引擎以及在自己的笔记本上。

混合数据仓库的优势
采用混合数据仓库策略，可以为我们带来如下好处：

以可控的方式迁移到云平台，同时允许用户自助访问多种数据源及分析工具
灵活选择数据仓库技术及平台满足业务需求
加速业务价值实现，从小开始，快速发展
在不同数据存储之间实现无缝数据整合及应用迁移
通过一次编写、多处运行的应用范例保护已有投资

IBM 混合数据仓库策略 IBM 提供了丰富、完善的数据仓库解决方案来满足用户数据分析需求，dashDB 是 IBM 针对公有云数据仓库解决方案，它提供受管的公有云服务，完全由 IBM 负责运维管理，用户只需要专注自己的分析数据及应用即可；dashDB Local 是 IBM 针对私有云或虚拟私有云如 AWS 及 Microsoft Azure 数据仓库解决方案，它采用目前流行的 Docker 容器技术，软件的部署、运维快速、简单。dashDB Local 基于软件定义 SDE（Software Defined Environment）方式，数据库可以根据主机环境自动配置、优化，运维虽然需要用户自己完成，但工作量、复杂度极小。它适合需要云的简单、灵活，但由于隐私、监管要求，需要自己管理数据的场景；PureData for Analytics(PDA)数据仓库一体机，或 dashDB 一体机，它是基于 on-premises 数据仓库一体机解决方案，由于一体机方式预制好了软件、主机、存储及网络，并经过优化配置，性能高而且简单、易用，另外，PDA 采用了 FPGA 硬件加速技术，系统查询性能优异，同时，它不需要创建索引、创建表空间、不需要做统计更新，只需创建表、加载数据即可，运维十分简单。它还内置了丰富的数据库内数据分析、数据挖掘函数，可以针对海量数据进行数据库内高效分析。它比较适合需要高效数据分析、简单运维的场景；DB2 MPP 数据库，它是基于 on-premises、客户可定制的数据仓库解决方案，用户可以根据自己的分析需求，选择不同的主机、存储、网络配置，并相应地配置 DB2 MPP 数据库。DB2 MPP 数据库采用业界领先的非共享（Shared Nothing）体系结构，扩展性、性能及易用性十分出色，同时，DB2 BLU 提供了列式存储、内存优化、高效压缩等技术，查询效率更比传统数据仓库高 20 倍或更高。它比较适合需要高效数据分析能力，同时客户可以自己定制硬件环境的场景；BigInsights/BigSQL，IBM 大数据解决方案，它基于 Apache Hadoop 及 Spark 技术框架，同时，提供了业界领先的 SQL on Hadoop 技术 BigSQL，完全符合 ANSI SQL 2003 标准，用户已有的应用程序、现有的 BI 工具等不需要修改就可以访问 Hadoop 平台上的结构化数据，同时，BigSQL 提供了联邦查询功能，可以同时访问 Hadoop、DB2 以及 Oracle、SQL Server、MySQL、PostgreSQL 等数据库，真正实现了大数据的融合访问，避免了新的"信息孤岛"的出现。它比较适合需要处理非结构化数据、海量历史数据查询、海量数据预处理等场景。
IBM 混合数据仓库策略的核心是，不论是受管的公有云服务 dashDB、软件定义的 dashDB Local，还是基于 on-premises 的一体机解决方案 PDA、客户可部署的软件 DB2、Hadoop/Spark 环境的 BigSQL，都采用统一的通用 SQL 分析引擎，如下图，这样，可以真正实现：

应用兼容性：可以实现一次编写，多处运行，不论是 on-premises 环境，还是云环境
操作性兼容：系统操作、管理、运维命令相互兼容，可以复用操作型和管理型的过程，减少学习曲线
集成性：可以使用通用的 Fluid Query 能力，实现联邦查询及数据移动
标准化分析：可以复用数据库內建的通用的编程模型
生态系统：一次 ISV 产品认证，适用于所有平台，更好地构建数据分析生态环境
授权：可以为业务敏捷性及成本优化提供灵活的授权方式

由此，可以实现真正的、具有可移植的分析能力的混合数据仓库解决方案。
IBM 混合数据仓库策略可以为用户提供多种选择，帮助用户选用最佳的数据集(的组合)来满足他们对混合数据仓库解决方案的需求。如下图所示，围绕整个混合数据仓库解决方案，我们为用户提供了通用的服务能力，包括内置分析能力、SQL 及 NoSQ 兼容性、MPP 可扩展性、内存优化的高性能、原生数据加密、高级工作负载管理、应用兼容性等，所有这些特性都是源于通用 SQL 分析引擎。另外，在部署方式上，提供弹性扩展、灵活价格策略、快速部署及装载即运行（load-and-go）能力。

下边列出了混合数据仓库解决方案中每一个产品的特点及优势，可以作为我们选择实现路径时的参考：
受管的公有云服务 dashDB：

由 IBM 运维管理
敏捷，简化
预建与其他云数据服务的集成，如 Cloudant
通过 Aspera 实现并行数据加载
弹性伸缩

软件定义 dashDB Local：

本地部署/运维
针对结构化数据的成本与 Hadoop 相同
利用现有的架构
无缝的横向/纵向扩展
硬件/OS 无关性
按需整合计算/存储资源

一体机 PDA：

一体机
基于 FPGA 加速的高性能
内建的容灾
就地扩展
弹性资源消耗

客户可部署的软件 DB2：

由 IBM 或者用户管理
针对操作性数据或者 ODS 进行分析
用户部署，支持多种硬件/OS
数据发现和探索
需要自行实现高可用和容灾

Hadoop / Spark 环境：

由 IBM 或者用户管理
数据湖或者 Day-0 数据归档
非结构化或者混合数据类型
快速落地数据，并进行即时分析
数据发现和探索
数据转换

IBM 混合数据仓库策略的优势

提供业界独特的通用 SQL 分析引擎，跨越公有云、私有云、本地等多种部署方式，加速构建混合数据仓库架构
在所有数据服务引擎中内嵌 Apache Spark ，提供以开源的方式快速访问分析服务的能力。没有其他厂商可以像 IBM 一样同时提供对 Spark 社区的巨大贡献并将 Spark 引擎直接嵌入到数据库中。
使用 BLU 提供的 in-memory 、列式存储技术
加强同开源及第三方软件集成
在本地及连接通道中数据加密技术
提供同 Oracle 兼容特性，兼容性达 98%，可以轻松移植 Oracle 应用程序，并提供高性能、安全及混合处理能力

收藏分享评分

回复引用

订阅 TOP

返回列表