首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

IBM dashDB Local 从入门到精通,第 1 部分 IBM 私有云数据仓库解决方案介绍(1)

IBM dashDB Local 从入门到精通,第 1 部分 IBM 私有云数据仓库解决方案介绍(1)

IBM dashDB Local 是一个非常灵活的数据仓库系统,它采用业界领先的 Docker 容器技术,专门优化用来快速部署于私有云或虚拟私有云环境。dashDB Local 采用基于内存优化的、列式存储技术,并结合自动水平扩展能力,充分提高了数据仓库系统的运行效率。dashDB Local 不仅提供丰富的库内分析、挖掘函数,还内置了 Apache Spark 分析引擎、R 运行环境,可以充分满足对数据分析的需求。   
IBM dashDB Local 从入门到精通系列文章,旨在帮助读者能够对 dashDB Local 原理、架构、使用场景有一个比较深刻的理解,掌握 dashDB          Local 部署、配置、使用的基本方法以及如何进行数据分析。本系列文章主要包括 dashDB Local 私有云数据仓库解决方案介绍、dashDB Local          SMP& MPP部署指南、dashDB Local 管理及使用方法、dashDB Local &dashDB  私有云到公有云数据迁移方法、dashDB Local 本地仓库使用方法等文章组成。
本文,作为 IBM dashDB Local 从入门到精通系列第一篇文章,我们主要介绍 IBM 混合数据仓库策略、基于私有云数据仓库解决方案 dashDB Local,以及 dashDB Local 优势、使用场景、dashDB Local 架构、弹性伸缩能力、高可用性、dashDB Local 对 R 及 Apache Spark 的支持以及管理、维护相关话题,希望使读者可以对 dashDB Local 有一个比较全面的了解与认识。
云数据分析,数据仓库的未来之选我们知道,近年来,随着大数据与分析、云计算、AI    以及机器学习、深度学习等新技术不断涌现,数据分析已经成为人们关注的焦点,同时也已经在助力企业进行业务洞察、业务创新、优化生产及精准营销等方面发挥了积极作用。现阶段,数据分析已经成为企业的必选项。最近,我们通过对企业数据分析需求及技术挑战的调查表明,企业数据仓库    EDW(Enterprise Data Warehouse) 仍然是人们关注的焦点,其次是云计算及 Hadoop。Gartner 报告也指出,未来 5 年,EDW on prem 市场将达到    10-15 billion,增长近 50%。同时,IDC 报告也指出,大数据云部署市场约占 2015 年分析市场的 15%,到 2020 年,云部署市场将比 on-premises 市场增长快    4.5 倍。由此可见,数据仓库及云将是高速发展的领域,同时,基于云部署方式的数据仓库将是数据仓库发展的方向。
针对上述技术趋势,IBM 在基于云及 on-premises    数据仓库领域持续技术投入,力图帮助客户按照自己的时间表,以快速、简单、敏捷的方式迁移到云端,并且提供先进的数据分析解决方案-dashDB, BigInsights 以及 PDA、其他 EDW    解决方案来深度分析各种数据。
混合数据仓库(Hybrid Data Warehouse)或逻辑数据仓库(Logical Data Warehouse    (LDW))是现代数据仓库体系结构的基础。混合数据仓库是指它包含了多种数据仓库技术及平台,如 IBM 的 BigInsights、dashDB、 PDA    一体机、DB2。混合数据仓库允许用户使用合适的技术来处理适合的工作负载,同时,它也可以处理历史海量数据。
如下图所示,混合数据仓库体系结构可以包含 Hadoop、on-premises 分析引擎、公有云分析引擎、私有云分析引擎以及在自己的笔记本上。
混合数据仓库的优势
采用混合数据仓库策略,可以为我们带来如下好处:
  • 以可控的方式迁移到云平台,同时允许用户自助访问多种数据源及分析工具
  • 灵活选择数据仓库技术及平台满足业务需求
  • 加速业务价值实现,从小开始,快速发展
  • 在不同数据存储之间实现无缝数据整合及应用迁移
  • 通过一次编写、多处运行的应用范例保护已有投资
IBM 混合数据仓库策略 IBM 提供了丰富、完善的数据仓库解决方案来满足用户数据分析需求,dashDB 是 IBM 针对公有云数据仓库解决方案,它提供受管的公有云服务,完全由 IBM    负责运维管理,用户只需要专注自己的分析数据及应用即可;dashDB Local 是 IBM 针对私有云或虚拟私有云如 AWS 及 Microsoft Azure    数据仓库解决方案,它采用目前流行的 Docker 容器技术,软件的部署、运维快速、简单。dashDB Local 基于软件定义 SDE(Software Defined    Environment)方式,数据库可以根据主机环境自动配置、优化,运维虽然需要用户自己完成,但工作量、复杂度极小。它适合需要云的简单、灵活,但由于隐私、监管要求,需要自己管理数据的场景;PureData    for Analytics(PDA)数据仓库一体机,或 dashDB 一体机,它是基于 on-premises    数据仓库一体机解决方案,由于一体机方式预制好了软件、主机、存储及网络,并经过优化配置,性能高而且简单、易用,另外,PDA 采用了 FPGA    硬件加速技术,系统查询性能优异,同时,它不需要创建索引、创建表空间、不需要做统计更新,只需创建表、加载数据即可,运维十分简单。它还内置了丰富的数据库内数据分析、数据挖掘函数,可以针对海量数据进行数据库内高效分析。它比较适合需要高效数据分析、简单运维的场景;DB2    MPP 数据库,它是基于 on-premises、客户可定制的数据仓库解决方案,用户可以根据自己的分析需求,选择不同的主机、存储、网络配置,并相应地配置 DB2 MPP 数据库。DB2 MPP    数据库采用业界领先的非共享(Shared Nothing)体系结构,扩展性、性能及易用性十分出色,同时,DB2 BLU 提供了列式存储、内存优化、高效压缩等技术,查询效率更比传统数据仓库高    20 倍或更高。它比较适合需要高效数据分析能力,同时客户可以自己定制硬件环境的场景;BigInsights/BigSQL,IBM 大数据解决方案,它基于 Apache Hadoop 及    Spark 技术框架,同时,提供了业界领先的 SQL on Hadoop 技术 BigSQL,完全符合 ANSI SQL 2003 标准,用户已有的应用程序、现有的 BI    工具等不需要修改就可以访问 Hadoop 平台上的结构化数据,同时,BigSQL 提供了联邦查询功能,可以同时访问 Hadoop、DB2 以及 Oracle、SQL    Server、MySQL、PostgreSQL    等数据库,真正实现了大数据的融合访问,避免了新的"信息孤岛"的出现。它比较适合需要处理非结构化数据、海量历史数据查询、海量数据预处理等场景。
IBM 混合数据仓库策略的核心是,不论是受管的公有云服务 dashDB、软件定义的 dashDB Local,还是基于 on-premises 的一体机解决方案 PDA、客户可部署的软件    DB2、Hadoop/Spark 环境的 BigSQL,都采用统一的通用 SQL 分析引擎,如下图,这样,可以真正实现:
  • 应用兼容性:可以实现一次编写,多处运行,不论是 on-premises 环境,还是云环境
  • 操作性兼容:系统操作、管理、运维命令相互兼容,可以复用操作型和管理型的过程,减少学习曲线
  • 集成性:可以使用通用的 Fluid Query 能力,实现联邦查询及数据移动
  • 标准化分析:可以复用数据库內建的通用的编程模型
  • 生态系统:一次 ISV 产品认证,适用于所有平台,更好地构建数据分析生态环境
  • 授权:可以为业务敏捷性及成本优化提供灵活的授权方式
由此,可以实现真正的、具有可移植的分析能力的混合数据仓库解决方案。
IBM    混合数据仓库策略可以为用户提供多种选择,帮助用户选用最佳的数据集(的组合)来满足他们对混合数据仓库解决方案的需求。如下图所示,围绕整个混合数据仓库解决方案,我们为用户提供了通用的服务能力,包括内置分析能力、SQL    及 NoSQ 兼容性、MPP 可扩展性、内存优化的高性能、原生数据加密、高级工作负载管理、应用兼容性等,所有这些特性都是源于通用 SQL    分析引擎。另外,在部署方式上,提供弹性扩展、灵活价格策略、快速部署及装载即运行(load-and-go)能力。
下边列出了混合数据仓库解决方案中每一个产品的特点及优势,可以作为我们选择实现路径时的参考:
受管的公有云服务 dashDB:
  • 由 IBM 运维管理
  • 敏捷,简化
  • 预建与其他云数据服务的集成,如 Cloudant
  • 通过 Aspera 实现并行数据加载
  • 弹性伸缩
软件定义 dashDB Local:
  • 本地部署/运维
  • 针对结构化数据的成本与 Hadoop 相同
  • 利用现有的架构
  • 无缝的横向/纵向扩展
  • 硬件/OS 无关性
  • 按需整合计算/存储资源
一体机 PDA:
  • 一体机
  • 基于 FPGA 加速的高性能
  • 内建的容灾
  • 就地扩展
  • 弹性资源消耗
客户可部署的软件 DB2:
  • 由 IBM 或者用户管理
  • 针对操作性数据或者 ODS 进行分析
  • 用户部署,支持多种硬件/OS
  • 数据发现和探索
  • 需要自行实现高可用和容灾
Hadoop / Spark 环境:
  • 由 IBM 或者用户管理
  • 数据湖或者 Day-0 数据归档
  • 非结构化或者混合数据类型
  • 快速落地数据,并进行即时分析
  • 数据发现和探索
  • 数据转换
IBM 混合数据仓库策略的优势
  • 提供业界独特的通用 SQL 分析引擎,跨越公有云、私有云、本地等多种部署方式,加速构建混合数据仓库架构
  • 在所有数据服务引擎中内嵌 Apache Spark ,提供以开源的方式快速访问分析服务的能力。没有其他厂商可以像 IBM 一样同时提供对 Spark 社区的巨大贡献并将 Spark     引擎直接嵌入到数据库中。
  • 使用 BLU 提供的 in-memory 、列式存储技术
  • 加强同开源及第三方软件集成
  • 在本地及连接通道中数据加密技术
  • 提供同 Oracle 兼容特性,兼容性达 98%,可以轻松移植 Oracle 应用程序,并提供高性能、安全及混合处理能力
返回列表