首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

IBM dashDB Local 从入门到精通,第 1 部分 IBM 私有云数据仓库解决方案介绍(2)

IBM dashDB Local 从入门到精通,第 1 部分 IBM 私有云数据仓库解决方案介绍(2)

IBM dashDB–数据仓库分析云服务dashDB 是 IBM 基于公有云的数据仓库及分析解决方案,可以部署在 Softlayer 或 Amazon Web Services    公有云上,它提供大规模数据仓库处理能力,为用户提供灵活的数据容量及处理速度的选择,同时提供统一的体系结构允许用户在本地及云之间进行混合数据处理。如下图所示:
dashDB 提供数据库内分析能力,不需要将数据迁移到单独的分析引擎上,而是直接针对数据库中的数据进行分析,效率高,可以实现全量数据挖掘、分析,而不仅仅是针对抽样数据进行建模分析。
dashDB 采用 DB2 BLU 提供的内存加速、列式存储、先进的数据压缩技术以及数据忽略、并行向量处理技术,提供了高于传统数据仓库 25 倍及以上的查询效率。
dashDB 完全集成 R 语言及 RStudio,提供开源数据分析能力。
dashDB 完全集成 Cloudant,可以将 Cloudant JSON 文档自动转换成结构化数据并保存在 dashDB 中进行分析。
dashDB 提供了"Load and Go"加载即运行的实现方式,不需要事先创建索引,执行统计更新等操作,管理、运维简单。
dashDB 提供了 Oracle 兼容特性,兼容性达 98%,可以轻松移植 Oracle 应用程序。
同时,dashDB 是一个安全、可靠的环境,提供了静态数据加密、安全连接、基于角色身份认证、敏感数据报告等。
dashDB 还提供了大规模并行处理 Massively Parallel Processing(MPP)弹性伸缩能力。
采用全托管的数据仓库 IBM dashDB,可以减轻您的数据仓库分析员的管理和运维的负担:
IBM 设置、优化和管理 dashDB 环境的各方面:
  • OS 和数据库软件安装
  • 针对分析工作负载优化配置
  • BLU Acceleration"加载后立即执行"的简便性
    • 不需要创建辅助结构,例如索引或汇聚
    • 自动化内存管理
    • 自动化统计数据收集
    • 自动化空间回收
    • 预配置工作负载管理
  • 持续的 OS 和数据库软件维护
  • 自动化日常备份
  • 7/24 监控以及软硬件故障后重启
  • 持续风险评估和安全监控
  • 转移到更大 dashDB 的升级支持
数据库分析员只需要将注意力集中在数据交付方面:
  • Schema 设计
  • 数据加载
  • 用户管理和数据库访问控制
  • 应用、ETL 连接
dashDB:基于 BLU Acceleration 创新技术
dashDB 采用了 BLU Acceleration 多种创新技术,主要包括:
  • 动态内存优化技术
DB2 BLU 提供了动态内存优化技术,数据采用霍夫曼编码等数据压缩方式保存在内存中,当数据集超过内存大小时,可以采用"Query    Friendly"内存调度算法,将热点数据尽可能多地保留在内存中。
  • 可行压缩
BLU 采用霍夫曼编码等数据压缩方式,提供了优异的压缩性能,通常,可以对表中的数据提供 10 倍及以上的压缩比。同时,BLU 不需要创建索引及物化表,算上这部分空间节省,BLU    数据压缩比传统行式表要高出 25 倍或更高。 另外,BLU 可以基于压缩数据进行比较、谓词评估(predicate evaluation)等操作,避免了数据解压的过程,较少了 CPU    消耗、提高了处理的效率。
  • 并行向量处理
BLU 充分利用现代硬件技术如多进程、多线程结构发挥单指令多数据 SIMD (Single Instruction Multiple Data)    等硬件能力。SIMD 允许在多核上执行并行扫描操作,分析查询比其他数据库更高效。
  • 数据忽略
DB2 BLU 提供数据过滤功能,它为每一张列式存储表自动创建一个 synopsis 表,数据表中的每 1024 行记录,会在 synopsis    表中插入一行记录用来记载其最小值及最大值,当对数据表进行扫描时,DB2 with BLU Acceleration 会查找 synopsis 表自动过滤不符合条件的数据块,节省大量    IO、内存和 CPU 开销。synopsis 表的大小基本为用户数据表的 0.1%,它的创建及维护完全由 DB2 BLU 负责,无需任何 DBA 的管理工作。
dashDB:内置 Netezza高级分析功能
IBM Netezza (IBM PureData System for Analytics) 提供功能丰富的数据库内分析能力,包括常见的 k-Means     Clustering、Decision TreeLinear     RegressionGeospatial 等数据挖掘算法,这些能力现在已经加入到 dashDB    中。
dashDB 同 IBM 云生态环境
IBM 云服务最主要的优势是其整体的、统一的体系结构,多个 as-a-Service 平台不是分立的而是深度整合在一起,如下图所示:
在系统栈最底层是 IaaS(Infrastructure as a Service)平台 IBM SoftLayer,SoftLayer 作为 IBM 的 IaaS    平台,提供了业界独特的优势:
  • 不仅可以提供多租户方式,还提供了独特的裸机(Bare metal)方式
  • 采用裸机(Bare metal)方式,可以提供专用的性能、单租户模式、噪音隔离等优势
  • SoftLayer 有超过 40 个数据中心遍布世界各地,实现全球可达性,可以更好地服务于本地
dashDB 运行在 IBM PaaS(Platform as a Service)平台 Bluemix 上,它可以通过 Cloudant 进行配置(Provisioning)或者直接在    Bluemix 平台上进行配置。dashDB 包含两种配置,一个是 dashDB for Analytics,主要用于分析或"Systems of Insight";另一个是 dashDB    for Transactions,主要用于云上的事务处理或"Systems of Record"。
Cloudant 是 IBM NoSQL 数据库解决方案,主要用于构建 Web 及移动应用,我们称之为"Systems of Engagement"。应用程序主要通过 RESTful    Web-based API 访问 Cloudant 数据库。我们可以在 Cloudant 图形化管理界面中点击一个按钮来调用 Cloudant SDP (the Schema    Discovery Process)组件自动将 NoSQL JSON 文档转换为 BLU 列式结构化数据、在 Bluemix 上创建 dashDB 数据仓库并装载数据进行分析。我们还可以在创建    dashDB 数据仓库时指定自动增量复制 Cloudant 数据到 dashDB,不需要每次重新扫描整个 Cloudant 数据库,这样,我们就可以将 Cloudant 中的热点数据实时同步到    dashDB 数据仓库中,实现对"Systems of Engagement"系统进行实时分析。
我们可以通过 IBM DataWorks,现在叫 Bluemix Data Connect,它是 Bluemix    上的数据抽取、提炼、加载服务来实现本地及云之间关系数据存储的整合。不管是"Systems of Record"系统,包括 DB2、Oracle、HDP、flat file、dashDB for    transactions 等,还是 Systems of Insight 系统,包括 Watson Analytics、dashDB for Analytics 等,我们都可以通过    Bluemix Data Connect 服务实现彼此之间的数据读写操作,进行数据交换。
dashDB 本身可以通过 JDBC or ODBC drivers 来连接 IBM 及第三方的查询、分析工具,包括 Cognos、 SPSS、 SAS、Tableau 及 ESRI    ArcGIS。
所有的 Cloudant、 Bluemix 及 dashDB 都部署在 IBM SoftLayer 上充分保证其性能、安全性及可扩展性。
dashDB    Local–基于私有云数据仓库解决方案dashDB Local 是 IBM 针对私有云或虚拟私有云如 AWS 及 Microsoft Azure 数据仓库解决方案,如下图所示:
它采用目前流行的 Docker 容器技术打包 dashDB Local 软件并进行分发,软件的部署、运维快速、简单,可以灵活部署到用户数据中心本地或 AWS、Azure    等公有云的虚拟私有云环境。dashDB Local 源于 dashDB,采用了 dashDB 多种领先的技术,包括 BLU    列式存储、动态内存加速、可行数据压缩、并行向量处理、数据忽略等技术;Netezza 数据库内数据分析技术;Oracle 兼容特性等,使 dashDB Local 查询效率比传统数据仓库高出    25 倍或更高,同时,存储空间减少 10 倍或更多,不需要将数据采样或装载到单独的分析引擎中进行数据挖掘分析,直接在 dashDB Local 数据库中完成即可,另外,用户如果采用    Oracle 应用程序,也几乎不需要修改,直接就可以运行在 dashDB Local 数据库上,兼容性可达 98%。
dashDB Local 还提供了大规模并行处理 Massively Parallel Processing(MPP)弹性伸缩能力。
dashDB Local 基于软件定义 SDE(Software Defined    Environment)方式,数据库可以根据主机环境自动配置、优化,运维虽然需要用户自己完成,但工作量、复杂度极小。
dashDB Local 不同于    dashDB,它是部署在用户数据中心本地或私有云环境,数据、应用及环境完全由用户自己掌控,符合用户对隐私以及来自监管方面的要求,同时又拥有云所带来的简单、快速的优势。
dashDB Local 优势dashDB Local    提供了云的简单、快速的优势,同时,又保证了用户自己拥有、掌控数据,满足数据安全、隐私及合规的要求,是一个性能优异、安全合规的私有云或虚拟私有云数据仓库解决方案。它的优势主要体现在以下四个方面,如下图所示:
dashDB Local 优势: 开放
  • 支持广泛的数据源类型,包括 Cloudant JSON 文件、空间数据(geospatial data)、对象存储(object storage)等
  • 可以使用熟悉的 BI 工具如 Cognos、 SPSS、 SAS、Tableau;开源 R、Python;数据库内分析能力及 Apache Spark 来分析大规模数据
  • 连接 Esri ArcGIS 进行空间( geospatial )数据分析
dashDB Local 优势: 灵活
  • 可以运行在本地或 hosted IaaS 平台
  • 跨越不同地理位置无缝迁移应用负载(公有云、私有云、本地数据中心)
  • 可以选择 Spark 或 SQL 进行分析处理
  • 实现弹性扩展 (scale out and scale in) ,充分利用已有资源
  • 针对不同部署方式的可转变的、灵活的许可证选择
dashDB Local 优势: 快速
  • 仅用 30 分钟就可完成 dashDB Local MPP 部署
  • 使用 BLU 的动态内存加速技术,Netezza 的数据库内分析能力及 Apache Spark 实现快速分析
  • 开箱即用的从 Cloudant NoSQL 数据库到 dashDB Local 数据转换功能,包括空间数据
dashDB Local 优势: 简单
  • 通过 Docker 容器技术轻松部署及管理
  • 根据不同负载需求动态调整系统资源,不需要复杂的优化工作
  • Load&go,装载即运行,不需要事先创建索引、物化视图
  • 内置 Apche Spark,不需要另外安装及配置
  • 内置高可用及 DR
返回列表