大数据架构和模式，第 3 部分理解大数据解决方案的架构层-1

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2018-3-17 11:18 | 只看该作者

大数据架构和模式，第 3 部分理解大数据解决方案的架构层-1

大数据解决方案的逻辑层逻辑层提供了一种组织您的组件的方式。这些层提供了一种方法来组织执行特定功能的组件。这些层只是逻辑层；这并不意味着支持每层的功能在独立的机器或独立的进程上运行。大数据解决方案通常由以下逻辑层组成：

大数据来源
数据改动 (massaging) 和存储层
分析层
使用层

大数据来源：考虑来自所有渠道的，所有可用于分析的数据。要求组织中的数据科学家阐明执行您需要的分析类型所需的数据。数据的格式和起源各不相同：
- 格式— 结构化、半结构化或非结构化。
- 速度和数据量— 数据到达的速度和传送它的速率因数据源不同而不同。
- 收集点— 收集数据的位置，直接或通过数据提供程序，实时或以批量模式收集数据。数据可能来自某个主要来源，比如天气条件，也有可能来自一个辅助来源，比如媒体赞助的天气频道。
- 数据源的位置— 数据源可能位于企业内或外部。识别您具有有限访问权的数据，因为对数据的访问会影响可用于分析的数据范围。
数据改动和存储层：此层负责从数据源获取数据，并在必要时，将它转换为适合数据分析方式的格式。例如，可能需要转换一幅图，才能将它存储在 Hadoop Distributed File System (HDFS) 存储或关系数据库管理系统 (RDBMS) 仓库中，以供进一步处理。合规性制度和治理策略要求为不同的数据类型提供合适的存储。
分析层：分析层读取数据改动和存储层整理 (digest) 的数据。在某些情况下，分析层直接从数据源访问数据。设计分析层需要认真地进行事先筹划和规划。必须制定如何管理以下任务的决策：
- 生成想要的分析
- 从数据中获取洞察
- 找到所需的实体
- 定位可提供这些实体的数据的数据源
- 理解执行分析需要哪些算法和工具。
使用层：此层使用了分析层所提供的输出。使用者可以是可视化应用程序、人类、业务流程或服务。可视化分析层的结果可能具有挑战。有时，看看类似市场中的竞争对手是如何做的会有所帮助。

每一层包含多种组件类型，下面将会介绍这些类型。
图 1. 逻辑和垂直层的组件

大数据来源此层包含所有必要的数据源，提供了解决业务问题所需的洞察。数据是结构化、半结构化和非结构化的数据，而且来自许多来源：

企业遗留系统— 这些系统是企业应用程序，执行业务需要的分析并获取需要的洞察：
- 客户关系管理系统
- 结算操作
- 大型机应用程序
- 企业资源规划
- Web 应用程序开发
Web 应用程序和其他数据来源扩充了企业拥有的数据。这些应用程序可使用自定义的协议和机制来公开数据。
数据管理系统 (DMS)— 数据管理系统存储逻辑数据、流程、策略和各种其他类型的文档：
- Microsoft® Excel® 电子表格
- Microsoft Word 文档
这些文档可以转换为可用于分析的结构化数据。文档数据可公开为领域实体，或者数据改动和存储层可将它转换为领域实体。
数据存储— 数据存储包含企业数据仓库、操作数据库和事务数据库。此数据通常是结构化数据，可直接使用或轻松地转换来满足需求。这些数据不一定存储在分布式文件系统中，具体依赖于所处的上下文。
智慧设备— 智慧设备能够捕获、处理和传输使用最广泛的协议和格式的信息。这方面的示例包括智能电话、仪表和医疗设备。这些设备可用于执行各种类型的分析。绝大多数智慧设备都会执行实时分析，但从智慧设备传来的信息也可批量分析。
聚合的数据提供程序— 这些提供程序拥有或获取数据，并以复杂的格式和所需的频率通过特定的过滤器公开它。每天都会产生海量的数据，它们具有不同的格式，以不同的速度生成，而且通过各种数据提供程序、传感器和现有企业提供。
其他数据源— 有许多数据来自自动化的来源：
- 地理信息：
  - 地图
  - 地区详细信息
  - 位置详细信息
  - 矿井详细信息
- 人类生成的内容：
  - 社交媒体
  - 电子邮件
  - 博客
  - 在线信息
- 传感器数据：
  - 环境：天气、降雨量、湿度、光线
  - 电气：电流、能源潜力等
  - 导航装置
  - 电离辐射、亚原子粒子等
  - 靠近、存在等
  - 位置、角度、位移、距离、速度、加速度
  - 声音、声震动等
  - 汽车、运输等
  - 热量、热度、温度
  - 光学、光、成像、见光度
  - 化学
  - 压力
  - 流动、流体、速度
  - 力、密度级别等
  - 来自传感器供应商的其他数据

数据改动和存储层因为传入的数据可能具有不同的特征，所以数据改动和存储层中的组件必须能够以各种频率、格式、大小和在各种通信渠道上读取数据：

数据获取— 从各种数据源获取数据，并将其发送到数据整理组件或存储在指定的位置中。此组件必须足够智能，能够选择是否和在何处存储传入的数据。它必须能够确定数据在存储前是否应改动，或者数据是否可直接发送到业务分析层。
数据整理— 负责将数据修改为需要的格式，以实现分析用途。此组件可拥有简单的转换逻辑或复杂的统计算法来转换源数据。分析引擎将会确定所需的特定的数据格式。主要的挑战是容纳非结构化数据格式，比如图像、音频、视频和其他二进制格式。
分布式数据存储— 负责存储来自数据源的数据。通常，这一层中提供了多个数据存储选项，比如分布式文件存储 (DFS)、云、结构化数据源、NoSQL 等。

分析层这是从数据中提取业务洞察的层：

分析层实体识别— 负责识别和填充上下文实体。这是一个复杂的任务，需要高效的高性能流程。数据整理组件应为这个实体识别组件提供补充，将数据修改为需要的格式。分析引擎将需要上下文实体来执行分析。
分析引擎— 使用其他组件（具体来讲，包括实体鉴别、模型管理和分析算法）来处理和执行分析。分析引擎可具有支持并行处理的各种不同的工作流、算法和工具。
模型管理— 负责维护各种统计模型，验证和检验这些模型，通过持续培训模型来提高准确性。然后，模型管理组件会推广这些模型，它们可供实体识别或分析引擎组件使用。

收藏分享评分

回复引用

订阅 TOP

返回列表

大数据架构和模式，第 3 部分 理解大数据解决方案的架构层-1

大数据架构和模式，第 3 部分 理解大数据解决方案的架构层-1

大数据架构和模式，第 3 部分理解大数据解决方案的架构层-1

大数据架构和模式，第 3 部分理解大数据解决方案的架构层-1