Board logo

标题: 科普帖:五分钟快速了解大数据(2) [打印本页]

作者: look_w    时间: 2019-3-4 20:36     标题: 科普帖:五分钟快速了解大数据(2)

大数据的特定技术

一般来说,除了上述用于数据的IT基础设施之外。您的IT基础架构应该支持特定于大数据的几种技术。

1. Hadoop生态系统

Hadoop是与大数据密切相关的技术之一。 Apache Hadoop项目为可扩展的分布式计算开发开源软件。Hadoop软件库是一个框架,可以使用简单的编程模型在整个计算机集群上分布式处理大型数据集。它旨在从单个服务器扩展到数千个服务器,每一个都提供本地计算和存储。该项目包括几个模块:

* Hadoop Common,支持其他Hadoop模块的常用工具;

* Hadoop分布式文件系统,提供对应用程序数据的高吞吐量访问;

* Hadoop YARN,作业调度和集群资源管理的框架;

* Hadoop MapReduce,一个基于YARN的并行处理大型数据集的系统。


科普帖:五分钟快速了解大数据

2. Apache Spark

作为Hadoop生态系统的一部分,Apache Spark是一个开源的集群计算框架,可用作在Hadoop中处理大数据的引擎。 Spark已经成为关键的大数据分布式处理框架之一,并且可以以各种方式进行部署。它为Java、Scala、Python和R编程语言提供本地绑定,并支持SQL、流数据、机器学习和图形处理。

3. 数据湖

数据湖泊是存储库,它以本机格式存储极大量的原始数据。数字化转型举措和物联网的发展促进了数据湖的发展。数据湖的设计是为了方便用户在需要时访问大量的数据。

4. NoSQL数据库

传统的SQL数据库是为可靠的事务和即席查询而设计的,但是它们有严格的架构等限制,这使得它们不太适合某些类型的应用程序。NoSQL数据库解决了这些限制,并以高速运行和高度灵活性的方式存储和管理数据。与SQL数据库不同,许多NoSQL数据库可以在数百或数千台服务器上横向扩展。

5. 内存数据库

内存数据库(IMDB)是一种数据库管理系统,主要依靠主内存来存储数据。内存数据库比磁盘优化数据库要快。




欢迎光临 电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛 (http://bbs.eccn.com/) Powered by Discuz! 7.0.0