Linux 和对称多处理（1）

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2017-12-9 12:58 | 只看该作者

Linux 和对称多处理（1）

可以通过多种方法提高 Linux 系统的性能，而其中最流行的一种是提高处理器的性能。一个明显的解决方案是使用具有更快时钟频率的处理器，但是对于任何特定技术来讲都存在一个物理极限，时钟频率也有这样的极限。当达到那个极限时，可使用 “越多越好” 的方法应用多处理器。不幸的是，多处理器的性能并不与单个处理器性能的总和成线性比例。
在开始讨论 Linux 中的多处理应用程序之前，我们先来快速地回顾一下多处理的历史。
多处理的历史多处理起源于 20 世纪 50 年代中期的一些公司，这些公司中有些您可能知道，而另一些您可能就不记得了（IBM、Digital Equipment Corporation、Control Data Corporation）。20 世纪 60 年代早期，Burroughs Corporation 引入了一种对称 MIMD 多处理器，它带有四个 CPU 并通过交叉开关可连接最多十六个内存模块（第一种 SMP 架构）。1964 年引入了 CDC 6600，它的使用比较成功并得到流行，它提供了一个带有十个子处理器（外围处理单元）的 CPU。20 世纪 60 年代末，Honeywell 发布了它的第一个 Multics 系统，这是带八个 CPU 的另一种对称多处理系统。
在开发多处理系统的同时，各种技术的使用也提高了缩小处理器体积和运行更快的时钟频率的能力。20 世纪 80 年代，Cray Research 等公司引入了多处理器系统和类似 UNIX® 的操作系统（CX-OS），以便利用这些能力。
20 世纪 80 年代末期，随着单处理器个人计算机系统（如 IBM PC）的流行，多处理系统的使用呈下降趋势。但是到了二十年后的现在，多处理利用对称多处理技术又回到了个人计算机系统中。
Amdahl 法则Gene Amdahl 是一名计算机架构师、IBM 职员，在 IBM、Amdahl Corporation（以他的名字命名的企业）和其他一些公司从事计算机架构开发。但是最著名的是他的法则，该法则用于在改进系统的一部分后预测最大的预期系统改进。它主要用来计算使用多处理器后理论上的最大性能改进（参见图 1）。
图 1. 处理器并行化的 Amdahl 法则

使用图 1 所示的等式，可计算系统的最大性能改进，N 表示处理器的数目，而因数 F 指定不能并行化的系统部分（即本质上顺序的系统部分）。结果如图 2 所示。
图 2. 最多十个 CPU 的 Amdahl 法则

图 2 中最上面的一条线显示了处理器的数目。理想状态下，添加另外的处理器来解决问题时，希望看到这样的性能增长。不幸的是，并非所有的问题都可以并行化，而且还有管理处理器的开销，所以速度的提高并没有这么大。底部（紫色的线）是一个 90% 的处理属于顺序性的问题例子。在此图中，最佳的情况是棕色的线，它展示了一个 10% 顺序性（因此 90% 可并行化）的问题。即使在这种情况下，十个处理器的执行性能也只比五个稍好一点儿。
多处理和 PCSMP 架构：两个或多个同样的处理器通过一块共享内存彼此连接。每个处理器可同等地访问共享内存（具有相同的内存空间访问延迟）。可将此架构与 Non-Uniform Memory Access（NUMA）架构进行对比。例如，每个处理器拥有自己的内存，访问共享内存时具有不同的访问延迟。
松耦合多处理最早的 Linux SMP 系统是松耦合多处理器系统。这些系统是利用多个高速互连的单一系统构造的（如 10G 以太网、Fibre Channel 或 Infiniband）。此类架构也被称作集群（参见图 3），Linux Beowulf 项目是此类架构的一个流行的解决方案。Linux Beowulf 集群可利用普通硬件和典型的网络互连（如以太网）来构建。
图 3. 松耦合多处理架构

构建松耦合多处理器架构很容易（由于使用了 Beowulf 之类的项目），但是它们也有自身限制。构建大型的多处理器网络可能占用相当大的空间并消耗很多电量。因为它们通常是利用普通硬件来构建的，所以包含的有些硬件不相关却要耗费很多电量和空间。更大的缺点在于通信结构。即使使用高速网络（如 10G 以太网），也存在系统可伸缩性的限制。
紧密耦合多处理紧密耦合多处理指芯片级多处理（CMP）。可将其看作松耦合架构按比例缩小至芯片级。这正是紧密耦合多处理（也称作多核计算）背后的思想。在一个集成电路中，多个芯片、共享内存以及互连形成了一个紧密集成的多处理核心（参见图 4）。
图 4. 紧密耦合多处理架构

在 CMP 中，多个 CPU 通过共享总线连接到共享内存（2 级缓存）。每个处理器也拥有自身的快速内存（1 级缓存）。CMP 紧密耦合的本质使处理器与内存之间的物理距离很短，因此可提供最小的内存访问延迟和更高的性能。此类架构在多线程应用程序中运行良好，该类应用程序中线程可能被分配给多个处理器以实现并行操作。这种方法被称作线程级并行（TLP）。
由于这种多处理器架构的流行，很多供应商都生产了 CMP 设备。表 1 列出了一些 Linux 支持的流行变种。
表 1. CMP 设备样例供应商设备说明IBMPOWER4SMP，双 CPUIBMPOWER5SMP，双 CPU，四个并发线程AMDAMD X2SMP，双 CPUIntel®XeonSMP，双 CPU 或四 CPUIntelCore2 DuoSMP，双 CPUARMMPCoreSMP，最多四 CPUIBMXenonSMP，三个 Power PC CPUIBMCell Processor不对称多处理（Asymmetric multiprocessing，ASMP），九 CPU

收藏分享评分

回复引用

订阅 TOP

返回列表