首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

4 KB 扇区磁盘上的 Linux:文件系统数据结构为何会影响性能

4 KB 扇区磁盘上的 Linux:文件系统数据结构为何会影响性能

文件系统数据结构为何会影响性能当今的文件系统使用的是 4,096 字节或更大的数据结构。因此,大部分磁盘 I/O 操作使用了此数量的成倍大小的扇区。试想一下,如果 Linux 想在一个拥有 4,096 字节扇区的新磁盘上读写这些数据结构中的某一个,将会出现什么情况。如果文件系统数据结构恰好与基础物理扇区大小完全一致,那么读写 4,096 字节的数据结构就会产生单一扇区的读写。硬盘的固件不需要采取任何特别措施,但是,如果文件系统数据结构与基础物理扇区不完全一致,那么读写操作必须访问两个物理扇区。图 1 显示了这种差异:
图 1. 磁盘数据结构可以跨越高级格式化磁盘上的物理扇区从理论上讲,读操作受到未对齐的影响小于写操作受到的影响。在执行磁盘读取操作时,磁盘的读/写磁头很可能忽略一个接着一个的扇区,因此固件返回 4 KiB 数据结构的任务就比较简单。相比之下,未对齐的数据结构的写操作要求磁盘的固件读取两个扇区,修改两个扇区的部分,然后写入两个扇区。这项操作花费的时间多于 4,096 字节数据占用单个扇区的时间。因此,会导致性能下降。实际上,读操作受到的影响有时与写操作受到的影响一样严重。
如何才能知道数据结构是否恰好对齐?大多数文件系统将其数据结构与包含数据结构的分区的开始部分对齐。因此,如果分区开始时是 4,096 字节(8 个扇区)的边界,则能恰好对齐。不过,在大约 2010 年以前,Linux 分区工具并不是采用这种方式来创建对齐的分区。即使在今天,这种方式仍然存在一些缺陷,因此创建分区时一定要小心谨慎。(要想了解如何使用常见的 Linux 分区软件完成这项工作,请转到下一小节,对齐分区。)
测试参数为了了解正确对齐究竟有多重要,我在三台计算机上使用了三个高级格式化磁盘来执行测试:
  • 一个 1TB 的西部数据 WD-10EARS 高级格式化驱动器 — 在使用了一个 NVIDIA MCP61P 芯片组和一个 64 位 2.6.32.3 内核的计算机上首批引入(2009 年末)的高级格式化磁盘之一。测试结果发布在本文的第一版中(2010 年出版)。
  • 一个 2TB 的希捷 ST2000L003 驱动器,于 2012 年购买,该驱动器位于具有较新的 AMD 760G/SB710 芯片组和一个 64 位 3.4.1 内核的计算机上。
  • 一个 3TB 的东芝 DT01ACA300 驱动器,于 2013 年末购买,该驱动器位于具有一个 Intel® H77 芯片组和一个 64 位 3.11.7 内核的计算机上。
在三个测试中,我都使用了全局惟一标识符 (GUID) 分区表 (GPT) 系统对磁盘进行分区,对齐的分区从逻辑扇区 40 开始,未对齐的分区从逻辑扇区 34(在使用具有默认分区表大小的 GPT 磁盘时,该扇区是第一个可用的扇区) 开始。被测试的文件系统是第三扩展文件系统 (ext3)、第四扩展文件系统 (ext4)、ReiserFS (V3)、日志文件系统 (JFS)、扩展文件系统 (XFS) 和 B-tree 文件系统 (Btrfs)。
在所有测试中,一个脚本执行了一系列的磁盘 I/O 操作,包括创建新的文件系统,将未压缩的 Linux 内核原始码 (tarball) 提取到测试驱动器中,将原始码复制到驱动器,读取测试驱动器上未压缩的原始码,从驱动器中读取原始码,以及删除 Linux 内核目录。源 Linux 内核原始码存储在另一个磁盘中,用于读取测试,输出被定向到 /dev/null。在执行每个写入测试后,都会立刻卸载测试驱动器,以此作为确保 Linux 磁盘缓存中没有保留任何操作的一种手段。报告的数字包括执行卸载操作所需的时间。
用于第一次测试的内核原始码的大小为 365MiB,用于第二次和第三次测试的内核原始码的大小为 451MiB。所有磁盘都有 64MiB 的缓存,因此两个测试中的原始码的大小都大大超过了磁盘的缓存大小。我在每个文件系统上运行每个测试序列各 6 次,3 次是在正好对齐的分区中,3 次是在未对齐的分区中。这些运行之间的变化不大。通过将平均对齐时间除以平均未对齐时间,就可以确定性能对未对齐的影响程度。值大于 1.00 表示未对齐存在一些性能损失。
基准测试结果所有磁盘都显示了未对齐分区带来的损失,2009 西部数据磁盘和 2013 东芝磁盘像是一个类似的模式,2012 希捷模型显示了一种不同的模式。因此,我分两组介绍每一种结果的模式。
西部数据和东芝测试结果2010 年在西部数据磁盘上运行的许多测试表明,所带来的性能损失是适中的。对于文件系统创建,性能损失值的范围为 0.96(对于 XFS)到 7.94(对于 ReiserFS),平均值为 2.79。在 2013 年的东芝测试上,对于文件系统创建,性能损失值的范围为 1.22(对于 ext4)到 1.82(对于 ext3 和 XFS),平均值为 1.57。由于文件系统创建通常进行得很少,所以这种性能损失并不重要。西部数据读取测试产生的比率范围为 0.95 到 1.25,包括最多 25% 的速度损失,如 图 2 所示。值为 1.00 意味着没有损失,值越高则表示性能越差。东芝的性能损失值范围为 0.94 到 1.11,如 图 3 所示。
图 2. 在西部数据 WD-10EARS 磁盘上使用未对齐分区的读取性能损失图 3. 在东芝 DT01ACA300 磁盘上使用未对齐分区的读取性能损失大型文件的写入性能也会有适度的性能损失。在西部数据磁盘上,性能损失值的范围为 1.10(对于 XFS 和 JFS)至 6.02(对于 ReiserFS),平均值为 2.10;在东芝磁盘上,性能损失值的范围为 1.03(对于 ext4)至 2.38(对于 ReiserFS),平均值为 1.34。许多峰值都由 ReiserFS 的敏感性引起的。消除 ReiserFS 的敏感性之后,西部数据和东芝驱动器上其余 5 个文件系统的平均性能损失值分别为 1.31 和 1.13。删除文件的效果与此类似。在西部数据驱动器上,这些值的范围为 1.04(对于 XFS)到 4.78(对于 JFS),平均值为 1.97;在东芝驱动器上,性能损失值的范围为 1.05(对于 ext4)到 1.59(对于 JFS),平均值为 1.30。
小型文件的创建(提取内核原始码)对写入性能的影响最大。在西部数据磁盘上,对原始码提取的影响范围为 1.04(对于 ext4)到 25.53(对于 ReiserFS),平均值为 10.9。在本测试中,第二影响因素是 XFS,平均值为 1.82。在东芝磁盘上,影响范围为 1.44(对于 Btrfs)到 3.17(对于 ReiserFS),平均值为 1.92。由于这些数字是未对齐与对齐性能的比率,所以当值为 10.9 时,表示在完全对齐的分区上花了 10 秒钟,而在未对齐的分区上花了 109 秒 — 差别巨大!
图 4 总结了西部数据磁盘上所有文件系统的写入性能损失,而 图 5 总结了东芝磁盘上所有文件系统的写入性能损失。和之前一样,值为 1.00 表示没有损失;值越高就表示性能越差。
图 4. 在西部数据 WD-10EARS 磁盘上使用未对齐分区的写入性能损失图 5. 在东芝 DT01ACA300 磁盘上使用未对齐分区的写入性能损失希捷硬盘测试结果在希捷 ST2000L003 磁盘上进行测试时,产生了截然不同的结果。文件系统创建的性能损失范围为 1.09(对于 ReiserFS)到 1.97(对于 JFS),平均值为 1.42,这个结果与东芝磁盘上的结果类似。
令人惊讶的首先是读访问结果,如 图 6 所示。读取性能在希捷驱动器上受到的影响远大于在西部数据或东芝驱动器上受到的影响,在 JFS 下,小型文件读取的性能损失值的范围高达 8.54,平均值为 4.13。甚至大型文件读取性能也受到了影响,平均值为 1.88,而且最高可达 3.76(对于 ReiserFS)。
图 6. 在希捷 ST2000L003 磁盘上使用未对齐分区的读取性能损失希捷磁盘的写入性能损失如 图 7 所示。小型文件创建的性能损失的范围为 1.23(对于 Btrfs)到 3.04(对于 ext3),平均值为 1.98。大型文件创建的性能损失的范围为 1.04(对于 Btrfs)到 3.87(对于 ReiserFS),平均值为 1.78。对于大多数文件系统来说,最大的损失在文件删除中,范围为 1.23(对于 Btrfs)到 7.75(对于 ext4),平均值为 4.14。
图 7. 在希捷 ST2000L003 磁盘上使用未对齐分区的写入性能损失测试结果分析三个硬盘上的结果模式之间的差异令人感到惊讶。我几乎花费了近四年的时间进行这些测试,我认为变量(磁盘品牌和型号、非磁盘硬件和 Linux 内核版本)不能精确地说明造成这些差异的原因。我对关于特定磁盘品牌的推断结果都很谨慎;尤其是,与西部数据磁盘相比,东芝磁盘的性能损失较小,这可能是改进的内核功能或主板磁盘硬件造成的。但是,不同的结果模式对于大多数人而言并不重要,因为结论是相同的:使用未对齐的分区会带来重大的性能损失。
注意:这些测试并不反映所有文件系统的总体性能。例如,例如,您不应该因为 ReiserFS 产生一些最大的性能差异,就认为它对性能的影响不好。不过,ReiserFS 对不合理的对齐比其他文件系统更敏感,至少在某些重要测试中是这样。
如果使用了逻辑卷管理器 (LVM),那么您需要意识到,LVM 的对齐规则与分区的对齐规则是相同的。虽然您不需要关心 LVM 中的逻辑卷对齐,但您应该注意 LVM 分区本身的对齐。少数文件系统的抽样检查使用了 LVM 来复制以前的结果。
在实际情况中,所有这些意味着什么?您首先应该确定磁盘的物理扇区大小。如果发现您已经有一个高级格式化驱动器,则应该正确地对齐您的分区。
返回列表