浮点数与IEEE 754(4)

论坛元老

Rank: 8 Rank: 8

UID: 1029342
性别: 男

1^#

打印

字体大小: tT

yuyang911220发表于 2016-11-13 21:48 | 只看该作者

浮点数与IEEE 754(4)

小数点

5.3
有符号的零

因为 IEEE 标准的浮点数格式中，小数点左侧的 1 是隐藏的，而零显然需要尾数必须是零。所以，零也就无法直接用这种格式表达而只能特殊处理。

实际上，零保存为尾数域为全为 0，指数域为 emin - 1 = -127，也就是说指数域也全为 0。考虑到符号域的作用，所以存在着两个零，即 +0 和 -0。不同于正负无穷之间是有序的，IEEE 标准规定正负零是相等的。

零有正负之分，的确非常容易让人困惑。这一点是基于数值分析的多种考虑，经利弊权衡后形成的结果。有符号的零可以避免运算中，特别是涉及无穷的运算中，符号信息的丢失。举例而言，如果零无符号，则等式 1/(1/x) = x 当x = ±∞ 时不再成立。原因是如果零无符号，1 和正负无穷的比值为同一个零，然后 1 与 0 的比值为正无穷，符号没有了。解决这个问题，除非无穷也没有符号。但是无穷的符号表达了上溢发生在数轴的哪一侧，这个信息显然是不能不要的。零有符号也造成了其它问题，比如当 x=y 时，等式1/x = 1/y 在 x 和 y 分别为 +0 和 -0 时，两端分别为正无穷和负无穷而不再成立。当然，解决这个问题的另一个思路是和无穷一样，规定零也是有序的。但是，如果零是有序的，则即使 if (x==0) 这样简单的判断也由于 x 可能是 ±0 而变得不确定了。两害取其轻者，零还是无序的好。

5.4
非规范化数

我们来考察浮点数的一个特殊情况。选择两个绝对值极小的浮点数，以单精度的二进制浮点数为例，比如 1.001 × 2-125 和 1.0001 × 2-125 这两个数（分别对应于十进制的 2.6448623 × 10-38 和 2.4979255 × 10-38）。显然，他们都是普通的浮点数（指数为 -125，大于允许的最小值 -126；尾数更没问题），按照 IEEE 754 可以分别保存为 00000001000100000000000000000000（0x1100000）和 00000001000010000000000000000000（0x1080000）。

现在我们看看这两个浮点数的差值。不难得出，该差值为 0.0001 × 2-125，表达为规范浮点数则为 1.0 × 2-129。问题在于其指数大于允许的最小指数值，所以无法保存为规范浮点数。最终，只能近似为零（Flush to Zero）。这中特殊情况意味着下面本来十分可靠的代码也可能出现问题：

if (x != y) {

z = 1 / (x -y);

}

正如我们精心选择的两个浮点数展现的问题一样，即使 x 不等于 y，x 和 y 的差值仍然可能绝对值过小，而近似为零，导致除以 0 的情况发生。

为了解决此类问题，IEEE 标准中引入了非规范（Denormalized）浮点数。规定当浮点数的指数为允许的最小指数值，即 emin
时，尾数不必是规范化的。比如上面例子中的差值可以表达为非规范的浮点数 0.001 × 2-126，其中指数 -126 等于 emin。注意，这里规定的是"不必"，这也就意味着"可以"。当浮点数实际的指数为 emin，且指数域也为 emin 时，该浮点数仍是规范的，也就是说，保存时隐含着一个隐藏的尾数位。为了保存非规范浮点数，IEEE 标准采用了类似处理特殊值零时所采用的办法，即用特殊的指数域值 emin - 1 加以标记，当然，此时的尾数域不能为零。这样，例子中的差值可以保存为 00000000000100000000000000000000（0x100000），没有隐含的尾数位。

有了非规范浮点数，去掉了隐含的尾数位的制约，可以保存绝对值更小的浮点数。而且，也由于不再受到隐含尾数域的制约，上述关于极小差值的问题也不存在了，因为所有可以保存的浮点数之间的差值同样可以保存。

6.
范围和精度

很多小数根本无法在二进制计算机中精确表示（比如最简单的 0.1）由于浮点数尾数域的位数是有限的，为此，浮点数的处理办法是持续该过程直到由此得到的尾数足以填满尾数域，之后对多余的位进行舍入。换句话说，除了我们之前讲到的精度问题之外，十进制到二进制的变换也并不能保证总是精确的，而只能是近似值。事实上，只有很少一部分十进制小数具有精确的二进制浮点数表达。再加上浮点数运算过程中的误差累积，结果是很多我们看来非常简单的十进制运算在计算机上却往往出人意料。这就是最常见的浮点运算的"不准确"问题。

参见下面的 Java 示例：

System.out.print("34.6-34.0=" + (34.6f-34.0f));

这段代码的输出结果如下：

34.6-34.0=0.5999985

产生这个误差的原因是 34.6 无法精确的表达为相应的浮点数，而只能保存为经过舍入的近似值。这个近似值与 34.0 之间的运算自然无法产生精确的结果。

存储格式的范围和精度

格式

有效数字（二进制）

最小正正规数

最大正数

有效数字（十进制）

单精

1.175... 10-38

3.402... 10+38

6-9

双精度

2.225... 10-308

1.797...10+308

15-17

双精度扩展(SPARC)

113

3.362... 10-4932

1.189...10+4932

33-36

双精度扩展(x86)

3.362... 10-4932

1.189...10+4932

18-21

7.
舍入

值得注意的是，对于单精度数，由于我们只有 24 位的指数（其中一位隐藏），所以可以表达的最大指数为 224 - 1 = 16,777,215。特别的，16,777,216 是偶数，所以我们可以通过将它除以 2 并相应地调整指数来保存这个数，这样 16,777,216 同样可以被精确的保存。相反，数值 16,777,217 则无法被精确的保存。由此，我们可以看到单精度的浮点数可以表达的十进制数值中，真正有效的数字不高于 8 位。事实上，对相对误差的数值分析结果显示有效的精度大约为 7.22 位。参考下面的示例：

收藏分享评分

继承事业，薪火相传

回复引用

订阅 TOP

返回列表