您现在的位置： Linux教程網 >> UnixLinux > >> Linux編程 >> Linux編程

浮點數float累加誤差分析與解決

1. 浮點數IEEE 754表示方法

要搞清楚float累加為什麼會產生誤差，必須先大致理解float在機器裡怎麼存儲的，這裡只介紹一下組成

由上圖可知(摘在[2])，浮點數由：符號位 + 指數位 + 尾數部分，三部分組成。由於機器中都是由二進制存儲的，那麼一個10進制的小數如何表示成二進制。例如: 8.25轉成二進制為1000.01, 這是因為 1000.01 = 1*2^3 + 0*2^2 + 0*2^1 + 0*2^0 + 0*2^-1 + 2*2^-2 = 1000.01.

（2）float的有效位數是6-7位，這是為什麼呢？因為位數部分只有23位，所以最小的精度為1*2^-23 在10^-6和10^-7之間，接近10^-7, 中也有解釋

那麼為什麼float累加會產生誤差呢，主要原因在於兩個浮點數累加的過程。

2. 兩個浮點數相加的過程

兩浮點數X，Y進行加減運算時，必須按以下幾步執行：
（1）對階，使兩數的小數點位置對齊，小的階碼向大的階碼看齊。
（2）尾數求和，將對階後的兩尾數按定點加減運算規則求和(差)。
（3）規格化，為增加有效數字的位數，提高運算精度，必須將求和(差)後的尾數規格化。
（4）捨入，為提高精度，要考慮尾數右移時丟失的數值位。
（5）判斷結果，即判斷結果是否溢出。

關鍵就在與對階這一步驟，由於float的有效位數只有7位有效數字，如果一個大數和一個小數相加時，會產生很大的誤差，因為尾數得截掉好多位。例如：

123 + 0.00023456 = 1.23*10^2 + 0.000002 * 10^2 = 123.0002

那麼此時就會產生0.00003456的誤差，如果累加多次，則誤差就會進一步加大。

那麼怎麼解決這種誤差呢？

3. 誤差解決的方法

（1）Kahan summation算法。

（2）使用double類型進行計算，由於double類型的有效數字有15~16位，一般情況下產生誤差可以接受。

上一篇文章：解決 GTK+/GNOME 3 環境下 Java Swing 程序使用本地 GTK+ 主題時菜單無邊框 bug 的方法
下一篇文章：浮點加減法的運算步驟

Linux編程

JavaScript 啟動性能瓶頸分析與解決方案

Java浮點數計算精度損失底層原理與解決方案

Java浮點數精確計算

PHP中處理浮點數的一些方法記錄

C++浮點數小數位輸出控制

Hash算法沖突解決方法分析

C++虛基類解決二義性問題及執行結果分析

linux shell比較兩個浮點數

相關文章

2.4.18中無法關閉電源的分析與解決

SCO UNIX系統故障特征、分析及解決

SCO UNIX系統故障特征、分析及解決

SCO UNIX系統故障特征、分析及解決

Linux與WINDOWS雙系統時間誤差的解決

HTML5解決大文件斷點續傳

JDK1.8 HashMap源碼分析

JDK1.7 HashMap 源碼分析

Android中使用Handler造成內存洩露的分析和解決

Linux系統下Mp3標簽亂碼問題的分析和解決

關於HP5l/6l面板指示燈和故障分析解決

2.4.18中無法關閉電源的分析與解決

Linux編程

SHELL編程

PERL編程