TD Flottants

1 Nombres flottants 

1.1 Exemple 

Arithmétique flottante 

Déterminer et représenter graphiquement sur un axe l’ensemble F(2, 3, −2, 1). 

Un flottant normalisé avec β = 2, p = 3, emin = −2 et emax = 1 s’écrit ±1, d1 d2 2 e où (d1, d2) ∈ 

{0, 1} 2 et e ∈ {−2, −1, 0, 1}. Il y a donc 33 flottants normalisés dans F(2, 3, −2, 1) : 16 strictement 

positifs, 16 strictement négatifs et le zéro. 

Le plus petit flottant strictement positif de F(2, 3, −2, 1) est m = 1, 00 2 −2 = 1 

4 · 

Le plus grand flottant de F(2, 3, −2, 1) est M = 1, 11 2 1 = 1 + 1 1 

7 

+ × 2 = 

2 4 2 · 

Le plus petit écart entre deux flottants successifs non nuls de F(2, 3, −2, 1) est 

ulpmin = 0, 01 2 −2 = 1 1 1 

× = 

4 4 16 · 

On remarque : 

ulpmin = ulp 1 5 3 7 

= ulp = ulp = ulp . 

4 16 8 16 

Le plus grand écart entre deux flottants successifs non nuls de F(2, 3, −2, 1) est 

On remarque : 

ulpmax = 0, 01 2 1 = 1 1 

× 2 = 

4 2 · 

ulpmax = ulp(2) = ulp 5 

= ulp(3). 

2 

On représente sur un axe les éléments positifs de F(2, 3, −2, 1) ; les éléments négatifs s’en déduisent 

par symétrie. 

− 1 

4 

1.2 ulp 

1 

1 

0 4 2 1 2 

Quelle est la valeur d’un ulp dans F(β, p, emin, emax) 

1. au voisinage du plus petit flottant strictement positif ? 

2. au voisinage du plus grand flottant ? 

1. Le plus petit flottant strictement positif de F(β, p, emin, emax) est m = β emin . Le flottant immédiatement 

supérieur est (1 + β −(p−1) ) β emin . Donc : 

ulpmin = ulp(m) = β emin−(p−1) . 

7 

2

2. De même le plus grand flottant de F(β, p, emin, emax) est 

Le flottant immédiatement inférieur est 

Donc : 

M = (β − 1)(1 + β −1 + β −2 + · · · + β −(p−1) ) β emax . 

M ′ = M − β −(p−1)+emax . 

ulpmax = ulp(M ′ ) = β emax−(p−1) .

2 Standard IEEE 754 

2.1 Flottants normalisés 

1. Déterminer les valeurs du plus petit et du plus grand flottant positifs, des ulp minimum et maximum 

dans les formats simple et double de l’IEEE 754. 

2. Quelle est la valeur de ulp(1), c’est-à-dire quel est le plus petit nombre strictement positif qui, 

ajouté à 1, donne un résultat différent de 1 ? 

3. Montrer que le rapport ulp(x) 

est borné et déterminer ses bornes. 

x 

1. (a) Format simple 

Le plus petit flottant strictement positif est : 2 −126 ≈ 1, 1755 10 −38 . 

Le plus grand flottant est : 

1 + 1 

2 

D’après la question 1.2 on a 

1 1 

+ + · · · + 

22 223 127 1 

2 = 1 − 

224 128 38 

2 ≈ 3, 4028 10 . 

ulpmin = 2 −126−23 = 2 −149 ≈ 1, 4013 10 −45 , 

ulpmax = 2 127−23 = 2 104 ≈ 2, 0282 10 31 . 

(b) Format double 

Le plus petit flottant strictement positif est : 2 −1022 ≈ 2, 2251 10 −308 . Dans Mathematica 

ce nombre s’appelle $MinMachineNumber. 

Le plus grand flottant est : 

1 + 1 

2 

1 1 

+ + · · · + 

22 252 1023 1 

2 = 1 − 

253 1024 308 

2 ≈ 1, 7977 10 . 

Dans Mathematica ce nombre s’appelle $MaxMachineNumber. 


ulpmin = 2 −1022−52 = 2 −1074 ≈ 4, 9407 10 −324 , 

ulpmax = 2 1023−52 = 2 971 ≈ 1, 9958 10 292 . 

2. Dans F(β, p, emin, emax) on a ulp(1) = β −(p−1) . 

(a) Format simple ulp(1) = 2 −23 ≈ 1, 1921 10 −7 . 

(b) Format double ulp(1) = 2 −52 ≈ 2, 2204 10 −16 . Dans Mathematica ce nombre s’appelle 

$MachineEpsilon. 

3. On peut restreindre l’étude aux flottants strictement positifs. Le rapport ulp(x) 

x 

pour x = βe et ulp(βe ) 

= β−(p−1) . 

β e 

est maximum 

Le rapport ulp(x)/x est minimum lors d’un changement d’exposant, c’est-à-dire lorsque x 

s’écrit x = (β − 1)(1, 11 . . . 1 β e ) ; on a alors 

Donc : 

ulp(x) 

x = 

β e−(p−1) 

(β − 1) 1 + β −1 + β −2 + · · · + β −(p−1) β 

β−p ulp(x) 

≤ 

1 − β−p x ≤ β−(p−1) . 

β−p 

= · 

e 1 − β−p

(a) Format simple 

(b) Format double 

2.2 Flottants dénormalisés 

5, 9605 10 −8 ≈ 2−24 ulp(x) 

≤ 

1 − 2−24 x ≤ 2−23 ≈ 1, 1921 10 −7 . 

1, 1102 10 −16 ≈ 2−53 ulp(x) 

≤ 

1 − 2−53 x ≤ 2−52 ≈ 2, 2204 10 −16 . 

1. Déterminer le nombre de flottants dénormalisés que l’on peut ajouter à F(β, p, emin, emax). 

2. Déterminer le plus petit flottant dénormalisé positif, puis le plus grand. 

3. Déterminer la valeur d’un ulp pour un flottant dénormalisé. 

1. Un flottant dénormalisé que l’on ajoute à F(β, p, emin, emax) a pour valeur 

±0, d1d2 . . . dp−1 × β emin , 

la mantisse étant non nulle (sinon le nombre représenté est +0 ou −0). 

Il y en a donc : 2(β p−1 − 1). 

Pour les formats IEEE 754 cela donne 

– en simple : 2(2 23 − 1) = 16 777 214 ; 

– en double : 2(2 52 − 1) = 9 007 199 254 740 990 ≈ 9 10 15 . 

2. Le plus petit flottant dénormalisé strictement positif ajouté à F(β, p, emin, emax) est β emin−(p−1) ; 

on remarque qu’il est égal à ulpmin. 

Le plus grand est (β − 1)(β −1 + β −2 + · · · + β −(p−1) )β emin = (1 − β −(p−1) )β emin . 

Pour les formats IEEE 754 cela donne 

– en simple 

– plus petit : 2 −126−23 = 2 −149 ≈ 1, 4013 10 −45 ; 

– plus grand : (1 − 2 −23 )2 −126 ≈ 1, 1755 10 −38 . Il est, évidemment, peu différent du plus 

petit flottant normalisé strictement positif. 

– en double 

– plus petit : 2 −1022−52 = 2 −1074 ≈ 4, 9407 10 −324 ; 

– plus grand : (1 − 2 −52 )2 −1022 ≈ 2, 2251 10 −308 . Même remarque que ci-dessus. 

3. La fonction ulp est constante et égale à ulp(x) = β emin−(p−1) sur l’ensemble des flottants 

dénormalisés, c’est-à-dire qu’elle est égale au plus petit flottant dénormalisé positif : les flottants 

dénormalisés remplissent régulièrement le « gouffre » entre zéro et les flottants normalisés non 

nuls qui ont la plus petite valeur absolue. 

Illustration : flottants dénormalisés ajoutés à F(2, 3, −2, 1) ; il y en a 6 qui remplissent régulièrement 

le « gouffre » autour de zéro. 

− 1 

4 

1 

0 4 

1 2 3 

7 

2

2.3 Flottants sur 8 bits 

Étudier l’ensemble des flottants que l’on peut représenter sur 8 bits avec un bit de signe, 3 bits pour 

l’exposant et 4 bits pour la mantisse et un biais de l’exposant égal à 4. On précisera 

1. le nombre de valeurs représentées, le nombre de flottants normalisés et dénormalisés, les cas 

particuliers ; 

2. le plus petit flottant normalisé positif, le plus grand, les valeurs minimale et maximale de l’ulp, 

un encadrement du rapport ulp(x) 

; 

x 

3. les valeurs des flottants dénormalisés. 

On représentera l’ensemble des flottants normalisés et dénormalisés sur un axe. 

1. Avec 8 bits il est possible de représenter 256 valeurs. La représentation choisie est de la forme : 

s e1 e2 e3 d1 d2 d3 d4 

 

signe 

 

exposant 

 

mantisse 

La base est β = 2. 

La mantisse étant représentée sur 4 bits nous avons 4 décimales et donc p = 5. 

Un nombre codé sur trois bits peut prendre 8 valeurs ; si c’est un entier non signé il prend les 

valeurs de 0 à 7. Le biais étant choisi égal à 4 l’exposant peut donc prendre les valeurs de −4 

à 3. Les valeurs extrêmes étant réservées aux cas particuliers nous aurons donc emin = −3 et 

emax = 2. 

Les flottants normalisés forment donc l’ensemble F(2, 5, −3, 2) ; il y en a 

2 

 

signe 

× 6 

 

exposant 

× 16 

mantisse 

= 192 

non nuls, auxquels il faut ajouter les valeurs +0 et −0 : il y a donc 194 flottants normalisés. 

Les flottants dénormalisés ont une représentation où l’exposant est égal à emin − 1 = −4, les 3 

bits étant à 0, et la mantisse est non nulle ; ils sont de la forme : 

s 0 0 0 d1 d2 d3 d4 

 

non nulle 

Le nombre de flottants dénormalisés est donc égal à : 2 

 

signe 

× 1 

 

exposant 

× 15 

mantisse 

= 30. 

Les « non-nombres » sont représentés avec un exposant égal à emax + 1 = 3, les 3 bits étant à 1, 

et la mantisse est non nulle ; ils sont de la forme : 

s 1 1 1 d1 d2 d3 d4 

La valeur NaN peut donc être représentée de 2 

(quel gaspillage insensé !). 

 

non nulle 

 

signe 

Il reste enfin les valeurs +∞ et −∞ représentées par : 

× 1 

 

exposant 

× 15 

mantisse 

= 30 façons différentes 

0 1 1 1 0 0 0 0 et 1 1 1 1 0 0 0 0

On trouve bien au total : 194 + 30 + 30 + 2 = 256 : le compte est bon ! 

2. Le plus petit élément strictement positif de F(2, 5, −3, 2) est représenté par : 

Il est égal à : 2 −3 = 1 

8 . 

0 0 0 1 0 0 0 0 

Le plus grand élément de F(2, 5, −3, 2) est représenté par : 

Il est égal à : 1 + 1 1 1 1 2 31 

+ + + 2 = 

2 4 8 16 4 · 


0 1 1 0 1 1 1 1 

ulpmin = β emin−(p−1) = 2 −3−4 = 2 −7 = 1 

128 , 

ulpmax = β emax−(p−1) = 2 2−4 = 2 −2 = 1 

4 · 

D’après la question 2.1 on a 1 ulp(x) 1 

≤ ≤ 

31 x 16 · 

2 −3 , les di n’étant pas tous 

3. Les flottants dénormalisés ont pour valeurs ± d1 d2 d3 d4 

+ + + 

2 22 23 24 nuls, soit ± i 

128 1≤i≤15 . 

On représente sur un axe les flottants normalisés et dénormalisés ; les variations importantes de ulp(x) 

obligent à utiliser deux échelles. Les flottants négatifs n’ont pas tous été représentés. 

− 1 

8 

1 

1 

1 

0 8 4 

2 

1 2 

1 2 4 

31 

4

3 Arrondi 

3.1 Propriétés 

Effectuer les opérations suivantes dans F(2, 3, −2, 1) ; que peut-on en conclure ? 

i) 3 ⊕ 5 3 

 

5 

⊕ (− ) et 3 ⊕ 

16 2 16 ⊕ − 3 

2 

 

; 

ii) 3 ⊗ 5 7 

⊗ 

16 8 et 3 ⊗ 5 7 

⊗ ; 

16 8 

iii) 5 5 5 7 5 1 3 

⊕ ; ⊖ ; ⊗ 3 ; ⊗ 

2 2 16 16 2 4 8 · 

On représente l’ensemble des flottants normalisés positifs de F(2, 3, −2, 1) : 

0 

1 

4 

5 

16 

3 

8 

7 

16 

1 

2 

5 

8 

3 

4 

7 

8 1 

5 

4 

3 

2 

7 

4 2 

i) 3 ⊕ 5 7 

= A53 = et 

16 16 2 

7 

2 ⊕ − 3 

5 

16 

 

= A(2) = 2. 

2 

⊕ − 3 

19 

5 

= A − = − 

2 16 4 

et 3 ⊕ − 5 

7 7 

= A = 

4 4 4 · 

L’addition dans F(2, 3, −2, 1) n’est donc pas associative. 

ii) 3 ⊗ 5 

= A15 = 1 

16 16 

et 

7 7 

1 ⊗ = A7 = 

8 8 8 · 

5 7 35 1 

⊗ = A = 

16 8 128 4 

et 3 ⊗ 1 3 3 

= A = 

4 4 4 · 

La multiplication dans F(2, 3, −2, 1) n’est donc pas associative. 

5 

2 3 

iii) 5 5 

⊕ = A(5) : overflow. 

2 2 

5 7 

⊖ 

16 16 = A− 1 

: underflow dans F(2, 3, −2, 1). 

8 

En utilisant les flottants dénormalisés le résultat est − 1 

. 

8 

5 

 

⊗ 3 = A15 : overflow. 

2 2 

1 3 

⊗ 

4 8 = A 3 

: underflow dans F(2, 3, −2, 1). 

32 

Après application de la règle de l’arrondi et en utilisant les flottants dénormalisés le résultat est 1 

8 . 

7 

2

3.2 Somme d’une série 

On cherche à évaluer une valeur approchée dans l’ensemble de flottants F(10, 3, −6, 5) de π2 

≈ 1, 645 

6 

∞ 1 

comme somme de la série · Comparer les résultats obtenus en effectuant les calculs 

n2 n=1 

1. par indices croissants, c’est-à-dire en commençant par les plus grands termes ; 

2. par indices décroissants à partir de n = 1000. Justifier la valeur initiale n = 1000. 

1. On suppose que, pour chaque valeur de n, le terme général 1 

est calculé exactement puis 

n2 arrondi dans F(10, 3, −6, 5) ; il est ensuite ajouté exactement à la somme partielle et le résultat 

est arrondi. On obtient successivement : 

n un A(un) A(Sn) 

1 1 1 1 

2 1/4 0, 250 1,25 

3 1/9 0, 111 1,36 

4 1/16 0, 0625 1,42 

5 1/25 0, 040 1,46 

6 1/36 0, 0278 1,49 

7 1/49 0, 0204 1,51 

8 1/64 0, 0156 1,53 

9 1/81 0, 0123 1,54 

10 1/100 0, 0100 1,55 

11 1/121 0, 00826 1,56 

12 1/144 0, 00694 1,57 

13 1/169 0, 00592 1,58 

14 1/196 0, 00510 1,59 

15 1/225 0, 00444 1,59 

La suite des flottants représentant les sommes 

partielles est stationnaire et égale à 1, 59 à 

partir de n = 15. La somme de la série, égale 

à π 2 /6, est représentée par le flottant 1, 64 ; 

l’erreur commise est loin d’être nulle dans 

l’ensemble de flottants utilisé. 

2. Le plus petit flottant de F(10, 3, −6, 5) est 10 −6 : pour n > 1000 le terme général est donc 

représenté par zéro (avec un underflow). Nous commencerons donc la sommation à n = 1000, 

puis nous prendrons les indices décroissants. Le calcul est (très !) fastidieux à la main ; avec 

Mathematica on obtient aisément le résultat avec trois instructions : 

Needs["NumericalMath‘ComputerArithmetic‘"] 

SetArithmetic[3,10,ExponentRange -> {-6,5}] 

Fold[Plus,0,Table[ComputerNumber[1/n^2],{n,1000,1,-1}]] 

On obtient le flottant 1, 64 qui est l’exacte représentation de la somme de la série. 

On peut remarquer, a posteriori, qu’en raison des arrondis cette valeur est en fait donnée par la 

somme des termes de 1 à 90 comme le montre : 

Fold[Plus,0,Table[ComputerNumber[1/n^2],{n,90,1,-1}]]

4 Élimination catastrophique, absorption 

4.1 Élimination catastrophique 

Calculer la valeur de l’expression A = 9x 4 − y 4 + 2y 2 pour les valeurs x = 10864 et y = 18817 en 

arithmétique flottante dans F(10, 15, −25, 25) puis dans F(10, 18, −25, 25). 

Quelle conclusion peut-on tirer ? 

Un calcul exact donne 

Dans F(10, 12, −25, 25) on obtient : 

x 4 = 13 930 253 758 038 016 

9 x 4 = 125 372 283 822 342 144 

y 4 = 125 372 284 530 501 121 

y 2 = 354 079 489 

2y 2 = 708 158 978 

9 x 4 − y 4 + 2 y 2 = 1 

A(x 4 ) = 1, 393 025 375 80 10 16 

A(9 x 4 ) = 1, 253 722 838 22 10 17 

A(y 4 ) = 1, 253 722 845 31 10 17 

A(9 x 4 − y 4 ) = −0, 000 000 007 09 10 17 = −7, 09 10 8 

A(y 2 ) = 3, 540 794 89 10 8 

A(2 y 2 ) = 7, 081 589 78 10 8 

A(9 x 4 − y 4 + 2 y 2 ) = −0, 008 410 22 10 8 = −8, 410 22 10 5 = −841 022 


A(x 4 ) = 1, 393 025 375 803 80 10 16 

A(9 x 4 ) = 1, 253 722 838 223 42 10 17 

A(y 4 ) = 1, 253 722 845 305 01 10 17 

A(9 x 4 − y 4 ) = −0, 000 000 007 081 59 10 17 = −7, 081 590 00 10 8 

A(y 2 ) = 3, 540 794 89 10 8 

A(2 y 2 ) = 7, 081 589 78 10 8 

A(9 x 4 − y 4 + 2 y 2 ) = −0, 000 000 22 10 8 = −2, 2 10 1 = −22 


A(x 4 ) = 1, 393 025 375 803 801 6 10 16 

A(9 x 4 ) = 1, 253 722 838 223 421 44 10 17 

A(y 4 ) = 1, 253 722 845 305 011 21 10 17 

A(9 x 4 − y 4 ) = −0, 000 000 007 081 589 77 10 17 = −7, 081 589 77 10 8 

A(y 2 ) = 3, 540 794 89 10 8 

A(2 y 2 ) = 7, 081 589 78 10 8 

A(9 x 4 − y 4 + 2 y 2 ) = 0, 000 000 01 10 8 = 1 

Le résultat dépend très fortement de la taille de la mantisse.

4.2 Absorption 

Déterminer deux nombres x et y tels que y soit non nul et que la somme x + y soit égale à x en 

arithmétique flottante (préciser sur quel ensemble de flottants). 

Dans F(2, 3, −2, 1) on a 

2 ⊕ 1 

= A9 = 2. 

4 4 

On rappelle la convention d’arrondi : en cas d’ambiguïté on arrondit de sorte que le chiffre le moins 

significatif soit pair.

TD Flottants

Create successful ePaper yourself

Delete template?

Save as template?