Nota 4. Sistemi di equazioni algebriche lineari - Elettrotecnica

4. Sistemi di equazioni algebriche lineari 

La soluzione numerica della maggior parte dei problemi di interesse nell’ingegneria, 

anche molto complessi, si riduce alla soluzione di un sistema di equazioni algebriche 

lineari. Ad esempio, i sistemi a parametri concentrati lineari in condizioni stazionarie 

sono governati da equazioni algebriche lineari. Inoltre, se si risolve un sistema di 

equazioni algebriche non lineari con il metodo di Newton-Raphson ad ogni passo 

bisogna risolvere un sistema di equazioni algebriche lineari (vedi Nota 5). Più in 

generale, la discretizzazione di equazioni differenziali e integrali lineari porta alla 

soluzione di sistemi di equazioni algebriche lineari (vedi Nota 2 e Nota 3). 

In questa Nota considereremo il seguente problema. Dato un vettore b !R n e una 

matrice A = a ij 

( ) , i, j = 1,2,...,n , si cerca un vettore x !R n tale che 

In forma compatta si ha 

" a11x1 + a12x2 + ... + a1nx n = b1 $ a21x1 + a22x2 + ... + a2nx n = b2 Ax = b ! # 

$ 

.............................................. 

% $ an1x1 + an2x 2 + ... + annxn = bn . 

n 

(4.1) 

! aijx j = bi i = 1,2,...,n . (4.2) 

j =1 

Il problema (4.1) è un sistema di 

det( A) 

! 0 , si ha 

n equazioni algebriche lineari in 

n incognite 1 . Se 

x = A !1 b (4.3) 

1 In queste Lezioni non considereremo il problema più generale in cui il numero di equazioni (vincoli) è 

diverso dal numero di incognite (gradi di libertà). 

G. Miano, Appunti del Corso di Modelli Numerici per i Campi, 2009

G. Miano, Appunti del Corso di Modelli Numerici per i Campi, 2009 

2 

( ) indica il determinante. In 

dove A !1 indica la matrice inversa della matrice A e det A 

MATLAB ® det( A) 

è l’istruzione per il calcolo del determinante e inv( A) 

è l’istruzione 

per il calcolo dell’inversa. Pertanto, risolvere il sistema (4.1) è, in un certo senso, 

equivalente a determinare l’inversa della matrice A . 

Esempio 4.1 

La soluzione di un circuito resistivo lineare o di un circuito di impedenze si riduce 

alla soluzione di un sistema di equazioni algebriche lineari. Questo è solo un esempio tra 

quelli più vicini a uno studente di ingegneria. 

Figura 4.1 Un esempio di circuito resistivo lineare. 

Si consideri il circuito resistivo lineare descritto in Figura 4.1. Risolviamolo 

applicando il metodo dei potenziali nodali. Poniamo uguale a zero il potenziale del nodo 

“0”, e 0 = 0 . In questo modo il potenziale del nodo “3” è noto, e 3 = E . Bisogna, allora, 

determinare i potenziali e 1 ed e 2 . Applicando la legge di Kirchhoff per le correnti ai 

nodi “1” e “2” otteniamo, rispettivamente, 

" $ ( G1 + G2 + G3)e 1 ! G3e2 = G1E # 

%$ !G3e1 + ( G3 + G4 + G5 )e2 = G5E dove G h = 1 / R h per h = 1,5 . Questo è l’esempio più semplice di sistema di equazioni 

algebriche lineari. Il sistema (4.4) può essere espresso nella forma matriciale (4.1). Si ha 

x = e 1 ,e 2 

( ) !G3 ( ) 

A = G1 + G2 + G3 !G3 b = EG 1 ,EG 5 


T 

, (4.5) 

G 3 + G 4 + G 5 

T 


. (4.7)

Siccome la matrice A è a dominanza diagonale stretta 2 si ha che det( A) 

! 0 , [4.1]. 

4.1 Esistenza e unicità della soluzione 

3 

Prima di cercare di risolvere un’equazione bisogna sempre domandarsi se essa 

ammette soluzioni, e se la soluzione è unica. Si considerino le matrici A e A,b . Se il 

rango della matrice A è uguale al rango della matrice A,b , 

rank( A) 

= rank( A,b ), (4.8) 

il sistema (4.1) ammette soluzioni. La soluzione è unica se rank( A) 

= n , cioè se la 

matrice A ha rango massimo. La matrice quadrata A ha rango massimo se e solo se il 

suo determinante è diverso da zero, 

det( A) 

! 0 . (4.9) 

( ) = rank A 

Siccome rank( A) 

= n implica rank A,b ( ), la (4.9) è condizione necessaria 

e sufficiente per l’esistenza e l’unicità della soluzione del sistema di equazioni (4.1). 

Invece, se rank( A) 

! rank A,b 

( ) il sistema (4.1) non ammette soluzioni: in questo caso 

si dice che il sistema è inconsistente. Ciò può accadere solo se rank A 

Assumeremo, salvo avviso contrario, che sia sempre verificata la condizione (4.9). 

Il sistema (4.1) può essere risolto sia attraverso metodi diretti che attraverso metodi 

iterativi. Esistono due metodi diretti per la soluzione del sistema (4.1): la regola di 

Cramer e il metodo di fattorizzazione di Gauss. Illustreremo prima i metodi diretti e poi i 

metodi iterativi. 

4.2 Regola di Cramer 


♦ 

( ) < n . 

La soluzione del sistema di equazioni algebriche lineari (4.1) può essere calcolata 

tramite la regola di Cramer. Indichiamo con Ai la matrice ( n ! n) 

ottenuta sostituendo 

la i ! esima colonna di A con il vettore colonna b . La soluzione del sistema (4.1) è data 

allora da 

2 Una matrice 

A = a ( ij ) , i, j = 1, 2,..., n , si dice a dominanza diagonale stretta per righe se 

n 

aii > " aij per i = 1, 2,..., n ; la matrice si si dice a dominanza diagonale stretta per colonne se 

j=1, j!i 

aii n 

> " a 

j=1, j!i ji per i = 1, 2,..., n . La matrice A è a dominanza diagonale stretta se è dominanza 

diagonale stretta sia per righe che per colonne.

( ) 

( ) 

xi = det Ai det A 


4 

i = 1,2,...,n . (4.10) 

Stimiamo, ora, il costo computazionale. Nella regola di Cramer, calcolando i 

determinanti a partire dalla loro definizione, il costo in termini di moltiplicazioni è di 

( n + 1) 

( n ! 1)n!, 

ovvero dell’ordine di n n per n >> 1. Ipotizzando di usare una macchina 

in grado di eseguire 10 9 moltiplicazioni al secondo, per risolvere un sistema di n = 20 

equazioni con la regola di Cramer c’è bisogno di circa 3.07 ! 10 4 anni. Anche per 

sistemi di modeste dimensioni il metodo di Cramer si rivela, quindi, impraticabile. Al 

contrario, come vedremo, il metodo di fattorizzazione di Gauss consente di risolvere in 

tempi ragionevoli sistemi anche di grosse dimensioni. Vedremo più avanti che il numero 

di moltiplicazioni in questo metodo è di ordine n 3 per n >> 1. 

4.3 Sistemi triangolari 

Si tratta di un caso particolare molto importante perché, come vedremo tra poco, la 

forma triangolare è anche il risultato finale dell’applicazione del metodo di eliminazione 

per sostituzione di Gauss. 

Introduciamo, prima, due forme speciali di matrici, le matrici triangolari superiori 

(che qui indicheremo con U ) e le matrici triangolari inferiori (che qui indicheremo con 

L ). Una matrice n ! n 

( ) U u ij 

( ) si dice triangolare superiore se 

u ij = 0 per i > j ! U = 

u 11 u 12 ... u 1n"1 u 1n 

0 u 22 ... u 2n"1 u 2n 

... ... ... ... ... 

0 0 ... u n"1n"1 u n"1n 

0 0 ... 0 u nn 

una matrice ( n ! n) 

L( lij ) si dice triangolare inferiore se 

l ij = 0 per i < j ! L = 

l 11 0 ... 0 0 

l 21 l 22 ... 0 0 

... ... ... ... ... 

l n"11 l n"12 ... l n"1n"1 0 

l n1 l n2 ... l nn"1 l nn 

; (4.11) 

. (4.12) 

Si consideri, ora, un sistema di equazioni algebriche lineari di tipo triangolare 

inferiore,

# 

% 

% 

Ly = b ! $ 

% 

% 

&% 

5 

l 11y 1 = b 1 

l 21y 1 + l 22y 2 = b 2 

.......................................... 

l n"11 y 1 + n"12 y 2 ...+ l n"1n"1 y n"1 = b n"1 

l n1y 1 + l n2y 2 + ...+ l nn"1y n"1 + l nny n = b n. 

La soluzione di questo sistema è molto semplice. Si ha (eliminazione in avanti) 

y1 = 1 

b1 , 

l11 yi = 1 # i!1 & 

bi ! lijy j 

l 

% " ( 

ii $ j =1 ' 

i = 2, 3,...,n. 



Per calcolare yi sono richieste le seguenti operazioni: ( i ! 1) 

prodotti, ( i ! 1) 

somme e 1 

divisione. Pertanto il numero totale di operazioni è 

n 

Noper = ! 1+ 

2! ( i " 1) 

= 2! i " n = n 2 . (4.15) 

Consideriamo, ora, un sistema di tipo triangolare superiore, 

i=1 

n 

i=1 

# u11x1 + u12x2 + ... + u1n"1x n"1 + u1nx n = y1 % 

u22x2 + ... + u2n"1x n"1 + u2n xn = y2 % 

Ux = y ! $ .......................................... 

% 

un"1n"1x n"1 + un"1nx n = yn"1 % 

&% 

unnxn = yn . 

n 

i=1 


Anche la soluzione di questo sistema è molto semplice. Si ha (eliminazione all’indietro) 

xn = 1 

yn , 

unn xi = 1 # n & 

yi ! uijx j 

u 

% " ( 

ii $ j =i+1 ' 

i = n ! 1,n ! 2,...,1. 


Anche in questo caso bisogna effettuare n 2 operazioni elementari per determinare la 

soluzione. 


Esercizio 4.1 

Implementare in MATLAB gli algoritmi (4.14) e (4.17). 

4.4 Il metodo della fattorizzazione di Gauss 


6 

Il metodo della fattorizzazione di Gauss consiste nel trasformare il sistema (4.1) in 

un sistema del tipo 

LUx = b (4.18) 

dove L è una matrice triangolare inferiore e U è una matrice triangolare superiore. Ciò 

equivale a dire che la matrice A può essere espressa come prodotto tra una matrice 

triangolare inferiore e una matrice triangolare superiore, 

A = LU . (4.19) 

La rappresentazione della matrice A attraverso la (4.19) prende il nome di 

fattorizzazione di Gauss o fattorizzazione LU. 

Supponiamo, per il momento, che sia possibile esprimere la matrice A attraverso la 

(4.19) e che siano note le matrici di fattorizzazione L ed U . Allora la soluzione del 

sistema (4.1) è immediata. Infatti, il sistema (4.1) può essere riscritto nella forma (4.18). 

Posto, allora, 

il sistema (4.18) è equivalente ai due sistemi triangolari 

y ! Ux (4.20) 

Ly = b , (4.21) 

Ux = y . (4.22) 

Il primo sistema è di tipo triangolare inferiore e può essere risolto attraverso l’algoritmo 

(4.14) (eliminazione in avanti). Una volta determinato y , si risolve il sistema (4.22) 

attraverso l’algoritmo (4.17) (eliminazione all’indietro). Una volta effettuata la 

decomposizione LU, occorrono 2n 2 operazioni per calcolare al soluzione. E’ evidente, 

allora, che il punto centrale di questo metodo è nella determinazione (quando possibile) 

di una fattorizzazione LU della matrice A . 


Prima di considerare il problema fattorizzazione nella sua forma più generale, 

esemplifichiamo attraverso un sistema di due equazioni in due incognite, 

♦

7 

! a11x1 + a12x2 = b1 " 

# a21x1 + a22x2 = b2. Moltiplichiamo ambo i membri della prima equazione per !a 21 / a 11 . Otteniamo 

!a 21 x 1 ! a 21 a 12 

a 11 


x2 = ! a21 b1 . (4.24) 

a11 Sommando membro a membro la seconda equazione del sistema (4.23) e l’equazione 

(4.24) abbiamo 

" 

# 

$ 

a 22 ! a 12a 21 

a 11 

% 

& 

' x2 = b2 ! a21 b1 . (4.25) 

a11 Abbiamo, allora, ricondotto la soluzione del sistema (4.23) alla soluzione del sistema 

triangolare alto 

dove 

e 

1 ! # a11 " 

$# 

( ) ( 1) 

x1 + a12 x2 = y1 ( 2) 

a22 x2 = y2 ( 1) 

( 1) 

a11 = a11, a12 = a12, 

( 1) 

( 1) 

a21 = a21 , a22 = a22 , 

( 2) 

( 2) 

1 

a21 = 0, a22 = a22 

( 1) 

( 1) 

a21 

( ) a12 ! 1 

a22 ( ) , 



y1 = b1 , y2 = b2 ! a21 b1 . (4.28) 

a22 Questa procedura può essere effettuata solo se a 22 ! 0 . Il sistema (4.26) è del tipo (4.16) 

con 

e termine noto 

U = a 1 

11 

1 

a12 , (4.29) 

2 

0 a22 y = y 1 , y 2 

T 




8 

E’ evidente dalle (4.28) che il termine noto y è, a sua volta, soluzione di un sistema di 

equazioni di tipo triangolare basso con 

e termine noto 

L = 

1 0 


1 

1 1 

a21 / a11 

b = b 1,b 2 

T 


Ora illustreremo una procedura generale per la determinazione della fattorizzazione 

LU. Sia la matrice L che la matrice U hanno, in generale, n( n + 1) 

/ 2 elementi diversi 

da zero. Gli elementi di L ed U devono verificare il sistema di equazioni non lineari 

min( i, j) 

! lirurj = aij i, j = 1,2,...,n . (4.33) 

r =1 

Il sistema (4.33) è sotto determinato perché il numero di equazioni indipendenti è n 2 , 

mentre il numero di gradi di libertà è n 2 + n . Di conseguenza se esiste una 

fattorizzazione LU, essa non è unica. Se si fissano gli n elementi della diagonale 

principale della matrice L , ad esempio, uguali a 1, il sistema (4.33) diventa determinato 

e può essere risolto attraverso il seguente algoritmo: 

per k = 1,2,...,n ! 1 

per i = k + 1,...,n 

lik = a ( k) 

ik 

k 

akk ( ) , 

per j = k + 1,...,n 

( k+1) 

( k) 

k 

aij = aij ! likakj ( ) 

♦ 


( 1) 

dove aij = aij per i, j = 1,2,...,n . Gli elementi della matrice triangolare superiore U 

sono dati da 

( i) 

uij = aij i ! j = 1,2,...,n . (4.35) 

L’algoritmo (4.34) è valido solo se a kk 

k 

( ) ! 0 . Per un approfondimento si rimanda alle 

referenze [4.1] e [4.2].

Esercizio 4.1(bis) 

9 

Verificare che l’algoritmo (4.34) con la (4.35) dà la soluzione del sistema (4.33) con 

l ii = 1 per i = 1,2,...,n . 

♦ 

Il passo k della fattorizzazione LU comporta ( n ! k) 

divisioni e ( n ! k) 

n ! k + 1 

moltiplicazioni e addizioni. Il costo totale dell’algoritmo è, quindi, 

n!1 

" 

k =1 

( n ! k) 

n ! k + 1 

( ) 

( ) 

= 1 

3 n n2 ( ! 1) 


( k) 

( k) 

Gli elementi akk vengono chiamati “pivot”. L’algoritmo (4.34) richiede che akk ! 0 

per ogni k = 1,2,...,n ! 1 . Allora, la matrice A ha una fattorizzazione LU se i pivot sono 

tutti diversi da zero. Se almeno un pivot è uguale a zero l’algoritmo (4.34) non può 

essere implementato e la matrice A non è fattorizzabile. 

( k) 

Assumiamo che i pivot akk s0no tutti diversi da zero e, quindi, la matrice A sia 

fattorizzabile. Allora, la soluzione del sistema (4.1) attraverso il metodo della 

fattorizzazione LU consiste nel: 

- determinare la fattorizzazione LU della matrice A attraverso l’algoritmo (4.34)- 

(4.35); 

- risolvere il sistema triangolare basso (4.21) attraverso l’algoritmo (4.14) per 

determinare l’incognita ausiliaria y ; 

- risolvere il sistema triangolare alto (4.22) attraverso l’algoritmo (4.17). 

Il numero di moltiplicazioni, divisioni e addizioni richiesto per risolvere il sistema (4.1) 

con il metodo della fattorizzazione di Gauss è n 3 / 3 + 2n 2 ( ! n / 3) 

, quindi di ordine 

n 3 / 3 per n >> 1. 

Programma 4.1: Fattorizzazione LU 

function [L,U,A]=lu_gauss(A) 

% Fattorizzazione LU 

n=max(size(A)); 

for k=1:n-1 

for i=k+1:n 

A(i,k)=A(i,k)/A(k,k); 

for j=k+1:n 

A(i,j)=A(i,j)-A(i,k)*A(k,j); 

end 

end 

end 

if nargout==2, U=triu(A); L=eye(n)+tril(A,-1);end 

return 


10 

Riportiamo nel Programma 4.1 un’implementazione dell’algoritmo (4.34)-(4.35) 

utilizzando il linguaggio di programmazione MATLAB ® , [4.3]. Se la chiamata alla 

function ha una sola variabile di uscita le due matrici L e U sono memorizzate in una 

sola matrice, invece se ha due variabili di uscita L e U sono memorizzate in due matrici 

distinte (il comando “nargout” serve per contare il numero di variabili di uscita). Si 

osservi, inoltre, che nell’implementazione non è necessario memorizzare tutte le matrici 

A k ( ) , è sufficiente scrivere di volta in volta sugli elementi della matrice di partenza A . 


Si risolva il sistema 

1 3 3 

3 6 4 


1 

2 2 2 x = 3 

2 


determinando prima la fattorizzazione LU della matrice attraverso il Programma 4.1 e 

applicando, poi, gli algoritmi (4.14) e (4.17) per risolvere i due sistemi di equazioni 

triangolari, implementati nell’Esercizio 4.1. 

♦ 

La fattorizzazione LU è alla base dei comandi MATLAB 

L,U [ ] = lu A ( ) , A\b e inv A 

( ) . 

Il primo comando dà la fattorizzazione LU della matrice A , il secondo comando 

consente di risolvere direttamente il sistema (4.1), il terzo comando dà l’inversa della 

matrice A . 

4.4.1 Esistenza della fattorizzazione LU 

( i) 

La fattorizzazione LU esiste solo se nell’algoritmo (4.34) aii ! 0 per ogni i . Ora 

discuteremo questo aspetto. 

Le sottomatrici principali di A di ordine i = 1,2,...,n ! 1 sono le matrici quadrate 

ottenute considerando solo gli elementi delle prime i righe e colonne; indichiamo con 

Ai la sottomatrice principale di ordine i . Si mostra che (vedi, ad esempio, [4.1]) 

da cui 

1 ( ) = a11 det A i 

( ) ( 2) 

( i) 

a22 ...aii 


n 

( i) 

det( A) 

= ! aii . (4.39) 

i=1

11 

Criterio di esistenza della fattorizzazione LU Se A e tutte le sue sottomatrici 

( i) 

principali sono non singolari si ha che aii ! 0 per ogni i e, quindi, esiste ed è unica la 

decomposizione LU. 

Osservazione 

Può accadere che una sottomatrice principale Ai con i < n possa essere singolare pur 

essendo det( A) 

! 0 . Si consideri, ad esempio, una matrice A 2 ! 2 . In questo caso si 

1 

ha a11 ( ) = a 11 

( ) ( 2) 

( 1) 

( 2) 

= a11 , a22 = a22 ! a12a21 / a11 . Può accadere che a11 = 0 e det A a22 ! 0 : in 

( ) ( 2) 

( 2) 

a22 è una forma indeterminata perché a22 = ! . Questa è una 

1 

questo caso il prodotto a11 k 

proprietà generale. Infatti, se akk (4.39) diventa una forma indeterminata. 


( ) k +1 

= 0 dalla (4.34) segue che ak 

+1k +1 

Determiniamo la fattorizzazione LU della matrice 

1 3 3 

A = 

( ) = ! e quindi la 

2 2 2 . (4.40) 

3 6 4 

La matrice A è non singolare perché det( A) 

= 8 e tutte le sottomatrici principali sono 

non singolari. Applicando il Programma 4.1 si ha 

1 0 0 

3 0.75 1 

1 3 3 

L = 2 1 0 ,U = 0 !4 !4 . (4.41) 

0 0 !2 

Il criterio che abbiamo appena illustrato non è agevole da applicare a matrici di grossa 

dimensione. Per questa ragione è utile individuare quelle classi di matrici per le quali 

esso è certamente verificato. Si dimostra che se è verificata almeno una delle seguenti 

condizioni: 

a) la matrice A è simmetrica e definita positiva (vedi Appendice 1); 

b) la matrice A è a dominanza diagonale stretta per righe o per colonne; 

allora esiste ed è unica la fattorizzazione LU di A . Per un approfondimento si rimanda 

alle referenze [4.1] e [4.2]. 


♦ 

♦

Osservazione: fattorizzazione di Cholesky 

12 

Se la matrice A è simmetrica e definita positiva esiste una matrice triangolare 

inferiore H con elementi positivi sulla diagonale principale tale che 


A = HH T . (4.42) 

La (4.42) prende il nome di fattorizzazione di Cholesky. Gli elementi di H possono 

essere determinati attraverso l’algoritmo 

h ij = 1 

h jj 

j !1 

# 

& 

aij ! " hikh jk 

$ 

% 

' 

( j = 1,2,...,i ! 1, 

i!1 

k =1 

2 

hii = aii ! " hik i = 1,2,..., N. 

k =1 


La fattorizzazione di Cholesky richiede n 3 / 6 operazioni, metà di quelle richieste dalla 

fattorizzazione LU. La fattorizzazione di Cholesky viene richiamata in MATLAB ® con il 

comando H = chol A 

( ) . 


Implementare in MATLAB l’algoritmo (4.43). 

Quando la matrice A non verifica le condizioni a) e/o b) può accadere che, pur 

essendo det A 

( ) ! 0 , non esista una fattorizzazione LU per A . 


Si consideri, ora, la matrice 

A = 

1 1 3 

2 2 2 

3 6 4 

Essa è non singolare perché det( A) 

= 12 , ma det A2 Programma 4.1 si ha 

♦ 

♦ 


1 ( ) = a11 ( ) 2 

a22 

( ) = 0 . Applicando il

1 0 0 

3 Inf 1 

13 

1 3 3 

L = 2 1 0 ,U = 0 0 !4 . (4.45) 

0 0 Inf 

Pur essendo A non singolare, la fattorizzazione di Gauss non può essere effettuata in 

( 2) 

quanto nell’algoritmo (4.34) a22 = 0 . Ciò è dovuto al fatto che la seconda sottomatrice 

principale di A (cioè quella ottenuta da A considerando solo le prime due righe e due 

colonne) 

1 1 

2 2 

è singolare. 

Questo problema può essere risolto, in generale, permutando tra loro alcune righe (o 

colonne) di A . Si consideri la matrice ottenuta scambiando la prima riga della (4.44) con 

la terza 

!A = 

3 6 4 

2 2 2 

1 1 3 


Tutti le sottomatrici principali di ! A sono non singolari. Applicando, ora, il Programma 

4.1 si ha: 

4.4.2 Matrice di permutazione 

1 0 0 

!L = 0.6667 1 0 , ! 3 6 4 

U = 0 !2 !0.6667 . (4.47) 

0.3333 0.5 1 

0 0 2 

Nell’esempio appena svolto abbiamo fatto vedere che permutando in modo opportuno 

le righe della matrice A è possibile costruire una nuova matrice ! A che abbia tutte le 

sottomatrici principali non singolari e, quindi, abbia una ed una sola fattorizzazione LU. 

Siccome lo scambio tra righe comporta un cambiamento dei pivot, questa tecnica viene 

chiamata pivoting per righe. La fattorizzazione che si trova dà la matrice di partenza a 

meno di una matrice di permutazione fra le righe. 

Per una generica matrice A non singolare esiste sempre una matrice di permutazione 

delle righe P tale che 


♦

14 


PA = LU . (4.48) 

La matrice P è posta uguale alla matrice identità all’inizio del processo di 

fattorizzazione. Se nel corso della fattorizzazione le righe “ r ” e “ s ” di A vengono 

scambiate a causa della presenza di pivot uguali a zero, le corrispondenti colonne di P 

vengono scambiate. Allora, la soluzione del sistema (4.1) si riduce alla soluzione dei due 

sistemi triangolari 

L!y = Pb (4.49) 

Ux = !y . (4.50) 

In MATLAB ® l’istruzione “lu” calcola la fattorizzazione LU con pivoting per righe 


L,U,P [ ] = lu( A) 

. 

Fattorizziamo la matrice (4.44) utilizzando l’istruzione di MATLAB ® appena 

descritta. Si ottengono le matrici L e U (4.47) e la matrice di permutazione 

P = 

0 0 1 

0 1 0 . (4.51) 

1 0 0 

La (4.51) è la matrice di permutazione che scambia la prima riga con la terza riga di una 

matrice 3 ! 3 

( ) . 



1 2 2 

2 5 1 

1 

2 4 1 x = 3 

2 

♦ 


determinando prima la fattorizzazione LU con l’istruzione “lu” di MATLAB ® e 

applicando, poi, gli algoritmi (4.14) e (4.17) per risolvere i due sistemi di equazioni 

triangolari . 

♦

4.5 Errori di arrotondamento 

15 

Nel calcolo numerico esistono, almeno in linea di principio, due sorgenti di errore: 

l’errore generato dall’approssimazione introdotta dall’algoritmo utilizzato per la 

soluzione del problema; l’errore generato dal fatto che una qualsiasi macchina per il 

calcolo può rappresentare solo un numero finito di cifre. 

Il metodo della fattorizzazione di Gauss è un metodo diretto, quindi il primo errore è 

assente. Ora ci occuperemo di capire quali sono gli effetti nella soluzione del sistema 

(4.1) con il metodo della fattorizzazione di Gauss degli errori dovuti al numero finito di 

cifre della macchina di calcolo. 

Un calcolatore numerico è in grado di rappresentare soltanto un numero finito di cifre. 

Ciò dà luogo ad errori che possono essere generati in due modi diversi: i numeri 

introdotti nel calcolatore sono memorizzati in forma approssimata; le operazioni 

elementari (addizioni, moltiplicazioni, divisioni,…) su tali numeri danno numeri non 

rappresentabili esattamente sul calcolatore. Pertanto, in un algoritmo implementato sul 

calcolatore attraverso una successione di operazioni elementari si ha una successiva 

creazione e propagazione degli errori. Tali errori sono chiamati errori di 

arrotondamento. 

L’entità di questi errori dipende, ovviamente, dal modo in cui i numeri sono 

rappresentati sul calcolatore. Il sistema floating-point è il sistema di rappresentazione più 

utilizzato per il calcolo scientifico. Esso è caratterizzato dal fatto che permette di 

rappresentare un ampio intervallo della retta reale con una distribuzione uniforme degli 

errori relativi. 

Il sistema floating point è definito dal numero di cifre significative t , dalla base ! e 

dagli estremi ( l,u ) dell’intervallo di numeri interi di variabilità dell’esponente. In 

rappresentazione posizionale un numero macchina x ! 0 viene denotato con 

x = ±.d 1 d 2 ...d t! p (4.53) 

dove l ! p ! u . Ad esempio, in MATLAB si utilizza ! = 2 , t = 53 , l = !1021 e 

u = 1024 . In effetti 53 cifre significative in base 2 corrispondono alle 15 cifre 

significative in base 10 mostrate da MATLAB con il “format long”. In MATLAB con i 

comandi “realmin” e “realmax” è possibile determinare il numero reale, in valore 

assoluto, più piccolo e il numero reale, in valore assoluto, più grande che è possibile 

rappresentare. Essi sono, rispettivamente, 2.2250738585072e-308 e 

1.79769313486232e+308 . Il numero 0 viene rappresentato a parte. Un numero in valore 

assoluto minore di “realmin” produce una segnalazione di underflow e viene trattato 

come 0 (come, ad esempio, in MATLAB). Un numero in modulo maggiore di “realmax” 

produce invece una segnalazione di overflow e viene memorizzato come Inf. 

La maggior parte dei calcolatori ha la possibilità di operare con lunghezze diverse, 

ovvero con diversi t , a cui corrispondono, ad esempio, la singola e la doppia precisione. 

Nell’aritmetica in floating point molte delle proprietà che sono alla base 

dell’aritmetica dei numeri reali sono violate: l’unicità dello zero, la proprietà distributiva, 


16 

la proprietà associativa. Qui ci limiteremo a fare qualche considerazione sulle 

conseguenze della violazione della proprietà associativa. 

Esempio 4.6 ([4.3]) 

Si considerino i tre numeri a = 1.0e + 308 , b = 1.5e + 308 e c = !1.0e + 308 ed 

eseguiamo la loro somma in modi diversi. Abbiamo 

a + ( b + c) 

= 1.5e + 308 , ( a + b) 

+ c = Inf . 

Questo è un caso particolare di un fenomeno che si verifica quando si sommano numeri 

dello stesso ordine di grandezza in modulo, ma diversi di segno. In tal caso il risultato 

della somma può essere molto impreciso. Quello che accade è un fenomeno di 

cancellazione di cifre significative che introduce termini spuri caratterizzati da una 

mancanza di informazione. 

♦ 


Si considerino i tre numeri a = 0.23371258 !10 "4 , b = 0.33678429 !10 2 e 

c = !0.33677811"10 2 ed eseguiamo la loro somma in modi diversi con una aritmetica 

floating point con 8 cifre significative. Abbiamo 

( a + b) 

+ c = 0.64100000 !10 -3 , a + ( b + c) 

= 0.64137126 !10 "3 . 

Il risultato esatto è dato da a + b + c = 0.64137258 !10 "3 . Il primo risultato ha tre cifre 

esatte, quindi, un errore relativo di ! 5.78 "10 #2 , mentre il secondo ha cinque cifre esatte, 

quindi è molto più accurato. Nel primo calcolo c’è stato un fenomeno di cancellazione 

che ha dato origine ad una perdita di informazione. 

♦ 


Consideriamo in MATLAB la seguente operazione ( ( 1 + x) 

! 1) 

/ x con x ! 0 . Il 

risultato in aritmetica esatta è 1 per x ! 0 . Troviamo, invece 

>> x = 1.e-15 ; ( ( 1+ x) 

! x) 

/ x 

ans= 

1.1102 

Il risultato ottenuto non è accurato. 


♦

17 

Il risultato della fattorizzazione LU può essere non accurato se un pivot è “troppo 

piccolo”. Innanzitutto il pivot non deve essere inferiore al numero più piccolo 

rappresentabile dalla macchina, altrimenti sarebbe considerato come se fosse 

identicamente nullo. In realtà, errori consistenti possono generarsi anche per un pivot 

molto più grande di “realmin”. 


Consideriamo la matrice non singolare 

1 1+ 0.5 !10 "15 

A = 

3 

2 2 20 . (4.54) 

3 6 4 

Durante il calcolo della fattorizzazione LU con il Programma 4.1 non si generano 

( ) !15 

= 10 , l’algoritmo (4.34) dà una 

2 

elementi di pivot nulli. Pur essendo a22 fattorizzazione. Nonostante ciò, il calcolo dei fattori L ed U non è accurato, come si 

verifica calcolando A ! LU 

( ) , 

A ! LU = 

0 0 0 

0 0 0 . (4.55) 

0 0 4 

( ) sarebbe uguale alla matrice identicamente nulla. Ciò non 

In aritmetica esatta A ! LU 

accade nel caso reale a causa del fenomeno della cancellazione di cifre significative nelle 

operazioni di somma. 

♦ 

( 2) 

!15 

Nell’esempio precedente il pivot a22 = 10 produce numeri molto grandi 

nell’algoritmo di fattorizzazione (4.34). Ciò è all’origine della cancellazione di cifre 

significative che dà luogo al risultato (4.55). Questo problema può essere risolto 

scambiando le righe di A in modo tale che ad ogni passo dell’iterazione (4.34) i pivot 

siano, in valore assoluto, i più grandi possibili tra tutti quelli disponibili. Un semplice 

algoritmo per realizzare ciò, che generalizza l’algoritmo (4.34), è [4.3] 

per k = 1,2,...,n 

per i = k + 1,...,n 

cercare mk tale che amk k = max 

i= k,...,n a ( k) 

ik 

scambiare la riga k con la riga mk , 

lik = a ( k) 

ik 

k 

akk ( ) , 

per j = k + 1,...,n 

( k +1) 

( k) 

k 

aij = aij ! likakj ( ) . 




18 

Si calcolino i fattori L e U per la matrice (4.54) utilizzando il Programma 4.1 e si 

verifichi che il risultato non è accurato. 

♦ 


Implementare in MATLAB l’algoritmo (4.56) e verificare che la fattorizzazione LU 

della matrice (4.54) è molto più accurata di quella ottenuta con il Programma 4.1. 

♦ 

Il programma MATLAB “lu”, cui abbiamo in precedenza accennato, si base 

sostanzialmente su di un algoritmo di fattorizzazione con pivoting per righe del tipo 

(4.56). 

4.6 Matrici sparse, matrici bandate 

Lo strumento matrice è efficace sia per formulare in maniera semplice e sintetica un 

sistema di equazioni algebriche lineari, sia per studiarne le proprietà. Tuttavia, può 

capitare che esso si riveli ridondante. Come abbiamo visto nelle Note 2 e 3, esistono 

molti modelli caratterizzati da matrici che hanno una buona parte degli elementi uguali a 

zero. Una matrice ( n ! n) 

con n >> 1 si dice che è sparsa quando il numero di elementi 

diversi da zero è di ordine O ( n) 

. Avere matrici sparse è molto vantaggioso perché è 

sufficiente memorizzare solo gli elementi diversi da zero. Ciò comporta un notevole 

risparmio di memoria e di operazioni. Una matrice sparsa può essere memorizzata 

attraverso tre vettori: un vettore contiene gli elementi della matrice e gli altri due 

contengono i corrispondenti indici di riga e colonna. Pertanto, bisogna memorizzare 3n 

variabili (di cui 2n sono interi) invece che n 2 variabili reali. 

Figura 4.2 Struttura di una matrice a bande. 


19 

Osserviamo subito che la fattorizzazione di Gauss può introdurre nuovi elementi 

diversi da zero. In generale, pur essendo A sparsa, le matrici L ed U possono essere 

matrici non sparse. Riordinando la matrice A è possibile ridurre al minimo la 

generazione di nuovi elementi nelle matrici L ed U. I metodi iterativi che in seguito 

studieremo preservano le proprietà di sparsità delle matrici. 

Le matrici a bande rappresentano un significativo esempio di matrice sparsa. Esse si 

ottengono quando le equazioni del sistema possono essere ordinate in maniera che ogni 

incognita xi appaia solo in poche equazioni vicine alla i ! esima. Esse si incontrano 

nell’analisi dei circuiti e nei modelli discreti di equazioni differenziali. 

Si dice che la matrice A = ( aij ) ha una banda superiore q se aij = 0 per j > i + q e 

una banda inferiore p se aij = 0 per i > j + p , Figura 4.2. Una proprietà importante 

della fattorizzazione LU è che è preservata la struttura a banda. Si consideri una matrice 

a banda superiore q e a banda inferiore p . Si può mostrare che se esiste la 

fattorizzazione LU per la matrice A , allora la matrice U è a banda superiore q e la 

matrice L è a banda inferiore p . L’algoritmo di fattorizzazione LU per le matrici a 

banda richiede, pertanto, un numero di operazioni notevolmente più basso rispetto al 

caso più generale se non è richiesta l’operazione di pivoting, ad esempio, per le matrici a 

predominanza diagonale stretta o le matrici simmetriche e definite positive. Per un 

approfondimento si rimanda alla referenze [4.1] e [4.2]. 

In molte applicazioni è necessario risolvere un sistema di equazioni con matrici a 

bande n ! n 

( ) della forma 

A = 

a 1 c 1 0 

b 2 a 2 ... 

... c n!1 

0 b n!1 a n 


In questo caso la matrice A viene detta tri-diagonale. Si verifica facilmente che, se la 

fattorizzazione LU esiste, allora L ed U sono due matrici bi-diagonali [4.3], 

L = 

1 0 0 

l2 1 ... 

,U = 

... 0 

0 l n!1 1 

u 1 c 1 0 

0 u 2 ... 

... c n!1 

0 0 u n 


I coefficienti l i e u i possono essere determinati imponendo che LU = A . In tal modo si 

trova che 

u1 = a1, li = bi , ui = ai ! liui!1, i = 2,...,n. (4.59) 

ui!1 G. Miano, Appunti del Corso di Modelli Numerici per i Campi, 2009

20 

L’algoritmo (4.59) è noto come algoritmo di Thomas ed è una forma particolarmente 

conveniente di fattorizzazione LU. Per n >> 1il numero di operazioni cresce come n al 

crescere di n . 


Implementare in MATLAB l’algoritmo (4.59). 


In MATALB per costruire una matrice tri-diagonale è possibile utilizzare il comando 

“spdiags”. Ad esempio, per costruire la matrice tri-diagonale ( 20 ! 20) 

che ha elementi 

pari ad 5 sulla diagonale principale, pari a 1 sulla prima sottodiagonale e pari a 2 sulla 

prima sopradiagonale basta scrivere i seguenti comandi: 

>> a=ones(20,1); b=5*a; c=2*a; 

>> A=spdiags([a b c],-1:1, 20, 20); 

Si noti che A viene memorizzata in MATLAB in forma sparsa. Quando in MATLAB si 

risolve un sistema la cui matrice è memorizzata in tale formato, vengono 

automaticamente richiamate delle tecniche di risoluzione che consentono di ottimizzare i 

tempi di calcolo e l’occupazione di memoria. 

♦ 

4.7 Il problema del condizionamento e della stabilità numerica 

Come abbiamo già avuto modo di notare nel §4.4, a causa dell’errore di 

arrotondamento, il prodotto LU non riproduce dà esattamente la matrice A . Abbiano 

anche visto che l’uso del pivoting consente di risolvere questo problema. Purtroppo ciò 

non è sempre possibile come mostra l’esempio che segue. 


Consideriamo come matrice A la matrice di Hilbert cui elementi sono definiti come 

segue 

a ij = 

1 

i + j ! 1 


i, j = 1,2,...,n . (4.60) 

Essa è simmetrica e definita positiva. Scegliamo, inoltre, il termine noto b del sistema 

(4.1) in modo tale che la soluzione esatta sia x = 1,1,...,1 T , 

♦

21 

b = A 1,1,...,1 T . (4.61) 

Indichiamo con ˆx la soluzione del sistema (4.1) ottenuta con il comando A\b di 

MATLAB. Se non vi fosse l’errore dovuto all’arrotondamento avremmo x ! ˆx = 0 . In 

realtà, a causa di questo errore risulta x ! ˆx " 0 . Consideriamo due tipi di misura 

dell’errore: l’errore relativo 

e il residuo relativo 

e ! x " ˆx 

x 

r ! Aˆx " b 

b 

Tabella 4.1 

n e r 

10 6.1!10 "5 1.3!10 "16 

20 7.7 1.0 !10 "16 

30 23.1 2.3!10 "16 

40 80.9 6.8 !10 "16 

50 89.2 4.5 !10 "16 



In Tabella 4.1 sono riportati e ed r per diversi valori di n . Al crescere di n pur 

restando il residuo relativo dell’ordine di 10 !16 , l’errore relativo cresce in modo 

vertiginoso. In questo paragrafo cercheremo di stabilire una relazione tra il residuo 

relativo e l’errore relativo. 

♦ 

Indichiamo con ˆx la soluzione numerica dell’equazione (4.1). A causa degli errori di 

arrotondamento si ha 

Aˆx = ˆ b (4.64) 

con ˆ b ! b . Pertanto la soluzione numerica dell’equazione (4.1) è equivalente alla 

soluzione “esatta” dell’equazione (4.64). Posto 

e 

!b = ˆ b " b (4.65) 

!x = ˆx " x (4.66) 


22 

si pone il problema di determinare una stima dell’errore !x a partire dalla conoscenza 

di !b . 

Data un’equazione possiamo in linea schematica distinguere, per quanto riguarda la 

propagazione dell’errore, il comportamento dell’equazione dal comportamento del 

particolare algoritmo utilizzato per risolverla. Supponiamo che sia possibile risolvere 

l’equazione esattamente. Ci poniamo la seguente domanda: eventuali perturbazioni sui 

dati dell’equazione come influenzano la soluzione? Per caratterizzare un’equazione 

rispetto a questo tipo di comportamento si utilizza il termine condizionamento. 

Un’equazione si dice ben condizionata se eventuali perturbazioni sui dati non 

influenzano eccessivamente la soluzione, altrimenti si dice mal condizionata. La 

definizione di equazione ben condizionata è più restrittiva di quella di equazione ben 

posta secondo Hadamard 3 . 

Nel caso di un algoritmo, per indicare il suo comportamento rispetto alla 

propagazione dell’errore si usa il termine stabilità numerica. Un algoritmo si dice stabile 

numericamente se l’errore non si amplifica eccessivamente nella successione delle 

operazioni, altrimenti si dice numericamente instabile. 

4.7.1 Condizionamento di un sistema lineare 

Il problema del condizionamento di un sistema di equazioni algebriche lineari 

consiste nel studiare come varia la soluzione del sistema al variare dei dati, cioè della 

matrice e del termine noto. 

Studiamo dapprima il caso in cui varia solo il termine noto. Indichiamo con x e 

ˆx = x + !x le soluzioni dell’equazione (4.1) con i termini noti b e ˆ b = b + !b , 

rispettivamente, 

Sottraendo membro a membro otteniamo 

quindi 


Ax = b , A( x + !x) 

= b + !b . (4.67) 

A!x = !b , (4.68) 

!x = A "1 !b . (4.69) 

Per misurare l’entità della perturbazione nel termine noto e l’entità della perturbazione 

indotta nella soluzione introduciamo una norma ! : !b e !x danno una misura delle 

perturbazioni !b e !x . C’è una relazione tra !x e !b ? Dalla (4.69) si 

!x = A"1 !b . (4.70) 

Dalla definizione di norma di una matrice (vedi Appendice 2) abbiamo che 

3 Un’equazione è ben posta secondo Hadamard quando ammette una ed una sola soluzione ed inoltre, la 

soluzione dipende con continuità dai dati.

23 

Combinando le (4.70) e (4.71) otteniamo la relazione cercata 

A!1 "b # A !1 "b . (4.71) 

!x " A#1 !b . (4.72) 

E’ evidente che sono di particolare interesse la misura delle variazioni relative !x / x 

e !b / b . Dividendo ambo i membri della (4.72) per x abbiamo 

!x 

x " A#1 !b 

x 

Dalla prima equazione delle (4.67) si ha anche 

Allora, combinando le (4.73) e (4.74) 

! " #x 

x 


b ! A x . (4.74) 

$ ( A A%1 ) #b 

b 


Consideriamo, ora, il caso in cui varia la matrice. Indichiamo con x e ˆx = x + !x le 

soluzioni dell’equazione (4.1) con le matrici A e Â = A + !A , rispettivamente, (stiamo 

implicitamente assumendo che A e Â siano invertibili) 

Da queste equazioni abbiamo 

da cui 

e quindi 

Essendo 

Ax = b , ( A + !A) 

( x + !x) 

= b . (4.76) 

Ax = ( A + !A) 

( x + !x), 


!A( x + !x) 

+ A!x = 0 , (4.78) 

!x = A"1 !A( x + !x). 


A!1 "A( x + "x) 

# A !1 "A ( x + "x) 



dalla (4.79) si ha finalmente 

! " 

#x 

( x + #x) 

24 

$ ( A A%1 ) #A 

A 



Indichiamo con ! l’ampiezza della perturbazione del dato in entrambi i casi: nel primo 

caso ! " #b / b , nel secondo caso ! " #A / A . Quindi, sia per la perturbazione del 

termine noto che per la perturbazione della matrice l’ampiezza relativa della 

perturbazione della soluzione ! è legata all’ampiezza della perturbazione del dato ! 

dalla relazione 

! " K ( A)# 


dove 

K A ( ) ! A A"1 (4.83) 

è detto condizionamento della matrice A . Essendo A !1 A " 1 (vedi Appendice 2), si 

ha che 

K ( A) 

! 1 (4.84) 

per ogni matrice A (invertibile). Dunque il condizionamento di una matrice è sempre 

maggiore di 1. Il condizionamento di una matrice può essere calcolato in MATLAB 

attraverso il comando “cond(A)”. Se il condizionamento di A è piccolo, cioè dell’ordine 

dell’unità, la matrice A è detta ben condizionata ed a perturbazioni sui dati 

corrispondono perturbazioni sulla soluzione al più dello stesso ordine di grandezza di 

quelle sui dati. Se invece il condizionamento è grande la matrice si dice mal condizionata 

e a piccole perturbazioni sui dati possono corrispondere grandi perturbazioni sulla 

soluzione. 


La matrice di Hilbert definita dalla (4.60) è mal condizionata già per n ! 4 . In Tabella 

4.2 riportiamo il condizionamento per diversi valori di n . In base a questo risultato non 

ci dobbiamo meravigliare di quanto abbiamo visto nell’Esempio 4.6. 

n 

Tabella 4.2 

K A 

( ) 

10 1.60...!10 13 

20 4.60...!10 18 

30 6.47...!10 18 

40 3.13...!10 18 

50 2.19...!10 19 

♦

25 

Alcune proprietà del numero di condizionamento sono raccolte nel seguente 

enunciato. 

4.7.2 Proprietà del numero di condizionamento 

1. K ( !A) 

= K ( A) 

per ogni matrice A e per ogni scalare ! . 

2. 

K2 ( A) 

= ! max 

dove ! max e ! min sono, rispettivamente, il valore singolare più 

! min 

grande e più piccolo di A (vedi Appendici 1 e 2) 4 . 

3. Se A è simmetrica K2 ( A) 

= ! max dove ! e ! sono, rispettivamente, 

max min 

! min 

l’autovalore della matrice in valore assoluto più grande e più piccolo. 

4. Se A è simmetrica e definita positiva 

K2 ( A) 

= ! max 

rispettivamente, l’autovalore più grande e più piccolo. 

5. K 2 A 

( ) = 1 se e solo se A = !I . 

! min 

dove ! max e ! min sono, 

La dimostrazione delle proprietà 2. viene data in Appendice 2. La dimostrazione delle 

proprietà 3. e 4. è immediata se si ricorda che gli autovalori di una matrice simmetrica 

sono reali e i valori principali sono uguali agli autovalori presi in valore assoluto. Inoltre, 

se la matrice è anche definita positiva gli autovalori sono tutti positivi (vedi Appendice 

1). Lasciamo al lettore la dimostrazione delle altre. In base a queste proprietà abbiamo 

che una matrice mal condizionata è caratterizzata da un valore singolare massimo molto 

più grande di quello minimo. Se la matrice è simmetrica essa è mal condizionata se 

l’autovalore in modulo più grande è molto più grande dell’autovalore in modulo più 

piccolo. Infine, quando la matrice A è simmetrica e definita positiva essa è mal 

condizionata se l’autovalore più grande è molto più grande dell’autovalore più piccolo. 

Infine, essendo (vedi Appendice 1) 

det( A) 

= " ! i ( A) 


dove ! i ( A) 

per i = 1,2,...,n sono gli autovalori della matrice A , si evince che non c’è, 

in generale, alcuna relazione tra il determinante di A e il numero di condizionamento. 

4.7.3 Analisi dell’errore 

Sappiamo che un algoritmo implementato in aritmetica finita crea errori di 

arrotondamento. La stabilità è una misura di come tali errori si propagano. 

4 

Con K p ( A) 

intendiamo il condizionamento definito attraverso la p-norma ! . 

p 

n 

i=1 


26 

E’ possibile avere due diverse stime dell’errore, una si basa su una stima a posteriori e 

l’altra su una stima a priori. In entrambi i casi il numero di condizionamento di A gioca 

un ruolo fondamentale. L’idea di base consiste nel cercare di valutare la variazione sui 

dati necessaria a produrre, quando il problema è risolto esattamente, la stessa variazione 

sui risultati ottenuta per effetto degli errori di arrotondamento. Una volta valutate queste 

variazioni, attraverso le (4.75) e (4.81) si può avere una stima dell’errore se A non è mal 

condizionata. 

Consideriamo dapprima una stima a posteriori. A causa degli errori di arrotondamento 

la soluzione dell’equazione (4.1) con il metodo della fattorizzazione di Gauss x ! non è 

soluzione esatta della (4.1) e 


r ! Ax * " b # 0 . (4.86) 

Il residuo r sarebbe uguale a zero se non vi fossero errori di arrotondamento. Allora, la 

soluzione x ! è la soluzione che si avrebbe se il sistema (4.1) fosse risolto esattamente 

con ˆ b = b + r 

( ) al posto del termine noto b . Allora, applicando la (4.75) si ha 

x ! x " 

x 

# K ( A) 

r 

b 


Quando la matrice A è ben condizionata, K ( A) 

! 1, il residuo relativo r / b 

rappresenta una buona stima dell’errore relativo e / x , dove e ! x " x # . Attenzione, 

quando la matrice A è mal condizionata r / b non dà alcuna informazione utile 

sull’errore, come gli Esempi 4.6 e 4.7 evidenziano. La (4.87) è una stima a posteriori 

perché può essere ottenuta solo dopo che il problema è stato risolto. 

Consideriamo, ora una stima a priori. Indichiamo sempre con x ! la soluzione ottenuta 

con il metodo della fattorizzazione di Gauss e con E una matrice tale che 

A + E ( )x! = b . (4.88) 

La soluzione x ! è la soluzione che si avrebbe se il sistema (4.1) fosse risolto esattamente 

con Â = A + E 

( ) al posto della matrice A . Allora, applicando la (4.81) si ha 

x ! x " 

x " 

# K ( A) 

E 

A 


Come nel caso precedente, quando la matrice A è ben condizionata la quantità E / A 

è una buona indicazione della precisione della soluzione. E’ possibile avere una stima 

della norma di E . Per la fattorizzazione LU con pivoting si dimostra che [4.2]

27 

E ! " # $t A ! (4.90) 

dove ! è la base e t è il numero di cifre significative dell’aritmetica impiegata. 

Combinando le (4.89) e (4.90) si ottiene 

x ! x " 

x " 

# 

# 

$ % !t K # ( A) 


Questa è una stima a priori perché può essere ottenuta senza risolvere il problema. Si 

osservi che ! "t

28 

In generale, il condizionamento di una matrice può essere modificato dallo scaling. 

Un problema molto interessante, ma di difficile soluzione, è la determinazione di due 

matrici D1 e D2 tali da minimizzare K ( D1AD2 ). Si tratta di un problema di 

preprocessing (precondizionamento). Per ulteriori approfondimenti si veda in [4.2]. 

4.8 Metodi iterativi 

Il metodo della fattorizzazione di Gauss è un metodo diretto: la soluzione esatta del 

problema è determinata con un numero finito di operazioni elementari in assenza di 

errori di arrotondamento. 

Un metodo iterativo per la soluzione del sistema (4.1) consiste nel costruire, a partire 

da un dato iniziale x 0 ( ) , una successione 


x 1 ( ) ,x 2 ( ) ,...,x k ( ) ,... (4.96) 

convergente alla soluzione x per k ! " attraverso l’iterazione 

k +1 

x ( ) = Bx k ( ) + g . (4.97) 

La (4.97) ricorda l’iterazione di punto fisso descritta nella Nota 5: la soluzione del 

sistema (4.1) è cercata come punto fisso della funzione di iterazione 

che è, quindi, la soluzione dell’equazione 

! ( x) 

= Bx + b , (4.98) 

x = Bx + b . (4.99) 

Come costruire l’iterazione (4.97)? Consideriamo la seguente decomposizione della 

matrice A : 

con det( V) 

! 0 . Si ha allora 

da cui il procedimento iterativo 

A = V + W (4.100) 

Ax = b ! Vx = "Wx + b (4.101) 

k +1 

Vx ( ) = !Wx k ( ) + b per k ! 0 . (4.102)

29 

Il punto fisso della (4.102) è la soluzione dell’equazione (4.101) ovvero del sistema (4.1) 

. La matrice di iterazione B è data da 

e g è dato da 

B = !V !1 W = V !1 A ! I (4.103) 

g = V!1 b . (4.104) 

La decomposizione (4.100) deve essere fatta in modo tale da garantire due requisiti: 

i) l’iterazione (4.97) sia convergente; 

ii) il costo computazionale sia più basso di quello che si avrebbe con il metodo 

della fattorizzazione di Gauss. 

Quando l’iterazione converge, essa, in generale, dà la soluzione solo per k ! " . 

Dunque, come nell’iterazione di punto fisso studiata nella Nota 5, anche in questo caso 

bisogna introdurre un criterio di arresto. Posto 

e 

!x 

k +1 ( ) k +1 

" x 

per arrestare l’iterazione possiamo utilizzare uno dei due criteri 

dove ! è una norma naturale (vedi Appendice 2). 

( ) # x k ( ) (4.105) 

r k ( ) ! b " Ax k ( ) , (4.106) 

!x M ( ) " # , (4.107) 

r M ( ) ! " , (4.108) 

Ora mostreremo che c’è una relazione tra il residuo r k ( ) e l’incremento !x 

Essendo 

dalla (4.102) segue che 


k +1 ( ) . 

k 

!Wx ( ) + b = ( V ! A)x 

k ( ) + b = Vx k ( ) ! r k ( ) . (4.109) 

k+1 

V x ( ) ! x k ( ) ( ) = !r k 

( ) , (4.110) 

V!x k+1 ( ) = r k ( ) o !x k+1 ( ) = V "1 r k ( ) . (4.111) 


30 

Tra le norme del residuo e dell’incremento ci sono le relazioni 

( ) ! V "x k+1 

k 

r 

( ) 

o !x k+1 

( ) " V #1 r k ( ) 



Per descrivere i vari metodi iterativi conviene rappresentare la matrice A come segue 

A = D + ! L + ! U (4.113) 

dove D è la matrice diagonale formata dagli elementi della diagonale di A , ! L è la 

matrice triangolare inferiore formata dagli elementi della parte triangolare inferiore di A 

con elementi nulli sulla diagonale e ! U è la matrice triangolare superiore formata dagli 

elementi della parte triangolare superiore di A con elementi nulli sulla diagonale, Figura 

4.3. 

Figura 4.3 

e 

4.7.1 Metodo di Jacobi 

Il metodo iterativo di Jacobi consiste nello scegliere 

La matrice di iterazione è 

V = D (4.114) 

W = ! ! U + ! ( L). 


B = !D!1 ( U ! + L! 

) = I ! D !1 A . (4.116) 

La matrice D è invertibile se a ii ! 0 per i = 1,2,...,n . L’inversa di D si calcola 

immediatamente, essa è ancora una matrice diagonale, 

D !1 = 

!1 

a11 0 0 ... 0 

0 

!1 

a22 0 ... 0 

... ... ... ... ... 

!1 

0 0 0 ... ann . (4.117)

31 

In forma esplicita l’algoritmo che descrive l’iterazione di Jacobi è 

( k +1) 

1 

xi = 

aii $ n 

& bi ! # aijx j 

% 

j =1, j "i 

( k) 

' 

) 

( 

i = 1,2,...,n (4.118) 

per k = 0,1,... . 

Il metodo di Jacobi è implementato nel Programma 4.2, [4.3]. I parametri di ingresso 

sono la matrice A , il termine noto b , il dato iniziale x0 per l’iterazione, il numero 

massimo di iterazioni consentite e l’errore “toll” del criterio d’arresto dell’iterazione, 

err = r k ( ) 

/ r 0 ( ) ! toll . 

Programma 4.2: Iterazione di Jacobi 

function [x,iter]=jacobi(A,b,x0,nmax,toll) 

% Iterazione di Jacobi 

[n,n]=size(A); 

iter=0;r=b-A*x0;r0=norm(r);x_old=x0; 

err=r0; 

while err>toll&iter

32 

con il metodo di Jacobi. La matrice è dominanza diagonale stretta per righe. Con x 0 = 0 

e toll = 10 !6 dopo 28 iterazioni si ottiene la soluzione x = 0.0714,0.2143,0.5714 T . 


Risolviamo il sistema 

1 3 3 

3 6 4 


1 

2 2 2 x = 3 

2 

♦ 


con il metodo di Jacobi. L’iterazione di Jacobi non converge perché la matrice non è a 

dominanza diagonale stretta per righe. 

♦ 

Quale è il vantaggio dal punto di vista del costo computazionale di questo metodo 

rispetto a quello della fattorizzazione di Gauss? Ad ogni iterazione del metodo di Jacobi 

bisogna effettuare ( 2n ! 1)n 

operazioni (addizioni, moltiplicazioni e divisioni). E’ 

evidente, allora, che se il numero di iterazioni M necessarie per raggiungere la 

precisione desiderata è tale che M > 1. Invece nella fattorizzazione di Gauss le matrici L e U sono, 

in generale, piene anche se A è sparsa. 

e 

4.7.2 Metodo di Gauss-Seidel 

Il metodo iterativo di Gauss-Seidel consiste nello scegliere 

La matrice di iterazione è 

V = D + ! L (4.121) 

W = ! U . (4.122) 

B = ! D + ! ( L) 

!1 U ! = I ! ( D + L! 

) !1 

A . (4.123)

Ad ogni passo dell’iterazione di Gauss-Seidel bisogna risolvere il sistema 

33 

D + ! k +1 ( L)x 

( ) = ! ! Ux k ( ) + b . (4.124) 

Essendo D + ! L una matrice triangolare bassa il sistema (4.124) può essere risolto con 

l’algoritmo (4.14). Si ottiene lo schema iterativo in forma esplicita 

( k +1) 

1 

x1 = 

a11 ( k +1) 

1 

x2 = 

a22 ( k +1) 

1 

x3 = 

a33 e così via. In termini più generali si ha 

( k +1) 

1 

xi = 

aii # 

$ 

% 

# 

$ 

% 

# 

$ 

% 

n 

k 

b1 ! " a1hx h 

h=2 

( ) 

& 

' 

( 

n 

( k +1) 

k 

b2 ! a21x1 ! " a2hx h 

h= 3 



( ) 

& 

' 

( 

n 

( k +1) 

( k +1) 

k 

b3 ! a31x1 ! a31x2 ! " a3hxh h= 4 

i!1 

# 

bi ! " aihxh $ 

% 

h=1 

n 

( k +1) 

k 

! aihxh " 

h=i+1 

( ) 

& 

' 

( i = 1,2,...,n (4.128) 

( ) 

& 

' 

( 



per k = 0,1,... ; la prima sommatoria non dà contributo per se i = 1, mentre la seconda 

sommatoria non dà contributo se i = n . La (4.128) può essere espressa nella forma 

compatta 

k +1 

x ( ) = !D !1 Lx ! ( k +1) 

!1 

! D Ux ! ( k) 

!1 

+ D b (4.129) 

per k = 0,1,... . 

Il metodo di Gauss-Seidel converge se la matrice A verifica una di queste due 

condizioni: 

i) la matrice A è a dominanza diagonale stretta per righe; 

ii) la matrice A è simmetrica e definita positiva. 

( ) vengono calcolate 

k +1 

Nel metodo di Jacobi le componenti del vettore x 

indipendentemente le une dalle altre, invece nel metodo di Gauss-Seidel per calcolare 

( k +1) 

( k +1) 

( k +1) 

( k +1) 

xi si impiegano le componenti xi , x2 ,..., xi!1 calcolate in precedenza. Ciò rende 

il metodo di Gauss-Seidel più veloce di quello di Jacobi. Si osservi che il numero di 

operazioni ad ogni iterazione è uguale al numero di operazioni richieste dal metodo di 

Jacobi. 

Il metodo di Gauss-Seidel è implementato nel Programma 4.3, [4.3]. I parametri di 

ingresso sono la matrice A , il termine noto b , il dato iniziale x0 per l’iterazione, il

34 

numero massimo di iterazioni consentite e l’errore “toll” del criterio d’arresto 

dell’iterazione, err = r k ( ) 

/ r 0 ( ) ! toll . 


Risolviamo il sistema (4.119) con il metodo di Gauss-Seidel. La matrice è dominanza 

diagonale stretta per righe. Con x 0 = 0 e toll = 10 !6 dopo 8 iterazioni si ottiene la 

soluzione x = 0.0714,0.2143,0.5714 T , 20 iterazioni in meno del metodo di Jacobi. ♦ 

Programma 4.3: Iterazione di Gauss-Seidel 

function [x,iter]=gseidel(A,b,x0,nmax,toll) 

% Iterazione di Gauss-Seidel 


iter=0;r=b-A*x0;r0=norm(r);x=x0; err=r0; 

while err>toll&iter


35 

k +1 

x ( ) = I ! "D !1 ( A)x 

k ( ) + "D !1 b . (4.132) 

Implementare in MATLAB l’algoritmo del rilassamento per il metodo di Jacobi. 

Invece, partendo dal metodo di Gauss-Seidel 

k +1/2 

x ( ) = I ! ( D + L) 

!1 " 

# 

A$ 

% x k ( ) + ( D + L) 

!1 b (4.133) 

si ottiene il metodo di rilassamento o metodo SOR 


( ) "1 1" ! 

k +1 

x ( ) = D +!L 

k 

#$ ( )D " !U%& 

x ( ) + ! ( D + L) 

"1 b . (4.134) 

Implementare in MATLAB l’algoritmo del rilassamento per il metodo di Gauss- 

Seidel. 

♦ 

4.9 Il problema della convergenza 

Introduciamo il vettore “errore” 

e k ( ) ! x k ( ) " x . (4.135) 

L’iterazione (4.96) generata dalla (4.97) converge al punto fisso x se e solo se 

La legge che governa e k ( ) per k ! 0 è 

4.9.1 Criterio di convergenza 

lim e 

k!" k ( ) = 0 . (4.136) 

k +1 

e ( ) = Be k 

( ) . (4.137) 

Consideriamo, ora, una norma naturale ! e applichiamola ad ambo i membri della 

(4.137), 


♦

Siccome Be k ( ) ! B e k 

( ) 

, si ha 

k +1 

e 

k +1 

e 

Dalla (4.139) segue immediatamente che 

Se 

k 

e ( ) ! ( B ) k 

36 

( ) = Be k 


( ) 

( ) ! B e k 

e 0 ( ) 

( ) 



k = 1,2,... . (4.140) 

B < 1 (4.141) 

la (4.140) dà immediatamente la (4.136). Pertanto, l’iterazione (4.97) converge alla 

soluzione x del sistema (4.99) se almeno una norma della matrice di iterazione è 

inferiore ad uno. 

Utilizzando la norma euclidea ! si ha che B = ! 2 2 max ( B) 

dove ! max ( B) 

è il valore 

singolare più grande della matrice B . La condizione di convergenza (4.141) diventa 

! max B ( ) < 1 . (4.142) 

Se la matrice di iterazione è simmetrica si ha che ! max ( B) 

= max " B 

i=1,n 

( ) 

( ) dove con ! i B 

indichiamo un generico autovalore della matrice B . Quindi per matrici di iterazioni 

simmetriche la condizione di convergenza è verifica se l’autovalore di B in modulo più 

grande ha modulo inferiore ad 1. In realtà, questo risultato ha validità più generale. 

Per definizione, il raggio spettrale ! B 

( ) di una generica matrice quadrata B è 

! ( B) 

" max 

i=1,n # i B 

Si dimostra che per ogni ! > 0 esiste una norma ! " tale che, [4.4], 

Allora se 

B ! 

( ) . (4.143) 

" # ( B) 

+ $ . (4.144) 

! ( B) 

< 1 (4.145)

37 

la (4.141) è verificata. In realtà, la (4.145) è anche una condizione necessaria per la 

convergenza dell’iterazione. Infatti se fosse ! ( B) 

> 1 , la matrice di iterazione B avrebbe 

almeno un autovalore ! con ! > 1 e corrispondente autovettore u ! 0 . Essendo 

B k u = ! k u , B k u divergerebbe per k ! " . 

Osservazione 

Il determinante di una matrice è uguale al prodotto dei suoi autovalori, (vedi, ad 

esempio, [4.4]). Allora se 

det( B) 

> 1 (4.146) 

certamente il raggio spettrale di B non verifica la condizione di convergenza (4.145). 

Inoltre, la traccia di una matrice è uguale alla somma dei suoi autovalori. Allora, se 

tr( B) 

> n (4.147) 

significa che almeno un autovalore è in modulo maggiore di 1 e, quindi deve essere 

necessariamente ! B 

( ) > 1 . 


Considerare i metodi di Jacobi e Gauss-Seidel per la matrice 

A = 

1 !2 2 

!1 1 !1 . (4.148) 

!2 !2 1 

Determinare i raggi spettrali delle corrispondenti matrici di iterazione. 


Considerare i metodi di Jacobi e Gauss-Seidel per la matrice 

A = 

2 !1 1 

2 2 2 

!1 !1 2 

Determinare i raggi spettrali delle corrispondenti matrici di iterazione. 


♦ 

♦ 


♦

38 

Dal criterio (4.145) è possibile ricavare delle condizioni per la matrice A che assicurano 

la convergenza. 

4.9.2 Metodo di Jacobi 

Se la matrice A è a dominanza diagonale stretta per righe si ha B < 1 e, quindi, 

! 

! ( B) 

< 1 . La dimostrazione è la seguente. La matrice di iterazione del metodo di Jacobi 

ha elementi: 

e quindi 


Bii = 0 , Bij = ! aij , i ! j (4.150) 

aii n 

n aij ! Bij = 

j =1 j =1, j "i aii Essendo la matrice A a dominanza diagonale stretta per righe si ha 

per ogni i . Combinando le (4.151) e (4.152) segue che 

Ricordando che 

abbiamo che 

! . (4.151) 

n 

" 

j =1, j !i 

aij < aii (4.152) 

n 

! Bij j =1 

< 1 per ogni i . (4.153) 

B ! = max 

i=1,n 

n 

" Bij j =1 


B < 1. (4.155) 

! 

Essendo ! ( B) 

" B (vedi Appendice 2) si ha anche ! ( B) 

< 1 . 

# 

Se la matrice A è a dominanza diagonale stretta per righe, il metodo di Jacobi con 

rilassamento converge con 0 < ! " 1. Lasciamo al lettore la dimostrazione di questo 

criterio. 

4.9.3 Metodo di Gauss-Seidel 

Per il metodo di Gauss-Seidel ci limiteremo a enunciare dei criteri. Lasciamo la 

lettore la dimostrazione.

39 

Criterio 1. Se la matrice A è a dominanza diagonale stretta per righe, allora il raggio 

spettrale della corrispondente matrice di iterazione B è inferiore a 1 e, quindi, il metodo 

converge. 

Criterio 2. Se la matrice A è simmetrica e definita positiva, allora il raggio spettrale 

della corrispondente matrice di iterazione B è inferiore a 1 e, quindi, il metodo 

converge. 

Per il metodo di Gauss-Seidel con rilassamento esistono i seguenti criteri. 

Criterio 3. Per ogni matrice A una condizione necessaria di convergenza del metodo di 

rilassamento è 0 < ! < 2 . 

Criterio 4. Se A è una matrice simmetrica e definita positiva condizione necessaria e 

sufficiente per la convergenza del metodo di rilassamento è 0 < ! < 2 . 

4.8.2 Velocità di convergenza 

Consideriamo il rapporto 

! k " 

( k) 

e 

e 0 ( ) 

# 

# 


dove ! " è la norma per cui è verificata la proprietà (4.144). Esso esprime l’errore al 

passo k riferito all’errore al passo iniziale. Dalle (4.139) e (4.144) si ha che 


Scegliendo !

La quantità 

40 


1 

M > ! 


log10 #$ " ( B) 

%& 

R = ! log10 #$ " ( B) 

%& (4.161) 

costituisce una misura della velocità di convergenza e prende il nome di tasso asintotico 

di convergenza. 

4.9.3 Stima dell’errore 

Supponiamo di arrestare con un dato criterio di arresto l’iterazione al passo M . Per 

( ) 

stimare l’errore e M 

Lasciamo al lettore verificare che 

( ) 

possiamo utilizzare o il residuo r M 

e M ( ) 

x 

! K ( A) 

( M ) 

r 

b 

( ) 

o l’incremento !x M 


Il controllo dell’errore attraverso il residuo può essere realizzato solo se la matrice A è 

ben condizionata. 

( ) 

Cerchiamo, ora, una relazione tra e M 


e !x 

e M M +1 

= e ( ) M +1 

! x ( ) ! x M 

Applicando la (4.139) abbiamo che 


( M +1) 

( ) 

( ) = e 

e M ( ) M +1 

! e ( ) + "x 

M 

e ( ) ! B e M ( ) + "x 

e k ( ) 1 

! 

1" B 

. Per ogni k abbiamo l’identità 

M +1 ( ) M +1 

! "x 

( M +1) 

( k +1) 

#x 

( M +1) 

( ) , (4.163) 



. 

(4.166)

41 

se B < 1. Di conseguenza, se B

42 

d 2 f 

2 ! =0 > 0 . 

d! 


Figura 4.4 Grafici della forma quadratica f ( x) 

. (a) Forma quadratica definita 

positiva; il minimo è la soluzione dell’equazione Ax = b ; (b) forma quadratica definita 

negativa: il massimo è la soluzione dell’equazione Ax = b ; (c) forma quadratica 

semidefinita positiva di una matrice singolare: le soluzioni dell’equazione Ax = b sono 

tutti i punti della linea sul fondo della superficie; (d) forma quadratica non definita: la 

soluzione è un “punto a sella”. 

Essendo 

df 1 

= 

d! 2 "ûT A( u + !"û) 

+ 1 

u + !"û 

2 ( )T A"û # "û T b , (4.172) 


d 2 f 1 

= 2 

d! 2 "ûT A"û + 1 

2 "ûT A"û , (4.173)

dalle (4.170) e (4.171) segue che 

e 

43 

!u T ( Au " b) 

= 0 (4.174) 

!û T A!û > 0 . (4.175) 

Per ottenere la (4.174) abbiamo utilizzato la simmetria di A . 

La (4.175) è verificata per ogni !û perché A è simmetrica. La (4.174) è verificata 

per ogni !û se u = x . Se A fosse definita negativa basta moltiplicare ambo i membri 

dell’equazione (4.167) per !1. In conclusione, il minimo della forma quadratica (4.167) 

è la soluzione del sistema (4.1) se la matrice A è simmetrica e definita positiva. 

Posto 

e( x) 

! x " u (4.176) 

osserviamo che minimizzare f ( x) 

è equivalente a minimizzare la forma quadratica di 

errore definita da 

dove, come al solito, 

E x ( ) ! eTAe = r T A "1 r > 0 (4.177) 

r( x) 

! b " Ax (4.178) 

è il residuo. Il minimo di E ( x) 

è in x = u . Si noti che E ( x) 

è definita positiva. Si 

osservi che 

!Ae = r . (4.179) 

In base a quanto abbiamo appena dimostrato possiamo, dunque, determinare la 

soluzione del sistema (4.1) cercando il minimo (assoluto) della forma quadratica (4.167). 

La ricerca di questo minimo può essere realizzata attraverso un metodo iterativo. 

Osservazione 

Se la matrice A è simmetrica e definita negativa la forma quadratica f ( x) 

ha un 

massimo (assoluto) in corrispondenza della soluzione dell’equazione (4.1), Figura 4.4(b). 

In questo caso l’equazione (4.1) può essere risolta cercando il massimo della funzione 

f x 

( ) . 

Se la matrice A è simmetrica e semi definita positiva (negativa) essa ha almeno un 

autovalore uguale a zero e quindi è singolare. In questo caso l’equazione (4.1) ha infinite 


44 

soluzioni e la forma quadratica f ( x) 

ha infiniti punti di minimo (massimo), Figura 

4.4(c). 

Se la matrice A è simmetrica ma non è definita positiva (negativa) la soluzione 

dell’equazione (4.1) non può essere determinata attraverso la ricerca del minimo 

(massimo) assoluto della forma quadratica f x 


( ) : la soluzione dell’equazione (4.1) è 

( ) ma non è né un massimo, né un minimo. 

ancora un punto estremale della funzione f x 

In questo caso la soluzione è un “punto a sella”: muovendosi lungo certe di reazioni 

appare come un punto di minimo, invece muovendosi lungo altre direzioni appare come 

se fosse un massimo, Figura 4.4(d). 

4.10.2 I metodi di discesa 

Si consideri la soluzione di tentativo x k ( ) al generico passo k . I metodi del gradiente o 

di discesa sono metodi iterativi nei quali al passo k si sceglie un vettore z k ( ) ! 0 e uno 

scalare ! k ( ) tali che 

dove 

( k +1) 

( ) < J x k 

J x 

k +1 

x ( ) = x k ( ) + ! kz k 

( ) ( ) (4.180) 

( ) . (4.181) 

Per ogni fissato z k ( ) il parametro ! k deve essere scelto in modo tale da minimizzare 

! ( k +1) 

f ( ! k ) = f ( x ) . La direazione del vettore z k ( ) è la direzione lungo cui ci si muove per 

avvicinarsi al minimo. Dunque ! k è scelto in modo tale che 

d ! f 

d! k 

d 2 f! 

2 

d! k 

= 0 , (4.182) 

> 0 . (4.183) 

La (4.183) è verificata indipendentemente dal valore di ! k perché la matrice A è 

definita positiva. Essendo A simmetrica si ha che 

d ! f 

d! k 

( ) ( ) " z k 

= z k ( )T A x k ( ) + ! kz k 

Imponendo, ora, la (4.182) si ottiene 

( )T b = "z k 

( )T k +1 

r 

( ) . (4.184)

dove 

Allora per ogni scelta di z k ( ) si ha 

e 

! k = 

45 

k 

z ( )T r k 

z k 

( ) 

( )T Az k ( ) 


r k ( ) ! r x k ( ) ( ). (4.186) 

k +1 

r ( ) = r k ( ) ! " kAz k ( ) , (4.187) 

k +1 

r ( )T z k ( ) = 0 . (4.188) 

k +1 

In seguito mostreremo che ! x f ( x) 

= "r( x), 

quindi r 

( k +1) 

k +1 

f ( x) 

= f ( x ) nel punto x ( ) . Di conseguenza il vettore z k 

superficie nel punto x 

k +1 ( ) , Figura 4.6. 

Figura 4.6 Curve di livello della forma quadratica e metodi della discesa. 

( ) è normale alla superficie 

( ) è tangente a questa 

Possiamo determinare, ora, anche la legge che governa l’errore E . Dall’espressione 

del valore ottimale di ! k si ha, [4.1], 

dove 

( ) ( ) = E x k ( ) 

k +1 

E x 

! k = 

( ) 1 ! " k 

z k ( )T r k ( ) ( ) 2 

z k ( )T Az k ( ) ( ) r k 

( ) (4.189) 

( )T A "1 r k 


( ) ( ) 


46 

Lasciamo al lettore la dimostrazione. Si noti che ! k > 0 perché la matrice A è definita 

positiva (salvo il caso z k ( ) = 0 che abbiamo escluso a priori e il caso r k ( ) = 0 nel quale si 

è raggiunta la soluzione del problema). 

Indichiamo con zsol un vettore diretto parallelamente alla retta che congiunge il punto 

x k ( ) al punto u (cioè alla soluzione), Figura 4.4. Se zsol fosse noto otterremmo in un 

solo passo la soluzione per qualunque scelta di x k ( ) , 


k +1 

x ( ) = x k ( ) + ! kz sol = u . (4.191) 

Ovviamente non conosciamo la soluzione e, quindi, non conosciamo z sol . 

Come scegliere allora z k ( ) ? Bisogna individuare tra tutte le possibili direzioni quella 

che assicura la convergenza verso la soluzione con il minor numero di iterazioni. 

4.10.3 Il metodo del gradiente 

Il metodo del gradiente con discesa rapida, detto comunemente anche metodo del 

gradiente, consiste nell’assumere come direzione di discesa verso il minimo di f quella 

che assicura la massima variazione di f . Tale direzione è data proprio dal gradiente di 

f x 

( ) (nello spazio ! n ). Si consideri la funzione scalare 

definita in ! n . Il gradiente di g vale 

Per il gradiente di f , allora, abbiamo 

! x f x 

g( x) 

= c T x = x T c (4.192) 

! xg( x) 

= ! x c T ( x) 

= c . (4.193) 

1 

2 xTAx " x T # 

& 

b 

$ 

% 

' 

( 

= 1 

x 

2 

T ( A) 

T 

) + Ax+ 

* 

, " b 

=Ax " b = "r( x). 

( ) = ! x 


Nel metodo del gradiente con discesa rapida la direzione di discesa è, a meno del segno, 

proprio quella definita dal residuo dell’equazione, Figure 4.7 e 4.8. Poniamo, allora, 

nella (4.185)

47 

z k ( ) = r k ( ) . (4.195) 

Figura 4.7 Gradiente della forma quadratica. Per ogni punto il gradiente punta nella direzione 

della massima crescita ed è ortogonale alle linee di livello. 

Figura 4.8 Metodo del gradiente con discesa rapida. 


48 

Dunque, l’algoritmo del metodo del gradiente con discesa rapida è 

per k = 0,1,... , dove r 0 ( ) = b ! Ax 0 ( ) . 

! k = 

k 

r ( )T r k 


r k 

( ) 

( )T Ar k 

( ) 

k +1 

x ( ) = x k ( ) + ! kr k 

k +1 

r ( ) = b " Ax 

( ) 

( k +1) 


Riportiamo nel Programma 4.4 una implementazione dell’algoritmo (4.196) 

utilizzando il linguaggio di programmazione MATLAB ® . 

Programma 4.4: Metodo del gradiente con discesa rapida 

function [x,iter]=gradiente(A,b,x0,nmax,toll) 

% metodo del gradiente con discesa ripida 


L=eye(n); U=L; 

iter=0; r=b-A*x0; r0=norm(r); err=norm(r);x=x0; 

while err>toll&iter

49 

1 3 3 

3 6 4 

1 

2 2 2 x = 3 

con il metodo del gradiente. Il metodo del gradiente non converge. Perché? 



2 1 

1 3 

x = 1 

0 

2 



♦ 


con il metodo di Jacobi, il metodo di Gauss-Seidel e il metodo del gradiente. Verificare 

che il metodo del gradiente è più veloce. 

♦ 

dove 

Per l’errore E x k 

( ) ( ) abbiamo 

( ) ( ) = E x k ( ) 

k +1 

E x 

! k = 

r k 

4 

( ) 

2 

r k ( )T Ar k ( ) ( ) r k 

( ) 1 ! " k 


( )T A "1 r k 


( ) ( ) 

Utilizzando il fatto che A è simmetrica e definita positiva dalla (4.201) si ottiene che 

[4.1] 

2 

( k +1) 

# K ( A) 

" 1& 

E ( x ) ! % ( E x 

$ K ( A) 

+ 1' 

k ( ) ( ). (4.202) 

Dalla (4.202) si ottiene che il metodo del gradiente con discesa ripida converge alla 

soluzione comunque sia il punto iniziale x 0 ( ) . La velocità di convergenza è lenta se la 

matrice A è mal condizionata. Per ovviare questo problema si può considerare al posto 

del problema (4.1) il problema 

P !1 Ax = P !1 b , (4.203) 

dove P è una matrice opportuna. La condizione (4.202) diventa allora,

E x 

50 

( ) " 1 

K P "1 2 

# 

& 

( E x 

$ % ( A) 

+ 1 

'( 

k 

( k +1) 

( ) ! K P"1A % 

Allora, la matrice P deve essere scelta in modo tale che K P !1 A 

P viene detta matrice di precondizionamento. 

Programma 4.5: Metodo del gradiente precondizionato 

function [x,iter]=gradiente_prec(A,b,x0,nmax,toll,P) 

% metodo del gradiente precondizionato 

[n,n]=size(A); if nargin==5 

L=eye(n); U=L; P=U; 

else 

[L,U]=lu[P]; 

end 

iter=0; r=b-A*x0; r0=norm(r); err=norm(r);x=x0; 

while err>toll&iter

4.11 Il metodo del gradiente coniugato 

51 

Nel metodo del gradiente con discesa rapida la direzione z k ( ) è scelta secondo la 

(4.195). Ciò ha come svantaggio il fatto che alcune direzioni possono ripetersi 

nell’iterazione come si evince dalla Figura 4.8. Nel metodo del gradiente coniugato, 

invece, le direzioni di discesa sono tra loro ortogonali rispetto al prodotto scalare 

yTAx 5 . Questa scelta delle direzioni di discesa permette di ottenere la convergenza alla 

soluzione in un numero di iterazioni non superiore alla dimensione n della matrice A . 

Nella presentazione di questo metodo seguiremo, almeno in parte, l’approccio illustrato 

in [4.5]. 

4.11.1 Coniugazione 

Consideriamo un insieme di n direzioni z 0 ( ) ,z 1 ( ) ,z 2 ( ) ,...,z n!1 ( ) tra loro ortogonali 

rispetto al prodotto scalare y T Ax , ovvero A-ortogonali (A-coniugati): 

In seguito vedremo come tale insieme si può costruire. 

z i ( ) Az j ( ) = 0 per i = j . (4.205) 

Figura 4.9 Queste coppie di vettori sono A-ortogonali ………. perchè queste coppie sono ortogonali. 

5 Essendo A simmetrica e definita positiva, la forma y T Ax definisce un prodotto scalare in ! n . Nello 

spazio lineare ! n è definito un prodotto scalare se ad ogni x, y !" n è associato un numero reale, 

denotato usualmente con ( x, y) 

, tale che: 1. ( x, x) 

> 0 se x ! 0 e ( x, x) 

= 0 se x = 0 ; 2. ( x, y) 

= ( y, x) 

; 

3. ( !x, y) 

= ! ( x, y) 

; 4. ( x + y, z) 

= ( x, z) 

+ ( y, z) 

. 


52 

Cosa significa che due vettori sono A-ortogonali? Si immagini che questa pagina sia 

stampata su un pezzo di gomma, di afferrare la Figura 4.9(a) ai lembi e di stirarla fino a 

quando le ellissi non appaiono come circonferenze. Le coppie di vettori che sull’ellisse 

sono A-coniugati, appariranno sulle circonferenze ortogonali, Figura 4.9(b). A causa 

della proprietà (4.205) l’insieme dei vettori z 0 ( ) ,z 1 ( ) ,z 2 ( ) ,...,z n!1 ( ) costituisce una base per 

lo spazio vettoriale R n . 

k +1 

Determinare x ( ) lungo z k ( ) ( k +1) 

in modo tale che f x 


( ) sia minimo equivale ad 

k +1 

imporre che il residuo r ( ) sia ortogonale a z k ( ) e, quindi, che l’errore al passo k + 1, 

k +1 

e ( ) , sia A -ortogonale rispetto a z k ( ) . Si osservi che non possiamo imporre che l’errore 

sia ortogonale rispetto a z k ( ) perchè non lo conosciamo. 

Consideriamo ora la dinamica dell’errore. E’ immediato verificare che 

k "1 

e k ( ) = e 0 ( ) + ! jz j ( ) 

# (4.206) 

dove i coefficienti ! k sono dati dalla (4.185). Possiamo sempre rappresentare e 0 ( ) 

attraverso una combinazione lineare dei vettori z 0 ( ) ,z 1 ( ) ,z 2 ( ) ,...,z n!1 ( ) . Abbiamo: 

e 0 

j =0 

( ) = ! jz j 

n"1 

( ) 

# . (4.207) 

j =0 

Premoltiplicando ambo i membri della (4.207) per z i ( )T A si ottiene utilizzando la (4.205) 

n"1 

# 

z i ( )T Ae 0 ( ) = ! jz i ( )T Az j 

Utilizzando di nuovo la (4.205) e poi la (4.206) si ha 

! i = 

z i 

z i 

( )T Ae 0 

( )T Az i 

( ) 

( ) = 

z i 

j =0 

( ) 

( )T A e 0 ( ) + " hz h 

i#1 

% 

( ) ( 

' $ * 

& h=1 ) 

( )T Az i ( ) = 

z i 

Utilizzando infine la (4.185) si ottiene 

n"1 

= ! iz i ( )T Az i ( ) . (4.208) 

( )T Ae i ( ) 

( )T Az i 

i 

z 

( ) = # ( )T r i ( ) 

( )T Az i ( ) . (4.209) 

z i 

z i 

e k ( ) = ! jz j ( ) 

# " ! jz j ( ) 


j =0 

Man mano che si procede nell’iterazione il secondo termine cancella i contributi del 

primo termine all’errore lungo le direzioni z 0 ( ) ,z 1 ( ) ,z 2 ( ) ,...,z n!1 ( ) . Per n = k tutti i termini 

k "1 

j =0 

z i

53 

sono stati cancellati e e n ( ) = 0 . Dunque, impiegando n direzioni A-coniugate in almeno 

n iterazioni si raggiunge la soluzione. Un risultato semplice, elegante e di notevole 

interesse. 

Dall’equazione (4.210) si ha che 

n"1 

e k ( ) = ! jz j ( ) 


Consideriamo ora il prodotto tra il vettore z i ( )T e il vettore e k ( ) . Abbiamo: 

Dalla (4.212) si ha immediatamente che 

j = k 

n!1 

z i ( )T r k ( ) = !z i ( )T Ae k ( ) = " jz i ( )T Az j ( ) 


j = k 

z i ( )T r k ( ) = 0 per 0 ! i < k , (4.213) 

quindi il residuo al passo k è ortogonale a tutte le direzioni z 0 ( ) ,z 1 ( ) ,z 2 ( ) ,...,z 

k !1 ( ) . Ciò 

implica anche che l’errore al passo k è A-ortogonale a tutte le direzioni 

z 0 ( ) ,z 1 ( ) ,z 2 ( ) k !1 

,...,z ( ) . Allora è evidente che, dovendo essere l’errore e n ( ) ortogonale a 

tutte le direzioni z 0 ( ) ,z 1 ( ) ,z 2 ( ) ,...,z n!1 ( ) che costituiscono una base per lo spazio R n , deve 

essere necessariamente e n ( ) = 0 .i > 0 

4.11.2 Coniugazione di Gram-Schmidt 

Un insieme di direzioni z 0 ( ) ,z 1 ( ) ,z 2 ( ) ,...,z n!1 ( ) A-ortogonali può essere ottenuto a partire 

da un insieme di n vettori y 0 ( ) , y 1 ( ) , y 2 ( ) ,..., y n!1 ( ) linearmente indipendenti. Per costruire 

z i ( ) si parte da y i ( ) e si elimina quella componente che non è A-ortogonale a 

z 0 ( ) ,z 1 ( ) ,z 2 ( ) ,...,z i!1 ( ) . In altre parole, si assume z 0 ( ) = y 0 ( ) , si pone 

i"1 

z i ( ) = y i ( ) + ! ijz j ( ) 

# (4.214) 

e i coefficienti ! ik sono scelti imponendo che z i ( ) sia A-ortogonale a i vettori 

z 0 ( ) ,z 1 ( ) ,z 2 ( ) ,...,z i!1 ( ) (i coefficienti ! ik sono definiti solo per i > k ). Imponendo questa 

condizione e utilizzando la (4.205), si ottiene 

! ij = " 

i 

y ( )T Az j 

z j ( )T Az j 

( ) 

j =0 

( ) per 0 ! k 4.215) 


Moltiplicando il trasposto di ambo i membri della (4.214) per r j ( ) si ottiene: 

54 

z i ( )T r j ( ) = y i ( )T r j ( ) + ! ikz k ( )T r j ( ) 


Siccome per i < j si ha z i ( )T r j ( ) = 0 dalla (4.216) segue immediatamente che 

Dall’equazione (4.216) si ha anche 


i"1 

k =0 

y i ( )T r j ( ) = 0 per i < j . (4.217) 

z i ( )T r i ( ) = y i ( )T r i ( ) (4.218). 

Le maggiori difficoltà nell’uso della coniugazione di Gram-Schmidt sono: la quantità di 

memoria necessaria per conservare tutte le direzioni percedenti necessarie per il calcolo 

della direzione z i ( ) ; il numero di operazioni necessarie per determinare l’insieme delle 

direzioni A-ortogonali scala come O n3 

( ) . Infatti se si scelgono come vettori 

y 0 ( ) , y 1 ( ) , y 2 ( ) ,..., y n!1 ( ) i versori fondamentali di un sistema di coordinate rettangolare si 

ottiene una procedura equivalente al metodo di eliminazione di Gauss. Lasciamo al 

lettore la verifica di questa proprietà. 

4.11.3 Metodo del gradiente coniugato 

Il modo più naturale di scegliere l’insieme dei vettori y 0 ( ) , y 1 ( ) , y 2 ( ) ,..., y n!1 ( ) è 

Le ragioni sono essenzialmente le seguenti. 

1. Dalla relazione (4.217) si ha immediatamente che 

y k ( ) = r k ( ) per 0 ! k ! n " 1 . (4.219) 

r i ( )T r j ( ) = 0 per i < j . (4.220) 

Allora l’insieme dei residui r 0 ( ) ,r 1 ( ) ,r 2 ( ) ,...,r n!1 ( ) è un insieme di vettori tra di loro 

ortogonali. Dunque ciascun residuo è ortogonale sia ai residui che alle direzioni 

precedenti. Inoltre dalla relazione (4.218) si ha anche 

z i ( )T r i ( ) = r i 

2 

( ) 

per ogni i . (4.221)

2. Dall’equazione (4.187) si ha che: 

i 

r ( )T r 

j +1 ( ) = r i 

55 

( )T r j 

( ) ! " kr i 

( )T Az j 

Utilizzando la proprietà di ortogonalità dei residui si ottiene dalla (4.222) 


r i ( )T Az j ( ) = 0 per i < j . (4.223) 

Dunque z j ( ) è A-ortogonale con i residui precedenti. Da questa proprietà segue 

immediatamente che: 

Inoltre abbiamo: 

! ij = " 

i 

r ( )T Az j 

z j ( )T Az j 

! ii = " 

In conseguenza di ciò la (4.214) diventa 

z k ( ) = r k ( ) + ! kz ( ) 

( ) = 0 per i < j . (4.224) 

i 

r ( )T Az i 

z i ( )T Az i 

( ) 

( ) # ! i . (4.225) 

k "1 ( ) per k = 1,2,... (4.226) 

dove z 0 ( ) = r 0 ( ) , r 0 ( ) = b ! Ax 0 ( ) e x 0 ( ) è arbitrario. L’espressione di ! k data dalla 

(4.225) è tale che 

( k +1) 

E ( x ) = E x k 

z 

( ) ( ) 1! 

k ( )T r k ( ) ( ) 2 

z k ( )T Az k ( ) ( ) r k ( )T A !1 r k 

" 

% 

$ 

' 

$ 

( ) ( ) ' 

# 

& 


sia minimo per fissato E x k ( ) ( ) al variare di z k 

ortogonali r k ( ) k !1 

e z 

( k +1) 

E ( x ) equivale a determinare il minimo di z k ( )T Az k 

( ) nell’iperpiano definito dale direzioni 

( ) . In conseguenza della (4.221) la determinazione del minimo di 

T 

( ) . Essendo 

z k ( )T Az k ( ) = r k ( ) k "1 

# 

( ) 

$ + ! kz % 

& A r k ( ) k "1 

# 

( ) 

$ + ! kz % 

& 

2 ( k "1)T 

( k "1) 

( k)T 

( k "1) 

( k)T 

k 

= ! k z Az + 2!r Az + r Ar 

il minimo di z k ( )T Az k ( ) si ottiene per il valore di ! k dato dalla (4.225). 

Infine si verifica immediatamente che (se r i ( ) ! 0 per i = 0,1,2,..., k ! 1) 


( ) , 

(4.228)

! k = 

2 

( k) 

r 

2 

2 

k "1 

56 


r 

( ) 

2 

per k = 1,2,... . (4.229) 

Di seguito è riassunto l’algoritmo del gradiente coniugato: per k = 0,1,2,... 

w k ( ) = Az k 

! k = 

( ) 

( k) 

r 

2 

2 

w k ( )T z k 

k +1 

x ( ) = x k 

( ) 

( ) + ! k ˆz k 

( ) 

k +1 

r ( ) = r k ( ) " ! kw k 

# k +1 = 

( k +1) 

r 

r k ( ) 

2 

2 

2 

2 

( ) 

k +1 

z ( ) k +1 

= r ( ) + # k +1z k 

( ) 


dove z 0 ( ) = r 0 ( ) , r 0 ( ) = b ! Ax 0 ( ) e x 0 ( ) è il valore iniziale di tentativo. Come abbiamo 

dimostrato, il metodo del gradiente coniugato converge alla soluzione in al più n passi. 

Se n è troppo grande un criterio di arresto può essere r k 

2 ! " b dove ! è una 

2 

tolleranza assegnata. 

Il numero di operazioni per calcolare Az k ( ) , in particolare delle moltiplicazioni, è 

dell’ordine di n 2 . Se il numero di iterazioni è n , si hanno n 3 moltiplicazioni, un numero 

superiore a quello richiesto nella fattorizzazione di Cholesky n 3 ( / 3) 

. Di conseguenza il 

metodo del gradiente coniugato è efficiente solo se la matrice A è sparsa o il numero di 

iterazioni necessarie per ottenere una soluzione adeguata è molto più piccolo di n . Con 

un opportuno precondizionamento è possibile ridurre il numero di iterazioni, [4.2]. 

Per l’errore E x k 


( ) ( ) si ha 

E x k 

# 

( ) ( ) ! 2 % 

$ % 

K ( A) 

" 1& 

( E x 

K ( A) 

+ 1'( 

0 

k 

( ) 

( ) ( ) . (4.231) 

Implementare in MATLAB l’algoritmo del gradiente coniugato. Risolvere il 

problema dell’Esercizio 4.15 con il metodo del gradiente coniugato e confrontare 

l’errore e la velocità di convergenza ottenuto con questo metodo con quelli ottenuti con 

il metodo del gradiente con discesa rapida. 

♦

i 

Z ( ) e 

( i) 

R 

57 

3. Indichiamo con i sottospazi generati rispettivamente dall’insieme dei 

vettori z 0 ( ) ,z 1 ( ) ,z 2 ( ) ,...,z i!1 ( ) e r 0 ( ) ,r 1 ( ) ,r 2 ( ) ,...,r n!1 ( ) 

i 

Z ( ) = span z 0 ( ) ,z 1 ( ) ,z 2 ( ) ,...,z i!1 ( ) 

{ } , R i ( ) = span r 0 

( ) ,r 1 ( ) ,r 2 ( ) ,...,r i!1 ( ) 

{ } . (4.232) 

Siccome le direzioni z 0 ( ) ,z 1 ( ) ,z 2 ( ) ,...,z i!1 ( ) sono costruite attarverso le (4.226), il 

sottospazio Z i ( ) è uguale al sottospazio R i ( ) . Inoltre dalla relazione (4.187) segue che 

0 

span r 

( ) ,r 1 ( ) ,...,r k ( ) 

( ) = span r 0 ( ) , Ar 0 ( ) ,..., A k r 0 ( ) 

Essendo Z i ( ) = R i ( ) dalla (4.233) segue anche che 

Il sottospazio span r 0 

0 

span z 

( ) ,z 1 ( ) ,...,z k ( ) 

( ) = span r 0 ( ) , Ar 0 ( ) ,..., A k r 0 ( ) 

( ) . (4.233) 

( ) . (4.234) 

( ) , Ar 0 ( ) ,...,A k r 0 ( ) 

( ) è un esempio di sottospazio di Krylov 6 . 

Riassumendo nel metodo del gradiente coniugato, scegliendo z 0 ( ) = r 0 

verificate le seguenti proprietà per k ! 1 e nell’ipotesi che r i ( ) ! 0 per 0 ! i ! k : 

Referenze 

( ) , sono 

r k ( )T z i ( ) = 0 , per i ! k " 1 (4.235) 

( ) ( ) T 

k 

z ( )T Az i ( ) = Az k 

0 

span r 

z i ( ) = 0 , per i ! k " 1 (4.236) 

r k ( )T r i ( ) = 0 , i ! k " 1 (4.237) 

( ) ,r 1 ( ) ,...,r k 

( ( ) ) = span r 0 ( ) , Ar 0 ( ) ,..., A k r 0 ( ) 


( ) ,z 1 ( ) ,...,z k 

( ( ) ) = span r 0 ( ) , Ar 0 ( ) ,..., A k r 0 ( ) 


0 

span z 

[4.1] V. Comincioli, Analisi numerica: metodi ed applicazioni, McGraw-Hill, Milano 

1990. 

[4.2] G. H. Golub, C.F. van Loan, Matrix Computations, The Johns Hopkins University 

Press, Baltimore 1983. 

[4.3] A. Quarteroni, F. Saleri, Introduzione al Calcolo Scientifico, Springer, Milano 

2002. 

[4.4] J.M. Ortega, W. C. Rheinboldt, Iterative solution of nonlinear equations in several 

variables, Academic Press, New York, 1969. 

[4.5] J. R. Shewchuk, An Introduction to the Conjugate Gradient Method Without the 

Agonizing Pain, School of Computer Science, Carnegie Mellon University, 1994. 

6 Un sottospazio di Krylov è ottenuto applicando ripetutamente una matrice a un vettore.

Nota 4. Sistemi di equazioni algebriche lineari - Elettrotecnica

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?