Modellistica e Simulazione

Appunti sul corso di 

MODELLISTICA 

E 

SIMULAZIONE 

tenuto dal Prof. Balestrino e dall’Ing. Caiti 

nell’A.A. 1996/97 

a cura dello studente Francesco Papariello

Realizzato utilizzando: 

Microsoft Word 7.0 per Windows 

AutoCAD LT per Windows 

Matlab 4.2 per Windows

INDICE 

0. Introduzione.....................................................................................................................................7 

0.1 Modellistica ...............................................................................................................................7 

0.2 Identificazione...........................................................................................................................9 

0.3 Ottimizzazione ........................................................................................................................10 

0.4 Simulazione .............................................................................................................................11 

Parte I: Ottimizzazione 

1. Ottimizzazione statica...................................................................................................................15 

1.1 Ottimizzazione statica non vincolata....................................................................................15 

1.2 Metodo del gradiente..............................................................................................................15 

1.3 Metodo di Newton ..................................................................................................................16 

1.4 Direzione di ricerca di Levenberg-Morquardt ....................................................................17 

1.5 Metodi quasi-Newton.............................................................................................................17 

1.6 Metodi per il calcolo del passo γ i...........................................................................................18 

1.6.1 Metodo di Fibonacci ........................................................................................................18 

1.6.2 Metodo della sezione aurea ............................................................................................20 

1.7 Criteri d’arresto.......................................................................................................................20 

1.8 Ricerca del minimo globale....................................................................................................21 

1.9 Simulated annealing ...............................................................................................................22 

1.10 Algoritmi genetici.................................................................................................................22 

1.11 Metodi di approssimazione della funzione f......................................................................23 

2. Principio di Bellman......................................................................................................................25 

2.1 Esempio n.1: segmento da suddividere in n parti................................................................25 

2.2 Esempio n.2: percorso ottimo.................................................................................................26 

3. Minimizzazione di un indice di qualità......................................................................................29 

3.1 Equazione di Eulero-Lagrange...............................................................................................29 

3.2 Condizioni per l’ottimalità della x(t) ....................................................................................31 

3.3 Generalizzazioni del problema..............................................................................................32 

3.4 Esempio: minimizzazione del percorso che collega due punti...........................................34 

4. Funzione hamiltoniana .................................................................................................................35 

4.1 Esempio: sistema massa-molla ...............................................................................................36 

4.2 Esempio: giuntura di due soluzioni.......................................................................................36 

4.3 Condizioni di continuità sulle giunture nel caso generale.................................................38 

4.4 Minimizzare un integrale mantenendo costante un altro integrale..................................38 

4.5 Esempio: massimizzazione dell’area sottesa da un filo di lunghezza fissata.....................39 

4.6 Presenza di un vincolo di disuguaglianza ............................................................................40 

5. Applicazione ai sistemi tempo-continui......................................................................................43 

5.1 Equazione di Riccati................................................................................................................44 

5.2 Caso di sistema lineare stazionario ed indice di qualità quadratico..................................47 

5.3 Caso di sistema lineare con indice di qualità dipendente da (x-x d) in modo quadratico47 

5.4 Sistemi non lineari ..................................................................................................................49 

5.5 Esempio. Curva più corta che unisce due punti..................................................................50 

5.6 Esempio. Curva di lunghezza assegnata tale che l’area sottesa sia massima ....................51 

5.7 Matrice hamiltoniana.............................................................................................................52 

5.8 Proprietà della matrice hamiltoniana ...................................................................................54 

5.9 Luogo simmetrico delle radici................................................................................................55

5.10 Esempi....................................................................................................................................57 

5.10.1 Filtro di Butterworth.....................................................................................................57 

5.10.2 Sistema a fase non minima...........................................................................................57 

5.10.3 Sistema a fase minima...................................................................................................58 

5.10.4 .........................................................................................................................................58 

5.10.5 Sistema instabile a ciclo aperto....................................................................................59 

5.10.6 .........................................................................................................................................60 

5.10.7 Approssimazione di un ritardo....................................................................................61 

5.10.8 .........................................................................................................................................61 

5.11 Metodo di Potter per ricavare la soluzione dell’equazione di Riccati .............................61 

5.12 Scelta di R e Q .......................................................................................................................62 

5.13 Controllo switching..............................................................................................................63 

5.14 Gramiano di controllabilità .................................................................................................67 

6. Applicazione ai sistemi tempo-discreti .......................................................................................71 

6.1 Equazione di Riccati................................................................................................................71 

6.2 Indice di qualità ......................................................................................................................74 

6.3 Proprietà della matrice hamiltoniana ...................................................................................76 

6.4 Luogo reciproco delle radici ..................................................................................................77 

6.5 Esempi ......................................................................................................................................78 

6.5.1............................................................................................................................................78 

6.5.2............................................................................................................................................79 

6.5.3............................................................................................................................................80 

6.5.4............................................................................................................................................80 

6.5.5............................................................................................................................................81 

6.6 Filtro di Kalman.......................................................................................................................82 

Parte II: Modellistica ed Identificazione 

7. Modellistica....................................................................................................................................87 

7.1 Modello ad equazione d’errore (ARX) ..................................................................................89 

7.2 Modello ARMAX......................................................................................................................91 

7.3 Differenza tra autoregressione e media mobile...................................................................92 

7.4 Altri modelli.............................................................................................................................93 

7.5 Criteri nella scelta del modello..............................................................................................94 

8. Identificazione ...............................................................................................................................95 

8.1 Metodo di identificazione ad errore di predizione..............................................................95 

8.2 Stima a massima verosimiglianza..........................................................................................97 

8.3 Criteri di bontà dell’identificazione......................................................................................99 

8.3.1 Disuguaglianza di Cramer-Rao................................................................................... 100 

8.3.2 Entropia di informazione............................................................................................. 101 

8.3.3 Distanza di informazione di Kullback-Leibler .......................................................... 102 

8.4 Criterio di Akaike................................................................................................................. 103 

8.5 Metodo della variabile strumentale ................................................................................... 103 

8.6 Applicazioni del filtro di Kalman all’identificazione ricorsiva ....................................... 105 

8.7 Identificabilità ...................................................................................................................... 106 

8.8 Altri metodi di identificazione di sistemi lineari stazionari ............................................ 108 

8.9 Riferimenti............................................................................................................................ 109 

9. Funzione modulante................................................................................................................... 111 

10. Riduzione del modello ............................................................................................................. 113 

10.1 Matrice di controllabilità e matrice di osservabilità ...................................................... 113 

10.2 Trasformazione bilanciata ................................................................................................ 114 

10.3 Modello ridotto nel caso di sistemi tempo-discreti ........................................................ 116 

10.4 Modello ridotto nel caso di sistemi tempo-continui ...................................................... 117 

11. Filtri di Laguerre ...................................................................................................................... 119 

11.1 Funzioni di Laguerre ......................................................................................................... 119 

11.2 Analisi di sistemi tempo-continui lineari stazionari...................................................... 119

11.3 Sistemi non lineari............................................................................................................. 121 

11.4 Miglioramenti dei filtri di Laguerre ................................................................................ 121 

11.5 Generalizzazioni delle funzioni di Laguerre................................................................... 122 

12. Cenni sull’identificazione dei sistemi non lineari ................................................................ 125 

12.1 Modelli di Hammerstein e di Wiener.............................................................................. 125 

13. Reti neurali ............................................................................................................................... 127 

13.1 Percettrone ......................................................................................................................... 128 

13.2 Reti a due strati .................................................................................................................. 130 

13.3 Reti multistrato................................................................................................................... 133 

13.4 Back Propagation ............................................................................................................... 134 

13.5 Miglioramenti della Back Propagation............................................................................ 135 

13.6 Utilizzo delle reti neurali per il controllo di sistemi...................................................... 136 

Appendici 

A. Inversione di matrici di grandi dimensioni............................................................................. 141 

B. Metodi di integrazione numerica ............................................................................................. 143 

B.1 Metodo di Eulero.................................................................................................................. 143 

B.1.1 Metodo esplicito............................................................................................................ 143 

B.1.2 Metodo implicito........................................................................................................... 144 

B.2 Metodi a predittore-correttore ........................................................................................... 144 

B.2.1 Metodo di Adams-Bashfort .......................................................................................... 145 

B.3 Metodi di Runge-Kutta ........................................................................................................ 146 

B.4 Sistemi “stiff”........................................................................................................................ 146 

B.5 Metodi a passo variabile...................................................................................................... 148 

B.6 Tabella riassuntiva ............................................................................................................... 149 

C. Teoria della regolarizzazione .................................................................................................... 151 

C.1 Problemi mal posti............................................................................................................... 151 

C.2 Applicazione al caso dell’approssimazione funzionale.................................................... 152 

C.3 Altre funzioni a base radiale............................................................................................... 153

Introduzione 

0. INTRODUZIONE 

Il corso si occupa di quattro argomenti collegati tra di loro: 

• modellistica 

• identificazione 

• ottimizzazione 

• simulazione 

0.1 Modellistica 

I sistemi studiati nel corso di Teoria dei Sistemi si potevano distinguere in sistemi tempocontinui 

(TC) e sistemi tempo-discreti (TD). Le leggi dei sistemi TC sono date da equazioni alle 

derivate parziali o alle derivate ordinarie: 

⎧&x = Ax + Bu 

⎨ 

⎩ y = Cx 

(sistema TC lineare) 

⎧&x 

=f ( x, u,t) 

⎨ 

⎩ y=h ( x,t) 

(sistema TC non lineare) 

Le leggi dei sistemi TD sono date da equazioni alle differenze: 

⎧x + 1 

= Ax + Bu 

⎨ 

⎩ y 

k 

= Cx 

k 

⎧x 

k+ 1=f k( x 

k, u 

k,t) 

⎨ 

⎩ y 

k=h k( x 

k,t) 

k k k 

(sistema TD lineare) 

(sistema TD non lineare) 

Esistono anche sistemi ad eventi discreti, nei quali lo stato varia quando certe situazioni 

esterne, dette eventi, variano. I sistemi ad eventi discreti possono essere asincroni (gli eventi 

non sono collegati fra di loro) o sincroni (che sono simili ai sistemi TD, perché gli eventi 

possono accadere solo ad intervalli regolari di tempo). 

Inoltre, esistono anche i sistemi linguistici o sistemi a regole, nei quali l’unico metodo 

utilizzabile per specificare le transizioni da uno stato all’altro è quello dato dalle regole di 

produzione del tipo if...then, tipiche dei sistemi esperti. 

La modellistica si occupa della modellizzazione matematica di un sistema reale. Quando 

cercheremo un modello per un sistema dovremo inserire il sistema in una classe. 

Possiamo avere diversi modelli per lo stesso sistema perché il modello dipende fortemente 

dall’obiettivo che ci si pone. Ad esempio, alcune volte ci può interessare linearizzare un 

sistema intorno al suo punto di equilibrio, mentre altre volte ci può interessare lavorare con 

un sistema non lineare. 

Vediamo come si possono classificare i modelli: 

• modelli fisici: 

7

Introduzione 

• analogici (ad esempio, il sistema massa-molla-smorzatore è equivalente, dal 

punto di vista delle equazioni, ad un circuito RLC: per simulare il comportamento di 

un ammortizzatore si potrebbe costruire un circuito RLC con i componenti 

opportunamente tarati) 

• scala ridotta (si costruisce un modello in scala ridotta del sistema) 

• modelli matematici 

• modelli grafici: 

• rappresentazione poli/zeri 

• risposta in frequenza 

• schema a blocchi 

• reti di Petri (per i sistemi ad eventi discreti sincroni o asincroni) 

• modelli concettuali (per i sistemi linguistici), contenenti regole di produzione 

La scelta tra i vari modelli grafici dipende dalla classe a cui appartiene il sistema. Ad esempio, 

la rappresentazione poli/zeri e la risposta in frequenza non possono utilizzate per i sistemi 

non lineari. 

Per la modellizzazione del sistema si passa attraverso le seguenti fasi: 

• definizione del sistema: si isola la parte di mondo fisico a cui siamo interessati 

• definizione degli ingressi del sistema: 

• ingressi di controllo (sui quali si può agire per controllare il sistema) 

• disturbi esterni (in genere identificare tutti i disturbi in ingresso ad un sistema è 

abbastanza difficile) 

• definizione delle uscite del sistema: 

• uscite desiderate 

• side-effects (anche queste uscite in genere sono abbastanza difficili da 

identificare) 

• definizione delle relazioni costitutive del sistema: 

• relazioni ingresso-uscita (modellistica a scatola nera: black box) 

• relazioni che esprimono la fisica del sistema (definizione e determinazione dello 

stato del sistema: modellistica a scatola trasparente) 

• relazioni di entrambi i tipi (modellistica a scatola grigia) 

La modellistica a scatola nera è la più semplice ma ci fornisce meno informazioni rispetto alla 

modellistica a scatola trasparente. 

Dopo aver ottenuto un modello del sistema bisogna verificare se esso è valido (fase di 

validazione o confutazione 1 del modello). In pratica, per modellare un sistema si segue un 

procedimento così schematizzabile: 

1 

Questa fase è anche detta di confutazione del modello perché il modello viene testato con esperimenti critici, 

cercando di confutarlo. 

8

Introduzione 

dove il blocco decisionale rappresenta un criterio di confronto che dipende dal caso in esame. 

Se il modello del sistema è corretto ma i parametri utilizzati sono errati il test dà risultato 

negativo. La scelta del modello e quella dei parametri (identificazione) dovrebbero essere 

effettuate in due fasi distinte, anche se in pratica vengono svolte quasi contemporaneamente. 

0.2 Identificazione 

Dopo aver trovato, tramite un’analisi preliminare, una classe di modelli da usare per un 

sistema bisogna determinare i parametri del modello. 

Ad esempio, nel caso di un sistema TD descritto dalla seguente relazione: 

( ) 

Y( z) 

= N z 

( ) 

D( z) 

U z 

N( z) 

= n + n z − 1 

0 1 

+ ... + n k 

z 

D( z) 

= d + d z − 1 

+ ... + d z 

0 1 

bisogna determinare i parametri n i 

e d i 

. Per far questo si scelgono degli opportuni segnali 

d’ingresso, come gli ingressi permanentemente eccitanti. Questi segnali sono tali da non 

annullare le alte frequenze della funzione di trasferimento. Un segnale di questo tipo può 

essere un impulso o un rumore bianco. 

Ad esempio, si abbia il seguente sistema TD: 

⎧x + 1 

= ax + bu 

⎨ 

⎩y 

k 

= cx 

k 

k k k 

L’ingresso all’istante iniziale ( t = 0 ) sia noto e per t = 0 il sistema sia in quiete ( x 0 

= 0 ⇒ 

y 0 

= 0). Si ottiene: 

⎧x1 = ax0 + bu0 

= bu 

⎨ 

⎩y1 = cx1 = cbu 

0 

n 

o 

−n 

− m 

⎧x = ax + bu = abu + bu 

⎨ 

⎩y 

2 

= cx 

2 

= cabu0 + cbu1 

2 1 1 0 1 

9

Introduzione 

E così via. Possiamo definire il vettore di parametri θ = c ⋅( b ab a b ) 

2 L T . Otteniamo: 

⎛ y1⎞ 

⎜ ⎟ 

⎜ y 

2⎟ 

⎜ M ⎟ 

⎜ ⎟ 

⎝ y ⎠ 

n 

⎡u 

⎢ 

= ⎢u 

⎣ 

⎢ M 

0 

1 0 

0 0 L 0⎤ 

⎥ 

u 0 L 0⎥ 

⋅θ 

⎦ 

⎥ 

che è il sistema da risolvere per calcolare i parametri del modello (gli ingressi devono essere 

scelti in modo che la matrice sia invertibile). 

In modo alternativo si può definire un vettore θ = ( a b c) 

T . Per una certa sequenza 2 di 

ingressi U k 

= ( u0, u1,..., u k ) la sequenza delle uscite è data da $ = ( y$ , y$ ,..., y$ 

0 1 ) dove 

y$ i 

= f( U 

k 

, θ ) . 

$Y k 

deriva da una predizione sul comportamento del sistema (viene calcolato). Se 

( y , , ..., k ) 

Y k 

= 

0 

y 

1 

y deriva dalla misura delle uscite del sistema si possono determinare i 

parametri in modo che si abbia: 

Y k 

k 

min Y $ 

θ 

k 

− Y 

k 

2 

che dimostra come identificazione ed ottimizzazione siano strettamente correlate. 

Alcune volte si vogliono determinare i parametri di un sistema mentre funziona 

(identificazione in linea) oppure si vogliono determinare i nuovi parametri nel caso in cui essi 

siano variati. Ad esempio, se il nostro sistema è tempo variante: 

&x ( t) = A( t) x( t) + B( t) u( t) 

e la variazione dei parametri nel tempo è lenta rispetto alla costante di tempo del sistema 

possiamo utilizzare per il nostro sistema un modello che non è tempo variante. In linea si 

misurano gli ingressi e le uscite del sistema reale e si aggiornano i parametri del modello nel 

caso in cui quest’ultimo non riesca a rappresentare correttamente la dinamica del sistema. 

0.3 Ottimizzazione 

L’ottimazione nel caso del controllo permette di risolvere problemi di controllabilità ed 

osservabilità avendo come vincolo quello di minimizzare la spesa per il controllo ( u ) o il 

tempo impiegato. 

Inoltre l’ottimizzazione, come visto sopra, è uno strumento utile per risolvere molti altri 

problemi. 

2 

Consideriamo le sequenza come se fossero dei vettori. 

10

Introduzione 

0.4 Simulazione 

Dato il modello di un sistema, un simulatore dà una predizione del comportamento del 

sistema. Un simulatore è utile in fase di progetto di un impianto. Esistono due strumenti 

software che possono semplificare la sua progettazione: 

• CAD (Computer Aided Design): che permette di simulare un sistema (è possibile, ad 

esempio, effettuare una verifica della stabilità di un sistema); 

• CAE (Computer Aided Engineering): che produce i risultati ed i documenti di un 

progetto. 

Esistono dei simulatori che non sono totalmente software e che hanno come compito quello di 

istruire un operatore: 

• simulatori di volo (hanno una cabina simile a quella di un aereo reale) 

• addestratori per impianti energetici (ad esempio, centrali nucleari) 

In questi casi il simulatore deve essere real-time e deve simulare il più possibile il sistema 

reale (deve considerare tutte le dinamiche del sistema reale, anche quelle trascurabili). 

11

PARTE 

I 

OTTIMIZZAZIONE

Ottimizzazione statica 

1. OTTIMIZZAZIONE STATICA 

1.1 Ottimizzazione statica non vincolata 

Il problema che ci poniamo in questo capitolo è quello di determinare (in modo numerico) il 

valore di x ∈X 

⊂ R 

n n 

per il quale si ha min f ( x) 

, con f : R → R 1 

. 

x∈X 

Dapprima supporremo che il minimo della funzione esista e sia unico 2 . 

I metodi per la ricerca del minimo si distinguono in base al tipo di informazioni che 

richiedono: 

• solo valutazioni della funzione f 

∂ 

• valutazioni della funzione f e del gradiente di f : f = ∇ f ( x) 

x 

(metodo del gradiente) 

∂x 

∂ 

• valutazioni della funzione f , del gradiente di f e della matrice hessiana ( ) 

2 

f = H x 

∂x 

(metodo di Newton) 

Il terzo metodo è quello che richiede maggiore informazione ed è sicuramente il più veloce, 

ma anche il più complesso. 

1.2 Metodo del gradiente 

Il gradiente di una funzione dà delle informazioni sulla sua pendenza: 

1 

Spesso la funzione f è una norma. 

2 

Se l’insieme X è compatto e la funzione f è continua, per il teorema di Weirestrass il minimo della funzione 

esiste. 

15

Ottimizzazione 

Nel punto d’inizio è possibile determinare un piano tangente alla curva ed un gradiente 

perpendicolare a tale piano. La direzione di ∇ x 

f ( x ) è la direzione di massima salita, quindi la 

direzione opposta è quella di massima discesa. Ci si può muovere di un “passo” lungo questa 

direzione ed arrivare al secondo punto di partenza. 

Quindi, la k-esima iterazione del metodo del gradiente è la seguente: 

( ) 

x 

+ 1 

= x − γ ∇ f x 

k k k x k 

dove γ k 

∈R è il passo di discesa. Il passo di discesa ottimo è quello per il quale il gradiente 

del passo attuale e quello del passo successivo sono ortogonali tra di loro: 

T 

γ k 

: 

xf( x 

k ) xf( x 

k ) 

∇ ∇ = 

+ 1 

0 

Se la funzione ha un minimo ed è convessa il metodo converge, anche se si procede a “zigzag” 

effettuando dei passi molto piccoli. 

1.3 Metodo di Newton 

Questo metodo si basa sullo sviluppo in serie della funzione f troncato al secondo ordine 3 : 

1 

T 

3 

( x 

k ) = ( x 

k ) + ∇ 

x ( x 

k )( x − x 

k ) + ( x − x 

k ) H( x 

k )( x − x 

k ) + ( x − x 

k ) 

f f f o 

2 

Se non ci sono termini di ordine superiore al secondo possiamo calcolare la derivata di f ( x ) in 

modo analitico ed azzerarla per ottenere il minimo: 

∂ 

∂x 

∂ 

∂x 

f 

( x) = ∇ f( x ) + H( x )( x − x ) 

x 

0 0 0 

f ( x) 

= 0 ⇒ x = x − H( x ) − 1 

0 0 

∇ xf( x0) 

In questo caso il passo ottimo è dato da γ = 1, ∀k . Se nello sviluppo della f ci sono termini di 

ordine superiore al secondo bisogna iterare il metodo più volte: 

∂ 

∂x 

k 

∂ 

∂x 

k 

f 

( x ) = ∇ f( x ) + H( x )( x − x ) 

k x k k k 

−1 

f ( x 

k ) = 0 ⇒ x 

k+ 

1 

= x 

k 

− H( x 

k ) ∇ 

xf( x 

k ) 

Con il metodo di Newton non si procede nella direzione del gradiente: la matrice H effettua 

una rotazione del vettore ∇ x ( k ) 

f x senza però “ribaltarlo” (altrimenti si procederebbe nella 

direzione di salita, anziché in quella di discesa). 

3 

Se la funzione f è davvero quadratica il metodo di Newton converge in un passo. 

16


La matrice H( x k ) è almeno semidefinita positiva (s.d.p.) 4 −1 

: H( x k ) ≥ 0 . Quindi, anche H ( x 

k ) 

è s.d.p. 

Ad ogni passo di questo metodo bisogna calcolare il gradiente e l’hessiano di f( ) 

x 

k 

e questo 

può crearci dei problemi nel caso in cui non si riescano ad avere le loro espressioni analitiche: 

ad ogni passo bisogna effettuare n 2 valutazioni di f( x 

k ) (dovute al calcolo di H( x k ) 

altre n (dovute al calcolo di ∇ x 

f( x k ) 

del gradiente bisognava effettuare solo n valutazioni della funzione f( x ) ). 

), più 

) ed un’inversione di matrice (ad ogni passo del metodo 

k 

1.4 Direzione di ricerca di Levenberg-Morquardt 

Spesso la matrice H( x k ) non è d.p. ma solo s.d.p., cioè il suo determinante in alcuni punti è 

nullo o quasi nullo. In entrambi i casi la matrice H( x k ) non può essere invertita in modo 

numerico. 

Se la matrice H( x k ) non è invertibile può essere scritta nella seguente forma (decomposizione 

ai valori singolari della matrice H( x k ) ): 

T 

( ) = ⋅ Σ ( ) ⋅ 

Σ( x k ) 

H x U x V 

k 

k 

⎡σ 

⎢ 

= ⎢ 

⎢ 

⎣ 0 

⎤ 

⎥ 

O ⎥ σ ≥L≥ 

1 

σ 

σ ⎥ 

n ⎦ 

1 

0 

(siccome H( x k ) è s.d.p. i suoi autovalori sono reali). Se la matrice ( ) 

allora σ n 

= 0 o, in generale, σ 

n ≤ 

H x k 

non è invertibile, 

ε , dove ε è la precisione di macchina. 

Invece di invertire la matrice H( x k ) si può invertire la matrice H( x ) 

[ ] 

T 

( k ) + λ = ⋅ Σ ( k ) + λ ⋅ 

Σ( x ) 

H x I U x I V 

k 

k 

+ λ I ( λ ∈R , λ > ε ): 

⎡σ1 + λ 0 ⎤ 

⎢ 

⎥ 

+ λI 

= ⎢ O ⎥ 

⎣ 

⎢ 0 σ 

n 

+ λ⎦ 

⎥ 

e σ + n 

λ > ε perché λ > ε . Poiché questo metodo introduce il parametro λ si perde in 

precisione e velocità. Gli algoritmi che usano la direzione di ricerca di L-M non invertono la 

matrice H( x 

k ) + λ I sempre ma solo quando ( ) 

H x k 

non è invertibile. 

n 

1.5 Metodi quasi-Newton 

Questi metodi sono meno efficienti di quello di Newton ma più efficienti di quello del 

gradiente. Essi utilizzano i gradienti ai passi precedenti in modo da seguire in maniera 

4 T 

Una matrice A è s.d.p. se x Ax ≥ 0 , ∀x . 

17


approssimata la curvatura della funzione (che è data dal suo hessiano). Esistono molti 

algoritmi di questo tipo: 

• Fletcher-Reeves 

• Davidson-Fletcher-Powell 

• Polak-Polyak-Ribier-Sorenson 

• Broycher-Fletcher-Goldfarb-Shanno 

Un passo dell’algoritmo F-R è il seguente: 

x = + 

x − 

1 

γ ν 

i i i i 

dove γ i 

∈R è il passo di discesa e ν i 

è la direzione di discesa: 

ν 

( ) 

= ∇ f x + β −1 ν −1 

, β i 

∈R 

i x i i i 

T 

( x ) f( x ) 

T 

f( x ) ⋅∇ f( x ) 

f 

= ∇ ⋅∇ 

∇ 

x i x i 

= ∇ ∇ 

x 

( xi 

) 

f( x ) 

x i+ 1 x i+ 1 x + 1 

β i 2 

Il parametro β i 

pesa la nuova direzione di discesa rispetto alle direzioni dei passi precedenti. 

Ogni n passi il valore di β i 

viene posto a 0. 

Con questo metodo, i punti x i 

sono disposti all’incirca lungo una spirale tra x 0 

ed il minimo 

della funzione. 

I metodi quasi-Newton sono anche detti metodi dei gradienti coniugati e differiscono tra loro 

per la scelta dei β i 

. Il costo di un passo di uno di questi metodi è leggermente superiore al 

costo di un passo del metodo del gradiente. 

f 

i 

2 

1.6 Metodi per il calcolo del passo γ i 

Il valore del passo γ i 

dovrebbe essere calcolato in modo da minimizzare la funzione di costo 

lungo una direzione (la funzione di costo ristretta lungo una direzione diventa una funzione 

scalare). Ma calcolare l’estremo di una funzione lungo una semiretta è impossibile, perciò 

bisogna determinare gli estremi del segmento lungo il quale minimizzare la funzione. Il primo 

estremo è costituito dal punto d’inizio, mentre il secondo è tale che il segmento abbia 

lunghezza ∆ max 

(da fissare). All’interno di questo segmento è possibile applicare il metodo 

delle successioni di Fibonacci o quello della sezione aurea. Supporremo che sul nostro 

segmento il minimo della funzione esista e sia unico (un intervallo con questa caratteristica è 

detto intervallo di unimodalità 5 ). 

1.6.1 

.1 Metodo di Fibonacci 

Per il calcolo di γ i 

può essere utilizzata la successione di Fibonacci, data da: 

Quindi: 

F 0 

= 1, F 1 

= 1, ..., F = F + F 

k+ 1 k k−1 

5 

Una funzione che ammette un solo minimo locale è detta unimodale. In questo caso, quindi, il minimo locale è 

anche globale. 

18


F 2 

= 2 , F 3 

= 3 , F 4 

= 5, F 5 

= 8, F 6 

= 13 , F 7 

= 21, ... 

Il segmento in cui effettuare la ricerca del minimo sia [ a, b] 

: 

con l 0 

= ∆ max 

. 

l 

Si individua un numero N tale che F ≥ 0 N 

, dove ε limita il numero di passi dell’algoritmo 

ε 

( ε è l’ampiezza minima dei sottointervalli dell’intervallo iniziale che si ottengono durante i 

vari passi). Ad esempio, se ε = l 0 

10 si ottiene che F 6 

= 13, N = 6 . 

Si pone ε'= l 0 

( ε'≤ ε) 

(si divide l’intervallo di lunghezza l 

F 0 

in F N 

intervallini di lunghezza 

N 

ε' ), si valuta la funzione nei punti di ascisse a , a + F N −1 

⋅ ε' , a + F N −2 

⋅ ε' e b (rispetto 

all’estremo a ) e si elimina l’intervallino del segmento che sicuramente non contiene il 

minimo: 

Si ripete il procedimento per la parte restante del segmento iniziale. E così via. In queste 

iterazioni successive, però, la lunghezza dei segmenti ai quali viene applicato il metodo di 

1 

l 

Fibonacci non è l 0 

e quindi bisogna calcolare nuovamente il valore N per il quale F ≥ 0 N 

ε . 

19


Qualsiasi sia la funzione f , il metodo di Fibonacci dà il massimo rapporto tra la lunghezza 

dell’intervallo iniziale e quella dell’intervallo finale con numero di passi fissato. 

1.6.2 

.2 Metodo della sezione aurea 

In questo caso si divide l’intervallo [ a, b] 

in tre intervallini: [ a,γ 1 ], [ γ 

1, γ 

2 ] e [ ] 

5 − 1 

τ = 

2 

γ = b − τ( b − a ) 

1 

γ = a + τ( b − a ) 

2 

( γ 

1 

> γ 

2 

sempre) 

γ 2 

,b tali che: 

Si scarta l’intervallino che sicuramente non contiene il minimo e si riapplica questo metodo al 

sottointervallo di [ a, b ] restante. E così via. 

Il metodo della sezione aurea approssima al limite le scelte effettuate con il metodo di 

Fibonacci: 

lim 

k→+∞ 

Fk 

+ 1 

5 + 1 

= 

F 2 

k 

Con numero di passi arbitrario, il metodo della sezione aurea è più efficiente di quello di 

Fibonacci. 

1.7 Criteri d’arresto 

Tutti gli algoritmi che abbiamo visto per determinare il min ( x) 

x 

+ 1 

= x − γ d 

k k k k 

x∈X 

f sono di tipo iterativo: 

dove d k 

è la direzione di salita della funzione f . Non è possibile continuare ad applicare il 

metodo finché non si arriva esattamente al minimo, ma bisogna utilizzare uno dei seguenti 

criteri di arresto: 

• xk 

+ 1 

− xk 

≤ ε 

1 

(nel caso di funzioni di costo molto strette) 

• f( xk+ 1) − f( xk) 

≤ ε 

2 

(nel caso di funzioni di costo piatte) 

• ∇ 

xf( x 

k ) 

≤ ε 3 

(nel caso di gradiente piatto) 

Spesso, invece di calcolare γ k 

ad ogni passo, si usa un valore γ fisso. In questo modo si evita 

di valutare ripetutamente la funzione di costo, anche se si possono avere dei problemi. Infatti, 

si può procedere molto lentamente (se γ è troppo piccolo): 

20


oppure si può “perdere” il minimo (se γ è troppo grande): 

1.8 Ricerca del minimo globale 

Nel caso in cui la funzione f non sia unimodale (cioè nel caso in cui la f abbia più minimi 

locali ed eventualmente un minimo globale) i metodi visti finora non possono essere applicati. 

Gli algoritmi che risolvono problemi di ricerca di minimi globali (algoritmi di global search) 

convergono in probabilità verso il minimo globale con un numero di valutazioni tendente 

all’infinito. In realtà, i metodi possono essere fermati utilizzando un criterio d’arresto dopo un 

certo numero di iterazioni, ottenendo un valore che molto probabilmente è vicino al minimo 

globale della funzione. Da questo punto si può calcolare il minimo locale (che, quindi, è molto 

probabilmente uguale a quello globale) con uno dei metodi visti sopra. 

Algoritmi di global search sono l’algoritmo di simulated annealing ed i genetic algorithms. 

Se si vuole trovare il minimo globale di una funzione si potrebbe valutare la funzione su tutto 

il dominio con passo fisso. Un approccio del genere può essere ammissibile in R ma non in 

R n , con n molto grande. 

Questi algoritmi cercano di effettuare i campionamenti in parte in modo casuale ed in parte in 

modo guidato. La casualità ci dà la possibilità di “sfuggire” dai minimi locali, mentre la ricerca 

guidata ci evita di cercare la soluzione in zone che molto probabilmente non la contengono. 

Questi metodi ci permettono di ottenere un valore di x che molto probabilmente è vicino al 

minimo globale della funzione. Si può comunque dimostrare che esiste sempre un 

controesempio per il quale il minimo globale non si riesce a trovare utilizzando questi 

algoritmi. 

21


1.9 Simulated annealing 

Il passo (k+1)-esimo dell’algoritmo è dato da: 

x 

k 

+ 

= xk 

+ 

1 

∆ 

dove ∆ è un vettore generato casualmente. Si valuta f( k ) 

punto se f( xk 

+ 1 ) < f( xk) 

oppure se f( x 

k+ ) − f( x 

k ) ≤ T 

x +1 

e si accetta x k+1 

come nuovo 

1 

(la variabile T è detta temperatura.), 

altrimenti x = k+ 1 

x 

k 

(si mantiene il valore precedente). Se il valore di T è alto la 

disuguaglianza di sopra si verifica facilmente: tanto più alto è il valore di T , tanto più 

l’algoritmo si comporta in modo casuale. Se ad ogni iterazione si diminuisce il valore di T , ad 

ogni passo l’algoritmo si comporta sempre di più in modo “intelligente”: 

T = + 

T − ⋅ 

1 

δ T 

k k k 

La scelta di δ è critica e dipende dal problema, ma deve essere tale che T k 

non decresca molto 

velocemente. 

1.10 

10 Algoritmi genetici 

Si codifica x con una stringa di bit. I primi n 1 

bit della codifica sono usati per la prima 

componente di x , i secondi n 2 

bit sono usati per la seconda componente di x , e così via. 

Generiamo casualmente N possibili soluzioni x 1 

, ... x N 

, calcoliamo i valori della funzione di 

costo in tali punti ed ordiniamo le soluzioni da quella con valore della f maggiore a quella 

con valore della f minore. 

Da queste N soluzioni possono esserne generate altre k (ad esempio può essere k = N 

2 ) che 

sostituiscono le k soluzioni peggiori trovate al passo precedente. Per generare queste nuove 

soluzioni possono essere usate due tecniche: 

• crossover: si estraggono a caso due soluzioni, che vengono dette genitori, tra le prime 

N − k (quelle che abbiamo deciso di conservare), e viene creato un figlio, cioè una 

soluzione ottenuta “accorpando” delle parti dei due genitori; ad esempio, nel caso di un 

solo taglio si può avere: 

22 

1 0 0 1 0 1 | 1 0 0 1 1 0 0 0 1 primo genitore 

1 1 1 0 0 1 | 0 1 0 1 0 0 0 1 0 secondo genitore 

1 0 0 1 0 1 | 0 1 0 1 0 0 0 1 0 figlio 

• mutazione: a caso si sceglie un genitore e si crea il figlio in modo che abbia gli stessi bit 

del genitore tranne qualcuno che viene invertito. 

La scelta della tecnica da usare può essere casuale (ad esempio si può scegliere di applicare il 

crossover nel 90% dei casi e la mutazione nel 10% dei casi). Inoltre, nella tecnica del crossover 

si potrebbe applicare il taglio in più punti e/o le mutazioni potrebbero avvenire su più bit. 

Le mutazioni portano una certa casualità, mentre i crossover permettono di cercare (in modo 

casuale) nuove buone soluzioni “assemblando” parti di buone soluzioni. 

Le vecchie N − k soluzioni e le nuove k vengono ordinate in base al valore della funzione di 

costo e le tecniche di crossover e mutazione vengono applicate nuovamente.


In genere in un algoritmo generico il numero N di una popolazione (soluzioni al passo i- 

esimo) è abbastanza basso (minore di 100), mentre il numero di iterazioni è abbastanza 

elevato (circa 10000). 

1.11 

11 Metodi di approssimazione della funzione f 

Nell’algoritmo di simulated annealing e negli algoritmi genetici il numero di valutazioni della 

funzione f è molto elevato. Il tempo di calcolo, quindi, dipende fortemente dal tempo di 

valutazione della f . Nei casi in cui il tempo di valutazione della f è molto elevato (dell’ordine 

dell’ora) questi metodi non possono essere usati (tipicamente si effettuano almeno 500.000 

valutazioni della f prima di ottenere la soluzione). 

In questi casi bisogna utilizzare altri metodi oppure si può approssimare la f : se il problema è 

in R n possiamo grigliare “rozzamente” (ogni asse viene suddiviso in 2 o 3 parti) lo spazio e 

calcolare sulla griglia il valore della funzione di costo. Costruiamo una funzione che 

approssimi la f in base a queste informazioni ed utilizzando le funzioni a base radiale. La f 

approssimata è data da: 

N 

( ) 

f$ 1 

= ∑c i 

ϕ x, 

x i 

i= 

1 

Le funzioni ϕ( x, xi ) sono dette funzioni a base radiale se dipendono solo dalla distanza tra x 

ed x i 

: 

Funzioni di questo tipo sono la gaussiana: 

oppure le funzioni multiquadriche: 

ϕ 

( x, xi ) = ϕ( x − xi 

) 

ϕ 

( ) 

( x x ) 

, 

i 

= e 

2 

x−xi 

2 

σ 

ϕ x, xi = x − xi + h 

I valori dei parametri c i 

vengono determinati in modo che nei punti della griglia si abbia: 

N 

∑ i 1 

i= 

1 

2 

( x ) − f ( x ) 

min f $ 

che porta ad un sistema di equazioni lineari. 

Il tempo di valutazione della funzione f $ 1 

è molto basso e a questa funzione possono essere 

applicati gli algoritmi genetici o quello di simulated annealing. Quando si è trovato il minimo 

di f $ 1 

si costruisce una griglia nella zona di R n intorno al minimo trovato e si calcola una 

nuova funzione approssimata $ f 1 

utilizzando i valori della funzione f nei punti della nuova 

griglia e conservando le informazioni trovate al passo precedente: 

i 

2 

23


2N 

( ) 

f$ 2 

= ∑ c i 

ϕ x, 

x i 

i= 

1 

Questo procedimento può essere ripetuto per più passi. 

Ai passi successivi al primo otteniamo un’interpolazione su punti sparsi, ma questo non ci crea 

problemi utilizzando le funzioni a base radiale 6 . 

6 

In generale, l’interpolazione può creare dei problemi nel caso in cui i punti nei quali viene campionata la 

funzione non siano disposti in modo regolare. 

24

Principio di Bellman 

2. PRINCIPIO DI BELLMAN 

Secondo il principio di Bellman si può arrivare all’ottimo effettuando ad ogni passo la scelta 

ottima, supponendo ottime le scelte effettuate ai passi precedenti. Il principio di Bellman si 

applica ai problemi partendo dall’ultimo passo e risalendo via via verso il primo. 

2.1 Esempio n.1: segmento da suddividere in n parti 

Si abbia un segmento di lunghezza l da suddividere in n segmenti di lunghezza x i 

in modo 

che si abbia max 

n 

x i 

i= 

1 

∏ 

n 

∑ 

, con x = l . 

i= 

1 

i 

Possiamo provare a risolvere il problema (più immediato) di dividere il segmento in due parti 

x 1 

ed x 2 

tali che x 1 

x 2 

sia massimo. Se x = 1 

x e x = l − x otteniamo: 

2 

max( x( l − x) 

) = max( lx − x 

2 ) 

⇓ 

∂ 

( ) 

∂x lx − x 2 

= − 2 x + l = 

l 

0 ⇒ x = 2 

2 

l 

f1 = max( x1x2 

) = 

4 

Se ora vogliamo suddividere il nostro segmento in tre parti x 1 

, x 2 

ed x 3 

tali che x x x 

1 2 3 sia 

massimo possiamo supporre che la prima parte (di lunghezza x ) sia già stata scelta 

(applichiamo, in pratica, il principio di Bellman). In questo modo, 1’unica scelta che può 

portarci all’ottimo è quella di dividere in due parti uguali il segmento restante. Si ottiene: 

Calcoliamo il valore ottimo di x : 

⎛ 

f x x x x l − x ⎞ 

2 

= 

1 2 3 

= ⎜ ⎟ 

⎝ 4 ⎠ 

∂ 

( ) 

∂x x l 2 x 2 

+ − 2 lx 1 

2 2 

l 

= l + 3x − 4lx 

= 0 ⇒ x = 

4 4 

3 

Da questo si può estrapolare il fatto che, dividendo il segmento in n parti, la soluzione ottima 

è quella di avere tutte le parti di lunghezza l n : 

2 

25


l 

f ( l) 

n 

= ⎛ ⎝ ⎜ ⎞ 

⎟ 

n⎠ 

Questo si può dimostrare anche per induzione: si suppone vero il teorema per n e lo si 

dimostra vero per n +1. In pratica si suppone di dover dividere il segmento in n +1 punti e di 

scegliere una parte di lunghezza x e le altre di lunghezza l − x : 

n 

n+1 

Calcoliamo il valore ottimo di x : 

⎛ 

f ( l) 

x l − x ⎞ 

n+ 1 

= ⎜ ⎟ 

⎝ n ⎠ 

n 

∂ ∂ 

( ) 

∂x f x ⎡ 

∂x x ⎛ l − x ⎞ 

n+ 

1 

= ⎢ ⎜ ⎟ 

⎣ 

⎝ n ⎠ 

n 

⎤ ⎛ l − x⎞ 

⎥ = ⎜ ⎟ 

⎦ 

⎝ n ⎠ 

⇓ 

l 

x = 

n + 1 

+ 1 n−1 

⎛ l − ( n + 1) 

x⎞ 

⋅ ⎜ ⎟ = 0 

⎝ n ⎠ 

2.2 Esempio n.2: percorso ottimo 

Consideriamo una città di partenza, una di arrivo e delle stazioni intermedie. Le strade che 

collegano le varie città abbiano un costo come indicato nel grafo seguente: 

Le linee tratteggiate indicano le tappe del percorso (ogni percorso possibile deve passare una 

ed una sola volta per ogni tappa). 

Per trovare il percorso ottimo (di costo minimo) da A 0 

ad A 6 

si potrebbero esplorare tutti i 

percorsi possibili, ma questo può essere non efficiente, anche se il numero dei percorsi 

possibili da A 0 

ad A 6 

è finito. 

Anche questo problema può essere risolto con il principio di Bellman: si parte dall’ultima 

tappa e si procede a ritroso. Ad ogni passo si sceglie l’arco migliore che collega le varie città 

della tappa corrente con il resto del percorso già scelto. Nel grafo seguente su ogni nodo è 

indicato il costo del percorso ottimo da quel nodo ad A 6 

: 

26

Principio di Bellman 

27

Minimizzazione di un indice di qualità 

3. MINIMIZZAZIONE DI UN INDICE DI 

QUALITÀ 

3.1 Equazione di Eulero-Lagrange 

Vediamo un esempio in cui il numero di possibili soluzioni di un problema è infinito. In 

questo caso non si può trovare la soluzione ottima esaminando tutte le possibili soluzioni. 

Determiniamo la funzione x( t ) tale che risulti minimo l’integrale: 

Il nostro problema è quello di determinare il 

Consideriamo fissi t f 

ed x x( t ) 

(3.1) ( ) 

t f 

J = ∫ F x, x&,τ dτ 

t0 

min , 

J = V( x0 t 

0 ) con x 

0 

x( t 

0) 

( ) 

x t 

= . 

f 

= 

f 

e supponiamo che la funzione x( t ) esista e che si possa 

calcolare in qualche modo. Un caso generale dell’integrale (3.1) è il seguente, in cui abbiamo 

sostituito t a t 0 

: 

Possiamo porre: 

t f 

( , &, ) 

J' 

= ∫ F x x τ dτ 

t 

x( t) 

t f 

( τ) τ ( ) 

min ∫ F x, x&, d = V x, 

t 

Otteniamo: 

t f 

t+ 

∆ 

t f 

⎧⎪ 

⎫⎪ 

min F( x, x&, ) d min F( x, x&, ) d F( x, x&, 

) d 

x( t) 

∫ τ τ = ⎨ τ τ τ τ 

x( t) 

∫ + ∫ ⎬ 

t 

⎩⎪ t 

t 

⎭⎪ = 

+ ∆ 

Se ∆ è piccolo si ottiene: 

t 

t+ 

∆ 

t f 

⎧ 

⎫ ⎧⎪ 

⎫⎪ 

= min ⎨ F( x, x&, τ) 

dτ min F x, x&, τ dτ 

V x, 

t 

x( t) 

∫ ⎬ + ⎨ 

x( t) 

∫ ⎬ 

⎩ t ⎭ ⎩⎪ t 

⎭⎪ = 

+ ∆ 

( ) ( ) 

29


t f 

⎧⎪ 

⎫⎪ 

min ⎨ F x, x&, d V x x& , t 

x( t) 

∫ ⎬ 

⎩⎪ t+ 

⎭⎪ = + + 

∆ 

( τ) τ ( ∆ ∆) 

Quindi: 

( + & ∆, + ∆) − ( , ) 

t+ 

∆ 

⎧V x x t V x t 1 

min⎨ 

+ ∫ F x x 

⎩ ∆ 

∆ 

t 

⇓ 

⎧dV( x, 

t) 

⎫ 

min⎨ 

+ F( x, x&, 

t) 

⎬ 

&x ( t) 

⎩ dt 

⎭ = 0 

( , &, τ) 

⎫ 

dτ⎬ 

= 0 

⎭ 

Ci siamo ridotti a calcolare il valore di &x che ci permette di spostarci lungo la direzione ottima 

(ci siamo ridotti al calcolo di &x in un punto). Una condizione limite è data da: 

Otteniamo: 

V( x, t f ) ≡ 0 ∀x 

(3.2) 

( , ) ⎡∂V( x, 

t) 

∂V x t 

∂t 

⎤ 

+ min⎢ 

x& 

+ F( x, x&, 

t) 

x& 

⎣ ∂x 

⎥ = 0 

⎦ 

Abbiamo ottenuto un’equazione alle derivate parziali del primo ordine con un operatore di 

∂V( x, 

t) 

ottimizzazione. Affinchè x& 

+ F( x, x&, 

t) 

sia minimo (rispetto ad &x ) deve essere: 

∂x 

(3.3) 

( , ) 

∂ ⎡∂V x t 

∂x& 

⎢ 

⎣ ∂x 

( , &, ) 

x& 

+ F x x t 

( , ) ∂F( x, x&, 

t) 

⎤ ∂V x t 

⎥ = + = 0 

⎦ ∂x 

∂x& 

Possiamo sostituire la (3.2) con il seguente sistema: 

(3.4) 

( , ) ∂V( x, 

t) 

x& 

F( x, x&, 

t) 

∂t 

∂x 

∂V( x, t) ∂F( x, x&, 

t) 

⎧∂V x t 

⎪ 

+ + = 0 

⎨ 

⎩⎪ 

∂x 

+ 

∂x& 

= 0 

( , ) 

( ) 

∂V x t 

Sostituiamo con − ∂ F x, x&, 

t 

nella prima equazione e poi eliminiamo la funzione V 

∂x 

∂x& 

derivando in ∂x la prima equazione e in ∂t la seconda equazione: 

⎧ 

2 

∂ V x t 

⎪ ∂x∂t 

⎨ 

⎪ 

⎩⎪ 

( , ) ∂ ⎛ ∂F( x, x&, 

t) ⎞ ∂F( x, x&, 

t) 

− ⎜ 

∂x 

⎝ 

∂ V x t 

∂x∂t 

∂x& 

( , ) ∂ F( x, x&, 

t) 

2 2 

x& 

⎟ + = 0 

⎠ ∂x 

+ = 0 

∂t∂x& 

30


Otteniamo: 

(3.5) 

d 

dt 

( , &, ) ∂ F( x, x&, 

t) ∂F( x, x&, 

t) 

2 2 

∂ F x x t 

+ x& 

− = 0 

∂t∂x& 

∂x∂x& 

∂x 

⇓ 

⎛ ∂F( x, x&, 

t) ⎞ ∂F( x, x&, 

t) 

⎜ ⎟ − = 0 (equazione di Eulero-Lagrange) 

⎝ ∂x& 

⎠ ∂x 

Per risolvere un’equazione differenziale abbiamo bisogno delle condizioni iniziali. In questo 

caso, invece, abbiamo una condizione iniziale ( t , x ) e una finale ( t x ) 

0 0 

esistenza ed unicità della soluzione (Cauchy) non è più valido. 

Ad esempio, se la F è tale che la (3.5) diventi: 

si ottiene: 

&&x 

+ x = 0 

x( t) 

= A cost + Bsen 

t 

f 

, 

1 

e il teorema di 

Se t 0 

= 0 ed x( t 0 ) = 0 , allora x( t) 

= Bsen t ( A = 0). Per calcolare B bisogna imporre la 

f 

relazione x 

f 

= Bsen t 

f 

. Se t f 

= π 3 

B 

, otteniamo l’unica soluzione x 

f 

= B 

= x 2 

f 

. Ma se t 3 f 

= 0 si hanno infinite soluzioni possibili. 

3 

2 

⇒ 

3.2 Condizioni per l’ottimalità della x(t) 

Nella trattazione precedente abbiamo fissato t e x e abbiamo cercato il valore di &x che 

minimizzasse J' . Per verificare che questo valore di &x sia davvero tale da minimizzare l’indice 

∂V( x, t) ∂F( x, x&, 

t) 

di qualità bisogna derivare + in ∂&x e verificare che il risultato sia positivo: 

∂x 

∂x& 

(3.6) 

∂ ⎡∂V x t 

∂x& 

⎢ 

⎣ ∂x 

2 

( , ) ∂F( x, x&, 

t) ⎤ ∂ F( x, x&, 

t) 

+ 

∂x& 

⎥ = > 

⎦ ∂x& 

2 

0 

Questa è la condizione necessaria per l’ottimalità. 

Se abbiamo due soluzioni &x m ed &x , con x& m ≠ x& 

, otteniamo: 

( , &, ) 

F x x t 

( , ) ∂V( x, 

t) 

∂V x t 

∂V x t 

m 

+ + x& ≤ F( x, x& , t) 

+ + 

∂t 

∂x 

∂t 

∂V( x, 

t) F ( x x t ) F ( x x 

m t ) 

x ( 

m 

, &, − , & , ≤ x& 

− x& 

∂ ) 

( , ) ∂V( x, 

t) 

∂x 

x& 

m 

1 

I problemi in cui è data una condizione iniziale ed una finale sono detti two-point boundary-value problems. 

31


Inoltre, siccome in entrambi i casi si ha un minimo e quindi in entrambi i casi vale la 

relazione (3.3), otteniamo: 

( , &, ) ( 

m 

x& 

x& 

) 

∂F x x t 

F ( x x t ) F ( x x 

m 

, &, − , & , t ) ≤ − 

∂x& 

3.3 Generalizzazioni del problema 

In alcuni casi non ci interessa partire da un punto preciso o arrivare in un punto preciso ma 

ci interessa solo che il punto iniziale e/o il punto finale appartengano ad una curva. Ad 

esempio, si può avere un problema in cui x f 

è fisso, mentre x 0 

può muoversi lungo la retta 

t = t 0 

: 

Esistono infinite funzioni V considerando i vari punti ( t x ) 

possibili quella ottimale è tale che: 

, sulla retta. Tra tutte le scelte 

0 0 

( , ) 

∂V x t 

∂x 

t = t 0 

= 0 

Questa condizione deve essere aggiunta alle (3.4) e (3.6). 

Inoltre, siccome vale ancora la (3.3), questa equazione diventa la seguente: 

( , &, ) 

∂F x x t 

∂& 

x 

t= 

t 0 

= 0 

Analogamente, se x f 

è libero di muoversi lungo la retta t 

= t f 

si ha la seguente equazione: 

( , &, ) 

∂F x x t 

∂& 

x 

t= 

t f 

= 0 

32


da aggiungere alle (3.4) e (3.6). 

Si può avere una situazione ancora più generale: possiamo partire da un punto ( x , t ) 

qualsiasi su una curva c( t ) : 

0 0 

Anche in questo caso esistono infinite funzioni V considerando i vari punti ( t 

0 

x 

0 ) 

curva. Tra tutte le scelte possibili quella ottimale è tale che: 

, sulla 

( , ) ∂V( x, 

t) 

⎛ ∂V x t 

⎜ 

⎝ ∂x 

x& 

+ 

∂t 

⎞ 

⎟ = 0 ⇒ 

⎠ 

x= 

c( t ) 

( , ) ∂V( x, 

t) 

∂V x t 

∂x 

c& 

+ = 0 

∂t 

Utilizzando la prima equazione delle (3.4) si ottiene: 

Infine, per la (3.3) si ha: 

( , ) ∂V( x, 

t) 

∂V x t 

∂x 

( , &, ) ( c& x& ) F ( x, x&, 

t ) 

∂F x x t 

∂x& 

( , &, ) 

c& 

− x& 

− F x x t = 0 

∂x 

− + = 0 (condizione di trasversalità) 

Questa condizione è detta di trasversalità perché il segmento più corto che congiunge un 

punto qualsiasi su una circonferenza con un punto qualsiasi su un’altra circonferenza è quello 

che giace sulla retta che congiunge i due centri: tale segmento esce con un angolo di 90° dalle 

due circonferenze: 

33


Le equazioni ottenute sopra e dovute al fatto di avere x 0 

e/o x f 

giacenti su una curva si 

aggiungono alle (3.4) e (3.6) e sostituiscono le condizioni iniziali e finali. 

Finora abbiamo esaminato il caso in cui x è una variabile scalare. Nel caso multidimensionale 

si ottengono gli stessi risultati sostituendo ∂ 

∂x con ∇ x e ∂ ∂&x con ∇ &x . 

3.4 Esempio: minimizzazione del percorso che collega 

due punti 

Cerchiamo la curva di lunghezza minima che collega due punti. L’integrale da minimizzare è 

il seguente: 

2 

dove 1+ x& 

= (&, 

) 

Siccome 

t f 

J = ∫ 1 2 

+ x& 

dt 

F x t è la distanza elementare. 

∂F( x& 

) 

= 0 , l’equazione di E-L diventa: 

∂x 

t 0 

d 

dt 

∂F( x& 

) 

∂x& 

= 

d 

dt 

∂ 

1+ 

x& 

∂x& 

2 

= 0 

⇒ 

∂ 

1+ 

x& 

∂x& 

2 

= 

2 

cost ⇒ ( 1 x& 

) 

1 

− 

2 

+ ⋅ x& 

= 

x& 

1+ 

x& 

2 

= cost 

Siccome l’equazione di sopra dipende solo da &x e deve essere sempre vera, allora &x deve 

essere costante. Quindi, tutte le possibili curve con pendenza costante (rette) sono soluzioni 

del problema. 

Se utilizziamo le condizioni iniziale e finale si ottiene che la curva più corta che congiunge i 

due punti è il segmento che li unisce. 

34

Funzione hamiltoniana 

4. FUNZIONE HAMILTONIANA 

Definiamo la variabile aggiunta o variabile momento nel seguente modo: 

( , &, ) ∂V( x, 

t) 

∂F x x t 

p = = − 

∂x& 

La variabile p è (a meno di un segno) il gradiente di V e deve essere continua: V è definita 

come integrale di F e, se F è continua, il suo integrale è continuo. 

Definiamo la funzione hamiltoniana H nel seguente modo: 

∂x 

Ma, per le (3.4) è anche 

( , &, ) 

∂ 

H = x& 

F x x t − F x x t = xp − F x x t 

∂x& 

( , ) 

( , &, ) & ( , &, ) 

( , ) 

∂ 

H = −x& 

V x t 

∂V x t 

− F( x, x&, 

t) 

= 

∂x 

∂t 

∂H 

∂x 

( , &, ) 

= − d ∂F x x t 

dt ∂x& 

= −p & 

&x = ∂ H 

∂p 

. Otteniamo: 

Con la definizione di p ed H possiamo trasformare l’equazione di Eulero-Lagrange, che è 

un’equazione differenziale del secondo ordine, in un sistema di equazioni differenziali del 

primo ordine: 

⎧ ∂H 

p& 

= − 

⎪ ∂x 

⎨ ∂H 

x& 

= 

⎩⎪ 

∂p 

(formulazione hamiltoniana) 

La funzione H è tale che la sua derivata totale rispetto al tempo è uguale alla sua derivata 

parziale rispetto al tempo: 

dH ∂H ∂H dt t x x ∂H p p ∂H ∂H ∂H ∂H ∂H ∂H 

= + & + & = + − = 

∂ ∂ ∂ ∂t ∂x ∂p ∂p ∂x ∂t 

Nella pratica generalmente H è costante nel tempo: 

∂H 

∂t 

= 0 ⇒ 

dH = 0 ⇒ H = cost 

dt 

35


Si può dimostrare che, se x è continua, anche p è continua. Possiamo ottenere altre due 

equazioni in cui t ed H sono coniugati tra di loro: 

&H = ∂ H 

∂ t 

t= 1= 

∂ H 

∂H 

Se il tempo è continuo (se il problema è formulato bene ci aspettiamo che lo sia) anche H è 

continua. 

4.1 Esempio: sistema massa-molla 

Se la funzione F è la lagrangiana L di un sistema dinamico (differenza tra energia cinetica ed 

energia potenziale), applicando le equazioni di sopra otteniamo le equazioni fondamentali 

della dinamica. 

Consideriamo una massa m collegata ad una molla di costante elastica k . Otteniamo: 

Applicando l’equazione di E-L otteniamo: 

& 2 

T = 

mx 

2 

(energia cinetica) 

V = 

kx 2 

2 

(energia potenziale) 

mx& kx 

L = − 

2 2 

( , &, ) d ∂L( x, x&, 

t) 

∂L x x t 

∂x 

d 

− = 0 ⇒ kx + ( mx& ) = 0 

dt ∂x& 

dt 

( mx& è la quantità di moto del sistema). 

Quindi, la somma della quantità di moto e della forza elastica è nulla. Se m è costante, 

otteniamo mx && = − kx , dove &&x è l’accelerazione del sistema. 

2 2 2 2 

∂L( x, x&, 

t) 

mx& 

kx mx& 

kx 

2 

Possiamo definire p = = mx& e H = mx& 

− + = + . H non dipende 

∂x& 

2 2 2 2 

dal tempo, quindi d H = 0 (principio di conservazione dell’energia). 

dt 

Se l’i-esima componente di x non è esplicitamente presente in H , la derivata di H rispetto a 

quella componente è nulla e quindi l’i-esima componente di p è costante (otteniamo il 

principio di conservazione della quantità di moto). 

4.2 Esempio: giuntura di due soluzioni 

Minimizziamo il seguente integrale: 

36


tra i punti ( 0, 0) 

e ( 2 1) 

2 

∫ 2 2 

( 1 & ) 

0 

J = y − y dt 

2 

2 

, . La quantità y ( 1− y& ) [= F( y y t) 

, &, ] è sicuramente non negativa. Si 

potrebbe minimizzare l’integrale di sopra ponendo y = 0 oppure &y = 1 ma nessuna di queste 

è soluzione (entrambe non passerebbero per ( 0, 0) 

e ( 2 1) 

otteniamo: 

Se y ≠ 0 otteniamo: 

( , &, ) d ∂F( y, y&, 

t) 

∂F y y t 

∂y 

− = 0 

dt ∂y& 

⇓ 

2 

2 

2y( 1 − y & ) + d 

2( 1 ) 0 

dt y ⋅ − y& 

= 

⇓ 

( ) 2 

( ) 

y 1− y& + 2yy & 1− y& − && yy = 0 

( ) 2 

( ) 

1− y& + 2y& 1− y& − && y = 0 

, ). Applicando l’equazione di E-L 


( , &, ) 

∂F y y t 

p = = −2y 

2 1− 

∂y& 

( y& 

) 

2 

( ) ( 1 ) 

H = yp & − F y, y&, t = yp & − y − y& 

2 

Siccome H non dipende esplicitamente dal tempo, allora H = cost , quindi: 

Siccome la curva deve passare per ( 0 0) 

( ) ( ) 

− 2y 2 y& 1− y& − y 2 1− y& = cost 

, (punto iniziale) e in quel punto H = 0 , sarà 

H = 0 sempre. La funzione H è nulla o perché y = 0 o perché 1− &y = 0. 

Quindi, la soluzione esatta del problema non esiste. Si possono “giuntare” le due soluzioni 

y = 0 e &y = 1: 

2 

37


In questo caso H e p sono continue. Se H e p non sono continue, la soluzione trovata 

giuntando due soluzioni “parziali” deve essere scartata. 

4.3 Condizioni di continuità sulle giunture nel caso 

generale 

Le condizioni di continuità in una giuntura centrata all’istante τ sono le seguenti: 

• x( τ 

− ) = x( τ 

+ ) 

• p( τ 

− ) = p( τ 

+ ) 

• H( τ ) = H( τ ) 

− + 

Queste condizioni possono essere espresse anche in funzione di F: 

• ∂ F ( x, x&, 

t ) ∂F ( x, x&, 

t 

= 

) 

∂x& 

∂x& 

( ) 

⎛ ∂F x, x&, 

t 

• ⎜ 

⎝ ∂x& 

τ − τ + 

( , &, ) 

⎞ ∂F x x t 

x& 

− F( x, x&, 

t) 

x& 

F( x, x&, 

t) 

⎠ 

⎟ = ⎛ 

⎜ 

⎝ ∂x& 

− ⎞ 

⎟ 

⎠ 

τ − τ + 

4.4 Minimizzare un integrale mantenendo costante un 

altro integrale 

Minimizziamo il seguente integrale: 

mantenendo costante il seguente integrale: 

t1 

( ) 

J = ∫ F1 

x, x&,τ dτ 

t0 

38


t1 

( ) 

k = ∫ F2 

x, x&,τ dτ 

t 0 

Se F 2 

è la lunghezza infinitesima di un filo di lunghezza assegnata i cui estremi sono fissi 

sull’asse delle ascisse e − F 1 

è l’area compresa tra il filo e tale asse, il problema è quello di 

disporre il filo in modo che sottenda un’area massima. In maniera intuitiva sappiamo che in 

questo caso il filo deve essere disposto in modo da formare un arco di circonferenza. 


con q( t 0 ) = 0 e q( t ) 

1 

= k . 

t 

( ) ( , &,τ) 

τ ⇒ q& 

( t) F ( x, x&, 

t) 

q t = ∫ F2 

x x d 

t 0 

La funzione da minimizzare diventa F( x, x&, t) = F ( x, x&, t) + ( t) q& ( t) − F ( x, x&, 

t) 

t1 

∫ 

= 2 

[ ] 

λ : 

1 2 

{ 1( ) + ( ) ⋅[ ( ) − 

2( )]} 

min F x, x&, τ λ τ q τ F x, x&, 

τ dτ 

t 0 

Se massimizziamo λ e se &q ≠ F 2 

otteniamo sicuramente che il minimo di F tende all’infinito. 

Questo obbliga &q = F 2 

. 

L’equazione di Eulero-Lagrange rispetto ad x è la seguente: 

∂ 

{ F1 ( x, x&, t) + λ( t) [ q& ( t) − F2 

( x, x&, 

t) 

]} 

quella rispetto a λ è: 

∂x 

mentre quella rispetto alla q è la seguente: 

{ ( , &, ) λ( )[ &( ) ( , &, )]} 

d ∂ 

− 

dt ∂x F x x t + t q t − 

& 

F x x t = 

&q 

− F2 = 0 

1 2 

0 

{ ( , &, ) λ( )[ &( ) ( , &, )]} 

d ∂ 

− + − = 

dt ∂q& 

F x x t t q t F x x t 

1 2 

0 ⇒ 

dλ( t) 

dt 

= 0 ⇒ λ( t ) = λ = cost 

Poiché λ è costante, possiamo derivare la prima equazione ricavando la x . Infine, imponendo 

( ) 

q t 

1 

= k , riusciamo a calcolare λ . 

Scambiando l’operatore di minimo con quello di massimo ed F 1 

con F 2 

si può risolvere il 

problema duale. 

4.5 Esempio: massimizzazione dell’area sottesa da un 

filo di lunghezza fissata 

Calcoliamo la curva di lunghezza fissata che sottende un’area massima: 

39


L’integrale da massimizzare è 

Definiamo la funzione: 

B 

2 

∫ ydt , con ∫ 1+ &y dt = l . 

A 

B 

A 

( ) ( ) 

F y, y&, t = y + λ t 1+ 

y& 

F è indipendente da t . Quindi, la H deve essere costante: 

( , &, ) 

∂ 

H = y& 

F y y t 

− F( y, y&, 

t) 

= c 

∂y& 

⇓ 

2 

y + λ 1+ y& 

− λ 

( y c ) 

y& 

2 

1+ 

y& 

⇓ 

2 

2 λ 

+ 

1 

= 

1 + y & 

2 

1 

+ c = 0 

2 1 

Le soluzioni di quest’equazione differenziale le soluzioni sono circonferenze del tipo: 

2 

( x c 

2 ) ( y c1) 

+ + + = 

Poiché i due punti A e B sono fissi quest’equazione rappresenta tutti gli archi di 

circonferenza che passano per i due punti. Il parametro λ ci permette di scegliere tra tutti 

questi archi la soluzione cercata, cioè l’arco la cui lunghezza è l . 

La soluzione al problema non può esistere in alcuni casi, ad esempio se l 

2 

2 

2 

λ 

4.6 Presenza di un vincolo di disuguaglianza 

Il problema che ci poniamo in questo paragrafo è quello minimizzare il seguente integrale: 

40


t1 

( ) 

J = ∫ F x, x&, 

t dt 

t 0 

con il vincolo x( t) ≥ ϕ ( t) 

⇒ 

2 

x( t) − ϕ( t) = z ( t) 

≥ 0. Sulla frontiera del vincolo si ha 

z = 0 . 

Derivando la disequazione precedente si ottiene: 

Riportando il problema in z si ottiene: 

x& − ϕ& = 2 zz& 

⇒ x& = ϕ& + 2zz& 

t1 

∫ 

2 

( ϕ, ϕ& 2 &, t) 

J = F z + + zz dt 

t 0 

Possiamo estremizzare quest’integrale rispetto alla variabile z . Applichiamo l’equazione di E- 

L: 

2 2 

( + ϕ, ϕ& + 2zz& ) d ∂F( z + ϕ, ϕ& + 2zz& 

) 

∂F z 

∂z 

− 

dt ∂z& 

⇓ 

⎡∂F( x x t) d ( ) 

2z 

∂F x x t ⎤ 

⎢ − 

0 

⎣ ∂x 

dt ∂x& 

⎥ = 

⎦ 

Una soluzione è quella data da z = 0 (frontiera del vincolo). Un’altra soluzione si ottiene 

risolvendo l’equazione di E-L come se non ci fosse il vincolo. 

La soluzione al problema si ottiene giuntando la soluzione ottenuta come se il vincolo non 

esistesse con porzioni della frontiera del vincolo. 

Ad esempio, se il vincolo è un cerchio, si ottiene: 

= 0 

Esistono due soluzioni possibili e quindi due minimi locali del problema. Il minimo globale 

può essere ottenuto per confronto diretto. 

41

Applicazione ai sistemi tempo-continui 

5. APPLICAZIONE AI SISTEMI TEMPO- 

CONTINUI 

Si abbia un sistema la cui dinamica è descritta dalla seguente equazione: 

( ) 

x& = f x, u, 

t 

Si abbia la condizione iniziale x 0 

all’istante t 0 

e un indice di qualità: 

t f 

( , , τ ) τ Φ ( x , ) 

J = ∫ l x u d + 

f 

t 

t0 

L’integrale tiene conto dell’intero intervallo in cui si svolge il controllo, mentre Φ tiene conto 

solo dello stato finale del sistema. L’intervallo [ t t f ] 

0 

, è detto orizzonte di controllo. 

Nel controllo classico in genere è t = 0 e t f 

→ ∞ . Spesso, però, ci interessa che un sistema 

abbia determinate proprietà solo fino ad un istante t f 

≠ ∞ (magari dopo quell’istante il 

sistema si distrugge o non viene più usato): 

Se t 0 

, t f 

ed x 0 

sono fissati, la soluzione ottima è tale che: 

t 

⎡ f 

V( x, t 

0 ) = min ⎢ l x, u, d + x 

f 

, t 

u( t ) 

∫ τ τ Φ 

⎣⎢ 

t 0 

( ) ( ) 

L’incognita del problema è la funzione u( t ) . Ma in genere le funzioni u( t ) non possono essere 

qualsiasi: deve essere u( t) 

∈U . Ad esempio, ad un motore non possiamo applicare una 

tensione oltre un certo valore limite. Si potrebbero, inoltre, imporre dei vincoli sulla x( t ) o si 

potrebbero vincolare gli andamenti della u( t ) e della x( t ) . 

Otteniamo: 

t+ ∆ 

t f 

t+ 

∆ 

⎡ 

⎤ 

V( x, t) 

= min ⎢ l( x, u, ) d + l( x, u, ) d + ( x 

f 

, t 

f ) ⎥ min l( x, u, ) d V[ x( t ), 

t ] 

u( t ) 

u( t ) 

⎣⎢ 

t 

t 

⎦⎥ = ⎧ 

⎨ 

+ + + 

⎫ 

∫ τ τ ∫ τ τ Φ ∫ τ τ ∆ ∆ ⎬ 

+ ∆ 

⎩ t 

⎭ 

⇓ 

t+ 

∆ 

⎧ 

⎫ 

0 = min ⎨ ( ) + [ ( + ) + ] − ( ) ⎬ 

( ) ∫ l x, u, τ dτ 

V x t ∆ , t ∆ V x, 

t 

u t 

⎩ t 

⎭ 

⇓ 

f 

f 

⎤ 

⎥ 

⎦⎥ 

43


t+ 

∆ 

⎧ 

⎫ 

∫ l( x, u, 

τ) 

dτ 

⎪ 

V[ x( t + ∆) 

, t + ∆] − V( x, 

t) 

t 

⎪ 

0 = min⎨ 

+ 

⎬ 

u( t ) 

⎪ ∆ 

∆ ⎪ 

⎩ 

⎪ 

⎭ 

⎪ 

Se ∆ → 0 si ottiene: 

⎡ 

min ⎢l 

, , 

u( t ) 

⎣ 

( x u t) 

dV 

+ 

dt 

( x, 

t) 

⎤ ⎧⎪ 

V( x, 

t) 

⎥ = min l( x, u, 

t) 

+ ⎡ ⎣ ⎢ ∂ ⎤ 

⎨ 

⎦ 

u( t ) 

⎩⎪ 

∂x 

T 

∂V 

⎥ f( x, u, 

t) 

+ 

⎦ 

∂t 

( x, 

t) 

⎫⎪ 

⎬ 

⎭⎪ = 0 

In questo caso non ci interessa calcolare tutta la funzione u( t ) ma solo il valore dell’ingresso 

u all’istante t che minimizza l’espressione tra parentesi graffe. 

Il valore ottimale di u si può calcolare o derivando l’espressione tra parentesi graffe, oppure 

applicandole il metodo del gradiente, oppure, se u( t) 

∈U grigliando U e valutandola 

ripetutamente. 

Otteniamo: 

(5.1) 

( x, 

t) 

( x, 

t) 

∂V 

⎧⎪ 

− = ( ) + ⎡ 

( ) 

⎣ ⎢ ∂V 

⎤ 

min ⎨l 

x, u, 

t 

∂t 

⎥ 

u t 

⎩⎪ 

∂x 

⎦ 

T 

( , , t) 

f x u 

⎫⎪ 

⎬ 

⎭⎪ 

Quella ottenuta è un’equazione alle derivate parziali contenente un operatore di minimo. Per 

risolvere un’equazione alle derivate parziali occorre fornire le condizioni a contorno. Una 

condizione a contorno si può ricavare dalla definizione di V : 

(5.2) V( x , t ) = Φ( x , t ) 

f f f f 

5.1 Equazione di Riccati 

Se l’indice di qualità è quadratico: 

si ottiene una semplificazione del problema: 

t 

f 

+ 

J = ∫ x T 

Qx u T 

Ru d + x F T 

τ 

f 

x 

2 2 

t 0 

&x ( t) = A( t) x( t) + B( t) u( t) 

Le matrici Q , R ed F siano simmetriche e ad elementi reali. Inoltre: 

T 

⎧Q 

= Q ≥ 0 

⎪ T 

⎨R 

= R > 0 

⎪ T 

⎩ F = F ≥ 0 

f 

44


Un problema di questo tipo è detto problema lineare quadratico (LQ). 

Dalle (5.1) e (5.2) otteniamo: 

( ) ⎧ T 

T 

x, 

t x Qx u Ru ∂V( x, 

t) 

− = + + ⎡ T 

∂V 

⎪ 

( ) 

⎣ ⎢ ⎤ ⎫⎪ 

min⎨ 

⎥ Ax + Bu ⎬ 

∂t 

u 2 2 ∂x 

⎩⎪ 

⎦ ⎭⎪ 

( ) 

V x f 

, t f 

= x F T 

f 

x 

2 f 

Siccome l’integrale nell’indice di qualità contiene funzioni quadratiche, esso dipende da x 0 

e 

t 0 

in modo quadratico. Se la V può essere scritta nel seguente modo: 

V 

( x t) 

, = 

T 

x P( t) 

x 

2 

T 

, P = P ≥ 0 (perché integrale di funzioni positive) 

otteniamo: 

V 

( x t ) 

f 

f 

( t ) 

( x t) 

T 

∂V 

, x Px & 

= 

∂t 

2 

∂V( x, 

t) 

= Px 

∂x 

T 

x 

f 

P x 

, = = , = 

T 

x 

f 

F( t 

f ) x 

f 

Φ ( x t ) 

⇒ P( t 

f ) = F( t 

f ) 

f f 

f f 

2 2 

T 

x Px & 

T 

T 

⎡x Qx u Ru ⎤ 

− = ⎢ + + x 

T PAx + x 

T 

min 

PBu 

2 

⎥ 

u( t) 

⎣ 2 2 

⎦ 

Per minimizzare rispetto ad u l’espressione tra parentesi quadre bisogna annullare la sua 

derivata rispetto ad u 1 : 

Il controllo ottimo è dato da: 

Ru 

T 

+ B Px = 0 

−1 T 

( t) = − ( t) ( t) ( t) = − ( t) ( t) 

$u R B P x K x 

Affinché si riesca a controllare il sistema occorre reazionare il suo stato. Quindi: 

T 

− − 

x Px & T 

x Qx 

+ 

− 

− = + x PBR 1 RR 1 

B T 

P x + x PA A T 

P T 

T 

T 1 T 

x − x PBR B Px = 

2 2 2 2 

T 

− − 

x Qx 

+ 

= − x PBR 1 RR 1 

B T 

P x + x PA A T 

P T 

T 

x 

2 2 2 

T T T T T 

perché x A Px = x ( PA) 

x = x PAx . 

P deve soddisfare quest’equazione che è un’identità rispetto ad x . Quindi deve essere: 

1 Le espressioni devono contenere vettori colonna e quindi bisogna trasporre quando si ottengono dei vettori riga. 

45


−1 −1 T T 

− &P = Q − PBR RR B P + PA + A P 

(sistema di equazioni di Riccati) 

Abbiamo ottenuto un sistema di equazioni differenziali del primo ordine. Poiché entrambi i 

membri dell’equazione di Riccati sono matrici simmetriche non bisogna risolvere n 2 

n( n + 1) 

equazioni (se A ∈R n× 

n ) ma solo . 

2 

L’espressione a secondo membro è quadratica in P (è del secondo ordine) e quindi il sistema 

di equazioni è non lineare. 

Se R = r I ed r → ∞ (cioè se vogliamo che l’ingresso sia vicino allo zero), si ha che R −1 → 0 . 

In questo modo, se abbiamo un tempo infinito per il controllo e A( t ) e B( t ) sono costanti, 

supponendo che P sia la soluzione a regime, otteniamo: 

&P = 0 

T 

A P + PA = − Q (equazione di Lyapunov) 

Se Q = 0 (cioè se ci preoccupiamo solo del controllo) l’equazione di Riccati diventa omogenea 

in P . Moltiplicando ambo i membri a sinistra e a destra per P −1 si ottiene: 

Infatti, ( ) 

Se P 

−1 

& T T 

−1 −1 − P PP 

−1 = − BR B 

−1 −1 

+ AP + P A 

⇓ 

&P −1 BR −1 B T 

AP −1 P −1 

= − + + A T 

d 

−1 d 

−1 −1 

P P = I = 0 = P& P + P P& , cioè d dt dt 

dt P −1 P − P − PP − 

= & 1 1 1 

= − & . 

= X otteniamo: 

−1 T T 

&X = − BR B + XA + AX 

(sistema di equazioni differenziali lineari del primo ordine) 

Se P = p = cost , Q = q , A = a , B = b ed R = r (scalari) l’equazione di Riccati diventa: 

2 

b 

r p 2 

+ 2 ap − q = 0 

Possiamo ricavare due soluzioni di cui una in generale non ci interessa (fisicamente non è 

ammissibile). Le soluzioni ammissibili (con significato fisico) sono quelle per le quali P ≥ 0. 

Nel caso generale lo schema che si ottiene è il seguente: 

46


−1 T 

perché K( t) = R B ( t) P( t) 

. 

Se R 

−1 

= I 

la stabilità è assicurata: la x non diverge. Infatti, se V( t) T ( t) 

& T T T 

V & & & T T 

= x Px + x Px + x Px = 2x Px& + x Px & = 

x, = x P x , allora: 

T T T T T T T T T 

= 2x PAx − 2x PBB Px − x Qx + x PBB Px − x PAx − x A Px = 

T T T T T T T T T 

= x PAx − x A Px − x Qx − x PBB Px = −x Qx − x PBB Px ≤ 

0 

5.2 Caso di sistema lineare stazionario ed indice di 

qualità quadratico 

L’unico caso in cui K( t ) = cost è quello in cui il sistema è lineare e stazionario, Q ed R sono 

indipendenti dal tempo e l’orizzonte nel quale si effettua il controllo è infinito ( P & = 0 ). Se 

t → ∞ , deve essere x f 

→ 0 perché altrimenti per t → ∞ l’indice J divergerebbe. 

In questo caso di ottiene l’Algebraic Riccati Equation (ARE): 

T 

−1 T 

A P + PA − PBR B P + Q = 0 

Quest’equazione si può risolvere anche in modo iterativo: si parte da P 0 

= 0 e ad ogni passo si 

calcola: 

fermandosi quando P 

1 

Pk 

. 

k+ ≅ 

T 

−1 

T 

A P + P A − P BR B P + Q = 0 

k+ 1 k+ 

1 k 

k 

5.3 Caso di sistema lineare con indice di qualità 

dipendente da (x-x d ) in modo quadratico 

Se il sistema è lineare e vogliamo portare la x ad un certo valore x d 

possiamo usare il 

seguente indice di qualità: 

47


T 

( ) ( ) 

t f 

T 

− 

d 

− 

d 

+ 

J = ∫ x x Q x x u Ru 

dτ 

2 

La procedura da seguire è uguale a quella vista sopra 2 . Si ottiene: 

∂V 

∂t 

t0 

T 

T 

( x, 

t) ⎧( x − x ) Q( x − x ) u Ru ∂V( x, 

t) 

⎪ 

= min⎨ 

u 

⎩⎪ 

u dipende da x ed x d 

. Possiamo porre: 

Si ottiene: 

V 

d 

( x t) 

T 

d 

+ + ⎡ ( Ax Bu) 

⎣ ⎢ ⎤ ⎫ 

⎪ 

⎥ + ⎬ 

2 2 ∂x 

⎦ ⎭⎪ 

T 

x P( t) 

x 

T 

, = + p ( t) x + c( t) 

2 

(5.3) 

T 

T 

T 

T 

∂V( x, t) 

x Px & 

⎡ 

T 

x Qx 

T 

x 

dQx 

d u Ru 

= + p& x + c& = min⎢ 

− x 

dQx 

+ + + 

∂t 

2 u 

⎣ 2 2 2 

+ + 

Deriviamo rispetto ad u l’espressione tra parentesi quadre e poniamola a zero: 

( ) 

T 

Ru + B p + Px = 0 

⇓ 

−1 $u ( t) R B T 

−1 

T 

= − ( t) p( t) − R B ( t) P( t) x( t) 

T T 

( p x P)( Ax Bu) 

(è la somma di un termine di reazione e di un termine di comando dipendente da p( t ) ). 

Imponendo l’uguaglianza (5.3) si ottiene: 

perché: 

T 

x Px & T 

x Qx 

x PBR −1 

B T 

P x x PA A T 

P T 

T 

+ 

= − + 

x (termini dipendenti da x 2 ) 

2 2 2 2 

T T T −1 T T 

&p x = −x Qx − p BR B Px + p Ax (termini dipendenti da x ) 

d 

T 

d 

T −1 

T 

x Qx 

d p BR B p 

&c = − 

2 2 

(termini indipendenti da x ) 

T T T T −1 T T −1 T T T −1 T T −1 

T 

( p + x P)( Ax + Bu) 

= p Ax − p BR B p − p BR B Px + x PAx − x PBR B p − x PBR B Px 

e 

T T −1 T T −1 

T 

u Ru p BR B p + x PBR B Px 

T 

= 

+ p BR 

2 2 

−1 

T 

B Px 

⎤ 

⎥ 

⎦ 

2 T 

Si potrebbe complicare il problema aggiungendo un termine x Mu 

questo caso la procedura resta uguale a quella vista sopra. 

(che dipende da x e da u ). Anche in 

48


5.4 Sistemi non lineari 

Consideriamo un sistema non lineare descritto dalla seguente equazione: 

( ) 

x& = f x, u, 

t 

con x( 0) 

= x 

0 

e u ∈U (considereremo solo vincoli sui valori di u ma non sulle funzioni u( t) 

né sulle x( t ) ). 

L’indice di qualità da massimizzare sia il seguente: 

J = ψ[ x( T) 

] + ∫ L( x, u, 

τ) 

dτ 

Siccome stiamo considerando un problema di massimo, allora F = − L . 

Possiamo modificare l’indice di qualità utilizzando i moltiplicatori di Lagrange: 

T T T 

T 

0 

T T T 

∫ ( )[ ( )] [ ( )] ∫[ ( ) ( ) ( )] ∫ ( ) 

J = J − p τ x& − f x, u, τ dτ = ψ x T + L x, u, τ + p τ f x, u, τ dτ − p τ x& 

dτ 

0 

0 0 0 

dove L + p T f = 

H è l’hamiltoniano associato. Se x& f( x, u, 

) 

= τ , allora J = J . Si ha che 

0 

&x = ∂ H . Scegliamo le variabili p in modo tale che sia &p = − ∂ . Per ricondurci alla 

∂p 

∂H 

x 

formulazione hamiltoniana abbiamo aggiunto al sistema le variabili p (variabili ausiliarie), 

cioè abbiamo raddoppiato la dimensione dello spazio di stato. 

La condizione iniziale sulla x è data da x( 0) 

= x 

0 

e quella finale sulla p è data da 

p( T) 

= ∂ψ . Abbiamo n condizioni iniziali (per n equazioni) ed n condizioni finali (per le 

∂x 

T 

altre n equazioni). Questo può crearci dei problemi di tipo numerico per l’integrazione. 

H dipende da x , da p e da u : H = H( x, p, u) 

. Se $u ( t ) è ottimale, con qualsiasi scelta di x e 

p otteniamo: 

H( x, p, u$ ( t) 

) ≥ H( x, p, 

v( t) 

) 

dove v( t ) è un qualsiasi altro controllo. 

Questa relazione ci suggerisce come scegliere la u fissando x e p (la ricerca può essere fatta 

in modo numerico o analitico, se possibile). In questo caso, però, le tecniche di ricerca 

utilizzabili sono di tipo locale. La soluzione ottima sarà data da u$ ≡ u$ ( x, p, 

t ) (funzione anche 

delle variabili ausiliarie). 

Potremmo aggiungere all’equazione x& = f( x, u, 

t ) l’equazione x& = L( x , u 0 

, t) 

ottenendo: 

In questo caso possiamo scrivere: 

J = ψ[ x( T) 

] + x ( T) 

0 

T 

H = p 0 

L + p f 

49


Il problema non è cambiato perché p 0 

= cost : 

&p 

0 

∂H 

= − = 0 

∂x 

0 

( H dipende da x e non da x 0 

). 

Alcune volte ci interessa minimizzare la u ma ci interessa che la x finale sia particolare 

(dobbiamo specificare anche delle condizioni terminali sulla x ). Abbiamo un sistema di 2n 

equazioni in 2n incognite con n condizioni iniziali (sulle x ) ed n condizioni finali (sulle p ) 

e, per inserire altre condizioni finali sulle x bisogna procedere in questo modo: se la 

condizione su x i 

( T ) è specificata, la corrispondente condizione su p i 

( T ) deve essere 

eliminata. In seguito si pone p 0 

= 1 e si cerca la soluzione. Se non si riesce ad ottenerla si pone 

p 0 

= 0 e si ritenta. 

5.5 Esempio. Curva più corta che unisce due punti 

I due punti siano x( 0) 

= 0 ed x( 1) 

= 1. Il sistema può essere descritto dall’equazione &x = u . 

L’indice da massimizzare è il seguente: 

Si ottiene: 

1 

J = − ∫ 1 2 

+ u dt 

0 

∂H 

∂u 

2 

H = − 1+ u + pu 

∂H &p = − = 0 

∂x 

1 1 

= p − 2u 

= p − 

2 1+ 

u 

u 

1+ 

u 

2 2 

Si ha che H è costante se u è costante. Quindi &x = c = cost ⇒ x = ct + a . Inserendo le 

condizioni iniziali e finali si ottiene c = 1 ed a = 0 . 

50


5.6 Esempio. Curva di lunghezza assegnata tale che 

l’area sottesa sia massima 

Gli estremi della curva siano x( 0) 

= 0 e x( T ) = 0 . Il sistema può essere descritto 

2 

dall’equazione &x = u . L’integrale ∫ 1+ u dt = l 

mantenuto costante. L’indice da massimizzare è il seguente: 

T 

0 

J 

T 

= ∫ xdt 

0 

(lunghezza della curva) deve essere 

Per eliminare il vincolo aumentiamo il numero delle variabili di stato. Definiamo: 

con y( 0) 

= 0 ed y( T) 

Costruiamo l’hamiltoniano: 

Otteniamo: 

&y 

= 1+ 

= l . Il nostro sistema di equazioni diventa: 

d 

dt 

u 

⎛x 

u 

⎝ 

⎜ ⎞ y ⎠ ⎟ = ⎛ 

⎜ 

⎝ 1 + u 

H = x + p x& 

+ p y& 

= x + p u + p 1+ 

u 

2 

2 

⎞ 

⎟ 

⎠ 

1 2 1 2 

2 

∂H 

∂u 

∂H 

&p = − = 

∂x 

∂H 

&p = − = 

∂y 

1 

1 

2 

0 

= 0 = p + p 

⇒ p1 = t + c1 

⇒ p 2 

= cost=c 2 

u 

u 

= t + c + c 

1+ 

u 

1+ 

u 

⇓ 

1 2 2 1 2 2 

51


at + b = 

u 

2 

1+ u 

, con a = − 1 c 

2 

e b 

c 

= − 1 c 

2 

La x( t ) che si ottiene è un arco di circonferenza con equazione del tipo: 

dove ( t x ) 

c 

, sono le coordinate del centro. 

c 

2 2 

( x( t) 

− x ) + ( t − t ) = r 

L’hamiltoniano non dipende dal tempo ( H=cost=c 3 

) perché 

c 

c 

2 

dH 

dt 

∂H 

= = 0 . Siccome 

∂t 

2 

H = x + p u + p 1 + u = c possiamo ricavare la u in funzione degli altri parametri. 

1 2 

3 

5.7 Matrice hamiltoniana 

Consideriamo ora un sistema lineare stazionario: 

con x x( ) 

0 

= t 

0 

noto. 

L’indice di qualità da minimizzare sia del tipo: 

&x = Ax + Bu 

T T T T 

x F( T) 

x ⎛ x Qx u Ru⎞ 

J = + ∫ ⎜ + ⎟dτ 

2 ⎝ 2 2 ⎠ 

0 

⇓ 

T T T T 

⎡ x F( T) 

x ⎛ x Qx u Ru⎞ 

⎤ 

max⎢− − ∫ ⎜ + ⎟dτ⎥ 

⎣ 2 ⎝ 2 2 ⎠ 

0 

⎦ 

con Q almeno s.d.p. ed R d.p., cioè invertibile. Otteniamo: 

Non abbiamo vincoli sulla u : 

T 

T 

T 

T 

T 

x Qx u Ru 

T 

T 

x Qx u Ru 

H = p x& 

− − = p Ax + p Bu − − 

2 2 2 2 

∂H 

T 

&p = − = − A p + Qx 

∂x 

∂H 

∂u 

T 

= 0 = B p − Ru 

−1 T 

⇒ $u ( t) = R B p( t) 

Le condizioni finali sulle p sono date da p( T) = − F( T) x( T) 

. 

Si ottiene il seguente sistema in evoluzione libera (con ingresso nullo): 

52


d 

dt 

⎛x 

A BR B 

⎜ ⎞ −1 

T 

⎝p⎠ ⎟ = 

⎡ 

⎢ 

⎣Q 

− A 

T 

⎤ x 

⎥ ⎛ ⎦⎝ ⎜ ⎞ p⎠ ⎟ 

dove la matrice M A BR −1 

B T 

⎡ 

⎤ 

= ⎢ 

T ⎥ è la matrice hamiltoniana e la sottomatrice BR −1 B 

T è 

⎣Q 

− A ⎦ 

una matrice reale simmetrica. 

La dinamica del sistema dipende solo dagli autovalori ed autovettori della matrice 

hamiltoniana. Una proprietà di questa matrice è che, se essa ha l’autovalore λ , ha anche 

l’autovalore − λ . Quindi, il suo polinomio caratteristico è funzione di s 2 : le sue radici sono a 

simmetria quadrantale 3 . 

L’evoluzione del sistema nelle variabili x e p è data da: 

Φ t, t 

0 

Otteniamo: 

⎛x( t) 

⎞ 

⎜ ⎟ = Φ 

⎝p 

t ⎠ 

( t, 

t 

0 ) 

( ) 

⎛x 

⎜ 

⎝p 

( t 

0 ) 

( t 

0) 

⎞ 

⎠ 

⎟ = ⎡ Φ 

⎢ 

⎣ ⎢Φ 

M( t−t 

0 ) 

con ( ) = e e Φ ( t ) Φ ( t t ) 

ij 

, t 0 ij 0 

( t, t ) Φ ( t, 

t ) 

( t, t ) Φ ( t, 

t ) 

11 0 12 0 

21 0 22 0 

⎤⎛x 

⎥ 

⎜ 

⎦⎥ 

⎝p 

( t 

0 ) 

( t 

0) 

= − perché il sistema è lineare e stazionario. 

(5.4) p( T) = − F( T) x( T) = Φ ( T, t ) x( t ) + Φ ( T, 

t ) p( t ) 

⎞ 

⎟ 

⎠ 

21 0 0 22 0 0 

−1 

Da quest’equazione possiamo ricavare p( t 0 ), sapendo che Φ22 ( T − t 

0) = Φ22 ( t 

0 

− T) 

Inoltre: 

( T) = Φ ( T, t ) ( t ) + Φ ( T, 

t ) ( t ) 

x x p 

11 0 0 12 0 0 

Se moltiplichiamo ambo i membri di quest’equazione per F otteniamo: 

( T) = Φ ( T, t ) ( t ) + Φ ( T, 

t ) ( t ) 

Fx F x F p 

11 0 0 12 0 0 

Se sommiamo quest’equazione alla (5.4) possiamo scrivere x( t 0 ) in funzione di ( ) 

−1 T 

ottenendo che p( t ) è funzione solo di p( t 0 ) ed il controllo $u ( t) = R B p( t) 

. 

p t 0 

, 

sarebbe a ciclo 

aperto. 

Se, invece, p( t) = − P( t) x( t) 

, con P( t ) simmetrica e d.p., otteniamo il controllo in 

T 

controreazione $u ( t) = −R −1 B P( t) x( t) 

trovato sopra. In questo caso si ha: 

&p = Qx − A T 

T 

p = Qx + A Px 

p& Px & Px& Px & PAx PBu Px & 

−1 T 

= − − = − − − = − − PAx + PBR B Px 

⇓ 

T 

Qx + A Px = −Px & −1 

T 

− PAx + PBR B Px 

Questa relazione vale qualunque sia x . Otteniamo l’equazione di Riccati: 

3 Le radici del polinomio caratteristico sono simmetriche non solo rispetto all’asse reale (il polinomio è a 

coefficienti reali) ma anche rispetto all’asse immaginario. 

53


T 

−1 

T 

− &P = A P + PA + Q − PBR B P 

Il problema è sicuramente ben posto se la coppia ( A, B) 

è controllabile. 

La condizione finale su p( T ) diventa p( T) = − P( T) x( T) = − F( T) x( T) 

⇒ P( T) = F( T) 

. 

Il sistema: 

diventa: 

−1 T 

⎧x& 

= Ax + BR B p 

⎨ 

T 

⎩p& 

= Qx − A p 

−1 

T 

( ) 

T −1 

( ) 

⎧x& 

= A − BR B P x 

⎨ 

⎩p& 

= − A + QP p 

−1 T 

−1 T 

La matrice a ciclo chiuso è A 

c 

= A − BR B P . La matrice K = BR B P deve avere 

necessariamente tutti gli autovalori a parte reale negativa. 

In questo modo abbiamo disaccoppiato la dinamica delle x da quella delle p . Se l’intervallo di 

controllo è infinito ci aspettiamo che sia p → cost (si va a regime). D’altra parte, x → 0 per 

t → ∞ perché altrimenti l’indice da minimizzare divergerebbe. 

5.8 Proprietà della matrice hamiltoniana 

Dimostriamo che la dinamica delle p è uguale ed opposta a quella delle x : 

54 

−1 T 

⎧x& 

= Ax + BR B p 

⎨ 

T 

⎩p& 

= Qx − A p 

Calcoliamo gli autovalori della matrice hamiltoniana: 

−1 T 

−1 

T 

T 

⎡sI − A − BR B ⎤ ⎡0 

− I⎤⎡sI − A − BR B ⎤⎡0 

− I⎤ 

⎡ − sI − A − Q ⎤ 

det⎢ 

T ⎥ = − det⎢ 

T 

det 

T 

⎣ − Q sI + A ⎦ ⎣I 

⎥⎢ 

⎥⎢ 

⎦⎣ 

− Q sI + A ⎦⎣I 

⎥ = − ⎢ −1 

⎥ = 

0 

0 ⎦ ⎣− BR B − sI + A⎦ 

−1 

⎡− sI − A − BR B 

= − det⎢ 

⎣ − Q − sI + A 

perchè il determinante di una matrice è uguale a quello della sua trasposta. 

Quindi, se il polinomio caratteristico della matrice hamiltoniana ha un autovalore λ essa ha 

anche l’autovalore − λ . Siccome il sistema iniziale è stabile per ipotesi (altrimenti si avrebbe 

che J → ∞ ) e p ha le stesse dimensioni di x , il sottosistema in x ha gli autovalori a parte 

reale negativa, mentre il sottosistema in p ha gli autovalori a parte reale positiva 

(l’andamento delle p è instabile). 

Possiamo effettuare un’altra dimostrazione. Supponiamo che [ ] u w T sia un autovettore della 

matrice hamiltoniana e che λ sia l’autovalore associato: 

T 

T 

⎤ 

⎥ 

⎦


−1 T 

⎡A BR B ⎤ u u 

⎢ 

⎥ ⎡ 

⎣Q 

− A ⎦⎣ ⎢ 

⎤ 

w 

⎥ = ⎡ 

⎦ ⎣ ⎢ ⎤ 

T 

λ 

w 

⎥ 

⎦ 

⇓ 

−1 T 

⎧Au + BR B w = λu 

⎨ 

T 

⎩ Qu − A w = λw 

Se esiste un autovalore λ con autovettore destro associato [ u w] 

T esiste l’autovalore − λ con 

T T 

autovettore sinistro associato [ w − u ] : 

−1 

⎡A BR B 

T T 

T T 

[ w − u ] ⎢ 

T ⎥ = −λ[ w − u ] 

⎣Q 

− A ⎦ 

⇓ 

T T T 

⎧ w A − u Q = −λw 

⎨ −1 

⎩w BR B + u A = λu 

T T T T T 

Quindi, − λ è un autovalore della matrice hamiltoniana. 

Un’ulteriore dimostrazione è la seguente. La matrice A BR −1 B T 

⎡ 

⎤ 

⎢ 

T ⎥ può essere trasformata 

⎣Q 

− A ⎦ 

per similitudine nel seguente modo: 

T 

⎤ 

⎡ I 

⎢ 

⎣P 

−1 T 

−1 T 

−1 

T 

0⎤⎡A BR B ⎤ I 0 A BR B P BR B 

I 

⎥⎢ 

1 1 

⎦⎣Q 

− A ⎦ 

⎥ ⎡ ⎤ ⎡ − 

T ⎢ 

⎣ − P I 

⎥ = ⎢ 

− 

⎦ ⎣Q + PA + A P − PBR B P − A − BR B P 

− 

( ) 

T T T T 

⎤ 

⎥ 

⎦ 

⎡ I 0⎤ 

I 0 1 

dove ⎢ 

⎣− 

P I 

⎥ = ⎡ − 

⎦ ⎣ ⎢ 

⎤ 

P I 

⎥ . La matrice P è soluzione dell’equazione di Riccati e quindi annulla 

⎦ 

la sottomatrice in basso a sinistra. In questo modo gli autovalori della matrice sono quelli dei 

due blocchi sulla diagonale (gli autovalori del blocco in alto a sinistra sono uguali a quelli del 

blocco in basso a destra cambiati di segno). 

5.9 Luogo simmetrico delle radici 

T 

Se abbiamo un sistema SISO, u Ru = ru 

L’indice di qualità può essere scritto come: 

2 

(scalare) e Q 

= c T c , dove c è un vettore riga. 

J = 

dove v = cx , v ∈R . 

La matrice hamiltoniana diventa la seguente: 

∞ 

∫ 

0 

T T 

2 

x c cx + Ru 1 dt = ∫ ( v 

2 

+ ru 

2 

) dt 

2 2 

∞ 

0 

55


⎡ 

⎢ A 

⎢ T 

⎣c c 

bb 

r 

− A 

T 

T 

⎤ 

⎥ 

⎥ 

⎦ 

che ha polinomio caratteristico dato da: 

Possiamo calcolare: 

⎧ 

⎪⎡( sI 

− A) 

= det⎨⎢ 

⎩ 

⎪⎣ 

0 

T 

⎡ 

det s bb 

⎢ I − A − 

⎢ 

r 

T 

⎣ − c c sI + A 

⎧ 

a ( ) ( ) ( ) 

c 

s a 

c 

− s ⎪⎡ 

sI 

− A 

= det⎨⎢ 

a ( s) a ( s) 

o 0 

− ⎣ 

⎩ 

⎪ 0 

−1 

0 

T 

( sI 

+ A ) 

−1 

T 

0⎤⎡I 

⎥⎢ 

I⎦⎣0 

⎤ 

⎥ a ( s) a ( s) 

c c 

⎥ = − = 0 

⎦ 

0 

T 

( sI 

+ A ) 

−1 

T 

⎡ 

⎤ 

bb ⎤⎫ 

⎢sI 

− A − ⎥⎪ 

⎥ 

r ⎬ = 

⎦⎢ 

T 

T ⎥ 

⎣ − c c sI + A ⎦⎭ 

⎪ 

T 

⎤ 

⎡ bb ⎤⎫ 

⎡ 

−1 

s − − 

( s ) 

⎥ 

⎢ I A ⎥⎪ 

− − 

−1 

r ⎬ = det 

⎢ I I A bb 

T 

T 

⎦ 

⎢ 

⎥ ⎢ 

r 

⎣ − c c sI + A ⎦⎭ 

⎪ 

T −1 

T 

⎣⎢ 

− ( sI − A ) c c I 

T 

⎡ 

⎤ 

T T 

− 

= ⎢I − ( sI + A ) c c( sI − A ) 

bb 1 

det 

⎥ 

⎣ 

r ⎦ 

T 

⎤ 

⎥ 

⎥ 

= 

⎦⎥ 

dove a ( s) 

0 

è il polinomio caratteristico a ciclo aperto. Si può dimostrare che 

det 

[ I 

n× n 

Pn× rQ r× n ] det[ Ir× r 

Q 

r× nPn× 

r ] 

+ = + . Otteniamo: 

T 

− 

Definendo G( s) = c ( sI − A) 

1 b otteniamo: 

T 

T 

perché ( − s − ) 

b I A c 

a ( ) ( ) 

c 

s a 

c 

− s ⎡ T T T 

−1 

⎤ 

= det − ( s + ) ( s − ) 

a ( s) a ( − s) 

⎣ 

⎢1 1 b I A c c I A b 

r 

⎦ 

⎥ 

o 

0 

( ) ( − ) 

( ) ( − ) 

−1 −1 

[ b ( sI A ) c c( sI A) 

b] 

a 

c 

s a 

c 

s 

T T T 

= 1− 1 + − = 

a s a s r 

0 0 

T T 

−1 T 

−1 

[ b ( sI A ) c c( sI A) 

b] ( ) ( s ) 

= 1+ 1 − − − = 1+ 1 

r 

r G s G − 

−1 

[ ] 

è uguale ad c T 

−1 

( sI − A) 

b 

pratica è la funzione di trasferimento che lega la v alla u . Annullando 

T 

sostituendo s con − s. La G( s ) in 

a 

c( s) a 

c( − s) 

si ottiene 

a ( s) a ( − s) 

0 0 

il luogo simmetrico delle radici che indica l’andamento dei poli a ciclo chiuso: alcuni poli 

descrivono la dinamica delle x e gli altri (che non ci interessano) descrivono la dinamica delle 

p . Siccome i poli sono a simmetria quadrantale il baricentro del luogo delle radici sarà sempre 

l’origine. 

56


5.10 

Esempi 

5.10 

10.1 

Filtro di Butterworth 4 

Si abbia un sistema con due poli immaginari puri in ± j: 

G( s) 

= 

s 

2 

1 

+ 1 

In questo caso G( s) = G( − s) 

e otteniamo il seguente luogo delle radici: 

1+ 

1 1 r s 1 

( + ) 

2 2 

= 0 

2 

1.5 

1 

asse immaginario 

0.5 

0 

-0.5 

-1 

-1.5 

-2 

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 

asse reale 

La dinamica instabile (quella relativa ai rami a parte reale positiva) è quella delle p . 

5.10 

10.2 

Sistema a fase non minima 

Si abbia un sistema caratterizzato dalla seguente f.d.t.: 

s − 2 

G( s) 

= 

( s + ) 

Otteniamo il seguente luogo simmetrico delle radici: 

1 2 

1 1 s − 2 s + 2 

− 

r ( s + 1) ( s − 1) 

2 2 

= 0 

4 I poli dei filtri di Butterworth sono disposti lungo le bisettrici dei quattro quadranti. 

57


3 

2 


1 

0 

-1 

-2 

-3 

-4 -3 -2 -1 0 1 2 3 4 

asse reale 

Se r → 0 un polo del sistema va a − ∞ ed l’altro va a − 2 (immagine speculare dello zero in 

2 ). Anche se si spinge il guadagno, lo zero limita le prestazioni del sistema (la banda passante 

del sistema è limitata dallo zero). 

5.10 

10.3 

Sistema a fase minima 


s + 2 

G( s) 

= 

( s + ) 

Otteniamo lo stesso luogo delle radici relativo all’esempio precedente: 

1 2 

1 1 s + 2 s − 2 

− 

r ( s + 1) ( s − 1) 

2 2 

= 0 

Se r → 0 il polo va verso zero in − 2 . 

5.10 

10.4 

Si abbia il seguente sistema: 

58 

&x = ⎡ 0 1 

x 

⎣ ⎢ ⎤ 

⎥ + ⎡ 0 

⎦ ⎣ ⎢ ⎤ 0 0 1⎦ ⎥u 

y = 

[ − ] 

1 1 x 

con x = [ x x ] 

T 

1 2 

. L’indice da minimizzare sia quindi il seguente: 

Otteniamo: 

2 

2 

[( ) ] 

∞ 

∫ 1 2 

0 

J = x − x + ru dt


( ) = ( s − ) = [ − ] ⎢ ⎥ ⎢ ⎤ [ ] [ ] 

⎦ ⎥ = − ⎢ ⎥ ⎡ ⎣ ⎢ ⎤ − 

c I A b 1 1 

⎦ ⎥ = − 

G s 

− 

⎡s 

− 1⎤ 

1 

⎡0 

1 

⎣0 

s ⎦ ⎣1 

Otteniamo il seguente luogo simmetrico delle radici: 

( )( ) 

1 1 1 − s 1 + s 

1 1 s − 

+ 

1 s + 1 

2 2 = − 

4 

= 0 

r s s r s 

⎡s 

⎤ 

⎡ s 

1 1 1 1 0 

s ⎣ s⎦ 

s 

⎢ ⎤ ⎣s⎦ ⎥ = 

− 

2 

1 1 1 1 1 

2 2 

0 1 

s 

1.5 

1 


0.5 

0 

-0.5 

-1 

-1.5 

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 

asse reale 

Calcoliamo le coordinate dei due punti doppi: 

4 1 1 

s = s 1 

+ − s + 1 

⇒ s 2 = 2 ⇒ s = ± 2 

Se r viene spinto all’infinito otteniamo un doppio integratore. 

5.10 

10.5 

Sistema instabile a ciclo aperto 


G( s) 

= 

1 

s( s − 2) 

Il luogo simmetrico delle radici è il seguente: 

1+ 

1 1 2 

r s ( s − 2)( s + 2) 

= 0 

59


3 

2 


1 

0 

-1 

-2 

-3 

-4 -3 -2 -1 0 1 2 3 4 

asse reale 

Al limite si ottiene un filtro di Butterworth. 

5.10 

10.6 


s + 1 

G( s) 

= − 

s( s − 1) 

Si ottiene il seguente luogo simmetrico delle radici: 

1 1 1 s + 1 s − 1 

− 

2 

0 

r s s − 1 s + 1 

= 

1.5 

1 


0.5 

0 

-0.5 

-1 

-1.5 

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 

asse reale 

I due poli e zeri in ± 2 si cancellano. Ci interessa solo il ramo del luogo delle radici che giace 

sul semiasse reale negativo (l’altro ramo è relativo alla dinamica delle p ). 

Otteniamo un controllo a banda larghissima (dipende da r ). 

60


5.10 

10.7 

Approssimazione di un ritardo 


s − 1 

G( s) 

= − 

s( s + 1) 

Otteniamo lo stesso luogo delle radici relativo all’esempio precedente: 

5.10 

10.8 

1 1 1 s + 1 s − 1 

− 

2 

0 

r s s − 1 s + 1 

= 

Si abbia un sistema con un polo nell’origine, due poli immaginari puri in ± j ed un polo in 

− 1: 

G( s) 

= 

s + 1 

2 

( + 1) 

s s 

Si ottiene il seguente luogo simmetrico delle radici: 

1 1 ( s + 1 )( s − 1 ) 

+ 

2 2 2 

r s s + 1 

( ) 

= 0 

1.5 

1 


0.5 

0 

-0.5 

-1 

-1.5 

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 

asse reale 

5.11 

Metodo di Potter per ricavare la soluzione 

dell’equazione di Riccati 

Possiamo effettuare una decomposizione spettrale della matrice hamiltoniana separando gli 

autovalori a parte reale negativa da quelli a parte reale positiva: 

61


⎡X 

⎢ 

⎣X 

− 

Y 

Y 

− 

+ + 

−1 T 

⎤⎡A BR B ⎤ ⎡S 

0 ⎤ X 

⎥⎢ 

⎥ = ⎢ 

⎦⎣Q 

− A ⎦ ⎣ − S 

⎥ ⎡ T 

0 ⎦⎣ ⎢ X 

⇓ 

X A + Y Q = −SX 

+ + + 

−1 T T 

− 

+ 

= − 

+ 

X BR B Y A SY 

+ 

⇓ 

− 

Y 1 − 

X BR 1 T T − 

B − A = −Y 1 SY 

+ 

+ 

(5.5) − 1 T −1 

( ) 

− 

Y 

Y 

− 

+ + 

T 

A − BR B Y X = Y SY 

+ 

+ + 

T 

−T 

+ + + 

− 

dove A = ( A 

− 

) 

−1 

T 

autovalori a parte reale negativa. La matrice ( Y+ 

X 

+ ) 

−1 T 

−1 

in modo tale che A − BR B P avesse autovalori a parte reale negativa. Ma se ( Y+ 

X ) 

siccome P = P 

−1 T 

−1 

, allora ( Y+ 

X 

+ ) = Y+ 

X 

+ 

. 

−1 Moltiplicando ambo i membri della (5.5) a sinistra per ( Y X 

T 

) 

−1 

= Y X 

T T 1 

. La matrice a primo membro è simile alla matrice S che contiene tutti gli 

dalla (5.5) otteniamo l’equazione di Riccati: 

− 

( + ) 

⎤ 

⎥ 

⎦ 

è uguale a P poiché avevamo scelto P 

+ 

+ + 

−1 −1 −1 T 1 

T −T T −T 

Y X A − Y X BR B Y X = X Y Y SY = 

+ 

+ + 

+ 

+ + + 

+ + 

T −T T T −T T −T T T −T 

= X SY = −A X Y − QY Y = −A X Y − Q 

+ + 

+ + 

⇓ 

−1 

T T 

− PBR B P + A P = −PA − Q (equazione di Riccati) 

perché S = S 

T e Q = Q 

T . 

Per risolvere il sistema di equazioni differenziali di Riccati basta calcolare X + 

ed Y + 

. 

T 

+ + 

+ + 

+ 

T 

+ 

= 

P , 

e ricavando SX + 

5.12 

Scelta di R e Q 

Si abbia il seguente indice di qualità da minimizzare: 

T 

( u T 

Ru ) 

J = ∫ x Qx + 

Possiamo scegliere R e Q diagonali. In genere all’inizio si pone Q = R = I e poi, se qualcosa 

nel controllo non va bene, ad esempio se un ingresso è troppo grande, vengono “aggiustate” le 

componenti di R . 

Nell’integrale otteniamo la seguente somma: 

2 

2 2 2 

q x + q x + K+ q x + r u + r u + K+ 

r u 

11 1 

22 2 

dt 

2 2 

nn n 11 1 22 2 nn n 

Le varie variabili hanno in genere dimensioni diverse. Conviene dividere q ii 

per x iNOM 

ed r ii 

per u iNOM 

. In questo modo le variabili perdono le loro dimensioni. 

62


5.13 

Controllo switching 

Si abbia il seguente sistema SISO: 

&x = Ax + bu 

con x( 0) 

x0 

A, b sia controllabile. 

Il nostro obiettivo è quello di passare da x 0 

ad x f 

(stato finale) nel minore tempo possibile. 

Per far questo possiamo introdurre un’ulteriore variabile x n+1 

tale che &x n+ 1 

= 1, con 

x n+ 

( 0) 

= 0 . Occorre quindi minimizzare x ( t n+1 f ) . Otteniamo: 

1 

= . Il segnale di controllo abbia il vincolo u < 1 e la coppia ( ) 

T 

( ) & ( ) 

T 

H = p Ax + bu + p 

n 

x 

n 

= p Ax + bu + p n 

&p = − ∂H 

∂x 

= −A T 

p 

∂H 

&p 

n+ 

1 

= − = 0 

∂x 

+ 1 + 1 + 1 

Dobbiamo risolvere un sistema di 2n + 2 equazioni (abbiamo n variabili in x , n variabili in 

p e inoltre x n+1 

e p n+1 

). 

Le condizioni iniziali e finali sulle x sono specificate quindi non bisogna porre delle 

condizioni sulle p . 

La u si ricava massimizzando l’hamiltoniano: 

T 

perchè p Ax 

max 

u 

non dipende da u e p n+ 

= 

1 

cost . 

n+ 

1 

T T 

T 

( p Ax + p bu + p ) = max( p bu) 

Se non abbiamo vincoli sulla u possiamo portarla all’infinito per massimizzare l’espressione di 

sopra. Ma deve essere u < 1, quindi: 

u 

ottima 

n+1 

T 

( t) = sgn[ p b] 

(p T b è uno scalare). 

Il controllo deve sempre essere mantenuto al massimo (in valore assoluto). Questo tipo di 

controllo viene detto controllo switching. Per un sistema del secondo ordine abbiamo il 

seguente andamento della u( t ) : 

u 

63


Se la matrice A è ad autovalori reali si dimostra che il numero di commutazioni nel periodo è 

pari all’ordine del sistema meno 1. 

Ad esempio, consideriamo un sistema che è un doppio integratore con controllo ± u : J&&θ = u . 

t 2 

0 

Scaliamo le variabili in modo che sia && θ = ±1. Otteniamo θ & = t e θ = + θ 

2 

θ & 2 

θ = + θ (otteniamo delle parabole): 

2 

0 

⇒ 

Se && θ = −1 le parabole sono rivolte al contrario: 

Otteniamo una serie di commutazioni: 

Il tempo di percorrenza è dato da 

T 

∫ 

dt = 

θf 

∫ 

0 θ0 

dθ 

θ& 

perché & θ 

θ 

= d dt 

e dt 

d 

= θ θ & . 

64


Nel caso di una sola commutazione il valor medio di & θ è maggiore e quindi è minore il valor 

medio di 1 & θ 

: 

Quindi, il tempo di percorrenza è minore con numero minore di commutazioni. 

Per realizzare un controllo di questo tipo occorre possedere un meccanismo di commutazione 

molto accurato. Per ovviare a questo problema si può effettuare un controllo in 

controreazione: leggendo i valori di θ e & θ si può sapere se si è sui due rami di parabola della 

figura seguente e commutare: 

La curva di sopra divide il piano θ − θ & in due regioni. Se si commuta dopo aver superato la 

curva si può recuperare l’errore: 

65


L’unico problema è conoscere la curva di commutazione (in genere nello spazio si ha 

un’ipersuperficie di commutazione). 

Possiamo sostituire la curva di commutazione con una retta, ma non avremo un sistema che 

funziona in modo ottimale: 

Ci si può fermare quando si ha un errore minore di un certo valore prefissato. 

Se un sistema ha due poli reali distinti si ha un comportamento del seguente tipo: 

Se il sistema risponde velocemente alla commutazione si ha il chattering: non appena la retta 

viene oltrepassata si ha una commutazione (praticamente il sistema si “inchioda” sulla retta). 

Quando il sistema si “inchioda” sulla retta la sua evoluzione è data da θ & + cθ 

= 0 , cioè 

66


θ = e −ct 

ma il valore di c può essere scelto dal progettista. Quindi, il sistema si comporta come 

se fosse del primo ordine e come se i suoi parametri fossero quelli imposti. 

La linea di commutazione può anche non essere una retta: 

In questo modo non viene mai superato il valore massimo della velocità & θ . Quindi, in questo 

modo possono essere anche risolti i problemi di robustezza. 

La tecnica di controllo illustrata in questo capitolo è detta a struttura variabile (Variable 

Structure Systems o VS Control). 

5.14 

Gramiano di controllabilità 

Si abbia il seguente sistema: 

&x = Ax + Bu 

con x( ) = x e x( T) 

= x . L’indice di qualità sia tale da minimizzare la spesa per il controllo: 

0 

0 

f 

J 

T 

1 

T 

= ∫ u Rudτ 

2 0 

Otteniamo: 

T T 

1 

T 

H = p Ax + p Bu − u Ru 

2 

&p = −A T p 

−1 T 

$u ( t) = R B p( t) 

La soluzione di &p = −A T p è p( t) 

T t 

A 

= e 

− p 

0 

ma non conosciamo p = p ( ) . Otteniamo: 

0 

0 

−1 

− A 

$u = R B T T 

e p 

0 

p 0 

è un vettore di parametri che bisogna imporre in modo tale che il sistema all’istante t f 

vada nello stato x f 

: 

T 

T 

A A A 

0 ∫ 

0 

A 

∫ 

A T 

0 

0 

t 

( t ) ( ) 

( ) = + ( ) = + 

−τ t t−τ −1 

T − τ 

x t e x e Bu τ dτ e x e BR B e p dτ 

0 

67


( ) 

AT 

AT 

−Aτ 

−1 

T −A 

τ 

x = x T = e x + e e BR B e dτ 

⋅p 

f 

0 

T 

∫ 

0 

− 

e A T 

− − T − − T T − 

− = e A τ 1 

e A τ 

d ⋅ = e A τ 

x x BR B p BMM B e A τ 

τ 

dτ 

⋅p 

f 

0 

T 

∫ 

0 

0 0 

T 

−1 dove R = MM 

T ( R è una matrice simmetrica d.p.). La matrice sotto il segno di integrale è 

almeno s.d.p. se la coppia ( A, B) 

è completamente controllabile: integrando otteniamo una 

matrice sicuramente d.p.. 

La matrice G ( ) 

c 

t 

∫ 

0 

T 

−Aτ 

T T −A 

τ 

t = e BMM B e dτ 

è il gramiano di controllabilità. Si ottiene: 

AT 

1 

( T)[ e ] ( ) 

1 

p = G x − x = G 

0 

− − − 

c 

f 0 c 

T 

−1 T −A 

t −1 

( t) = e ( T) 

$u R B G 

In questo modo possiamo ricavare p 0 

e quindi $u . 

Se x f 

= 0 otteniamo: 

Il J ottimale è dato da: 

T 

T A t 

( t) = − − e − ( T) 

$u R B G x 

c 

T 

∫ 

ξ 

1 

c 0 

T 

T 

1 

T 

⎡ 

T ⎤ 

T −1 −At −1 −1 T −A t −1 

1 

T −1 −At −1 

T −A 

t −1 

J = ξ ∫ G 

c 

( T) e BR RR B e G 

c 

( T) dt ⋅ ξ = ξ G 

c 

( T) ⎢∫ 

e BR B e dt⎥ G 

c 

( T) 

ξ = 

2 

2 

0 

⎣ 0 

⎦ 

1 

T −1 −1 1 

T −1 

= ξ G 

c 

( T) G 

c( T) G 

c 

( T) ξ = ξ G 

c 

( T) 

ξ 

2 

2 

T 

T ξ 

0 

T 

0 

1 

T − 

Se x f 

= 0, otteniamo J = x G ( T) 

x . Se gli autovalori di ( ) 

1 

c 

2 0 

0 

G c 

T sono grandi la spesa per il 

controllo sarà piccola. 

−1 

G ( ) P( ) 

c 

t = t è la soluzione dell’equazione di Riccati. Infatti, se Q = 0 , l’equazione di Riccati è 

data da: 

T 

−1 

T 

− &P = A P + PA − PRR B P 

⇓ 

−1 −1 −1 −1 −1 

− P PP = P A + AP − RR B 

⇓ 

−1 

d( P ) 

−1 T −1 −1 

T 

= P A + AP − BR B 

dt 

⇓ 

T 

−1 

T 

&X = XA + AX − BR B 

& T T 

che ha soluzione data da X = G ( t ) ⇒ P( 

t) 

G −1 

( t) 

c 

= . 

c 

68


Supponendo che sia x f 

= 0, possiamo ricavare il controllo in controreazione (all’istante t = 0 ) 

che porta il sistema a 0 in un tempo T : 

−1 T −1 

T 

u( 0) = − R B G ( T) x( 0) = −k ( 0) x( 0) 

c 

Si potrebbe utilizzare sempre k( 0 ) ottenendo il controllo u( t) = −k T ( 0 ) x( t) 

. La soluzione 

ottenuta in questo modo, che non è ottima, è detta legge di controllo ad orizzonte sfuggente o 

recessivo (receding horizon) perché si utilizza sempre la matrice k( 0 ) che porta a 0 il sistema 

(all’istante t = 0 ): è come se si traslasse l’orizzonte di controllo. In questo modo non c’è più la 

garanzia che dopo un certo tempo si raggiunge la posizione desiderata. La matrice k( 0 ) , 

inoltre, potrebbe anche destabilizzare il sistema. 

−1 T −1 

La matrice a ciclo chiuso A A BR B G ( ) 

c 

= − 

c 

T ha gli autovalori a parte reale negativa. Per 

dimostrare questo basta dimostrare che l’equazione di Lyapunov è soddisfatta, tenendo conto 

−1 

del fatto che G ( ) P( ) 

c 

t = t : 

T 

A P + PA = −Q 

c 

⇓ 

T −1 T −1 T T −1 

T 

A P − PBR B P + PA − PBR B P = A P + PA − 2PBR B P = 

T 

~ −1 

T 

= A P + PA − PBR B P = −Q 

dove R 

~ = 2 R . 

Variando il valore di T cambia il gramiano e, se T aumenta, aumenta (in norma) anche il 

gramiano (è un integrale di matrici d.p.). Se la norma di G c 

( T ) cresce al crescere di T , quella 

−1 

di G c 

( T) 

(e quindi quella di u ) decresce al crescere di T . 

Se una componente di u è troppo elevata per il controllo possiamo modificare la matrice R 

“giostrando” lo sforzo sui vari canali oppure possiamo aumentare il tempo T . 

c 

69

Applicazione ai sistemi tempo-discreti 

6. APPLICAZIONE AI SISTEMI TEMPO- 

DISCRETI 

6.1 Equazione di Riccati 

Consideriamo un sistema lineare tempo-discreto: 

x 

+ 1 

= Ax + Bu 

k k k 

con x( ) = x e cerchiamo una legge di controllo che minimizzi il seguente indice di qualità: 

0 

0 

N−1 

1 

T 

1 

J = x 

NFx N 

+ x Qx + u Ru 

2 2 0 

T 

T 

∑ ( i i i i ) 

con F , Q ed R simmetriche almeno s.d.p. ( R sia d.p.). Supponiamo che la coppia ( A B) 

completamente controllabile. 

Applichiamo i moltiplicatori di Lagrange all’indice di sopra: 

i= 

N−1 

∑[ i 

( )] 

T 

T 

i i i 

2 

i+ 1 i i i+ 

1 

1 

T 

1 

J = x 

NFx N 

+ x Qx + u Ru + p Ax + Bu − x 

2 2 

i= 

0 

, sia 

Se siamo in corrispondenza della posizione ottimale, J è minimo e, se imponiamo una 

variazione di alcune variabili, deve essere dJ = 0: 

N−1 

T 

T 

T 

T 

T 

( N N ) N ∑( i i+ 

1) i ∑( i 

i+ 

1) 

i ∑ 

T 

dJ = Fx − p dx + Ru + B p du + Qx + A p dx + p dx 

= 

i= 

0 

N−1 

T 

T 

T 

T 

( N N ) N ∑ ( i i+ 

1) i ∑ ( i 

i+ 

1 i ) 

= Fx − p dx + Ru + B p du + Qx + A p − p dx 

= 0 

i= 

0 

N−2 

N−1 

N−1 

N−1 

∑ i+ 1 i+ 

1 ∑ j j ∑ i i ∑ 

i= 

0 

j= 

1 

i= 

1 

i= 

0 

T 

T 

T 

T 

perché p dx = p dx = p dx = p dx 

i 

N−1 

i= 

0 

i 

N−1 

scegliere le u i 

e le p i 

opportunamente in modo che sia dJ ≡ 0. 

Annulliamo tutti i termini: 

p 

N 

= Fx 

N 

T 

i= 

0 

$u 

i 

= −R − 1 

B p 

i+ 

1 

T 

p 

i 

= Qx 

i 

+ A pi+1 

N−2 

i= 

0 

T 

i 

i+ 1 i+ 

1 

( dx 0 

= 0: x 0 

è fissato). Possiamo 

71


Quindi: 

72 

−1 

T 

x = Ax − BR B p 

i+ 

1 

i 

Per poter trovare la soluzione ottima abbiamo dovuto aggiungere altre variabili p . 

Abbiamo il problema di dover integrare parte delle equazioni in avanti e parte all’indietro. Ma 

A è in genere invertibile perché spesso i sistemi tempo-discreti sono ottenuti da 

H 

discretizzazioni di sistemi tempo-continui ( A = e T , dove H è la matrice dinamica del 

sistema tempo-continuo). Quindi: 

i+ 

1 

−T 

−T 

p = − A Qx + A p 

i+ 

1 

T 

T 

T T 

( ) ( ) 

−1 T − − −1 − −1 

T −T 

x = Ax − BR B − A Qx + A p = A + BR B A Q x − BR B A p 

i+ 

1 

i 

i 

Se conosciamo p 0 

quest’equazione può essere integrata in avanti. Otteniamo: 

⎛x 

⎜ 

⎝p 

k 

k 

⎞ 

⎟ = ⎡ ⎠ ⎣ ⎢ 

Φ 

Φ 

i 

i 

( k, h) Φ ( k, 

h) 

( k, h) Φ ( k, 

h) 

11 12 

21 22 

i 

⎤ x 

h 

⎥ ⎛ ⎦⎝ ⎜ ⎞ 

⎟ 

p 

h⎠ 

La trattazione è del tutto generale (è valida anche per sistemi tempovarianti), per questo le 

Φ ij 

( k, h) 

sono funzioni di due istanti di tempo. 

La matrice dinamica è la seguente: 

Otteniamo: 

1 1 

⎡A + BR B A Q − BR B A 

⎢ 

T 

−T 

⎣ − A Q 

A 

− T −T − T −T 

( N, i) Φ ( N, 

i) 

Φ ( N, i) Φ ( N, 

i) 

⎤ 

⎥ ∈R 

⎦ 

p = Φ x + p = Fx 

N 21 i 22 i N 

x = x + p 

N 11 i 12 i 

2n× 

2n 

⇓ 

FΦ N, i − Φ N, i x = Φ N, i − FΦ 

N, 

i p 

[ 11( ) 

21( )] i 22 

( ) 

12 

( ) 

⇓ 

[ ] 

−1 

[ Φ22 ( N, i) Φ12 

( N, i) 

] Φ11( N, i) Φ21( N, 

i) 

[ ] 

p = − F ⋅ F − x 

i 

Le p i 

possono scriversi in funzione delle x i 

tramite una matrice di dimensione n × n (in 

generale dipendente dal tempo). Nel caso dei sistemi tempo-continui era p( t) = P( t) x( t) 

con 

P( t ) soluzione dell’equazione di Riccati. Nel caso dei sistemi tempo-discreti possiamo quindi 

scrivere: 

p 

= P x con P F 

i i i 

Le matrici P i 

vengono chiamate matrici o trasformazioni di Riccati. P i 

in genere è 

tempovariante e può essere calcolata in modo esplicito perché le matrici ( k h) 

conosciute. 

N = 

i 

i 

i 

Φ ij 

i 

, sono


Otteniamo: 

T 

p 

i 

= Qx 

i 

+ A p ⇒ P x Qx A T 

P x 

i+1 i i 

= 

i 

+ 

i+ 1 i+ 

1 

−1 

T 

−1 

T 

x = Ax − BR B p ⇒ x = Ax − BR B P x 

i+ 

1 

i 

i+ 

1 

i+ 

1 

( + − 1 T 

+ 1) 

+ 1 

= 

T 

−1 

T 

i 1( i 1) 

I BR B P x Ax 

i i i 

P x = Qx + A P I + BR B P Ax 

i i i 

+ 

⇓ 

+ 

−1 

−1 

T 

( i 1) 

T 

P = Q + A P I + BR B P A 

i 

i+ 

1 

Se è nota P i+1 

si calcola P i 

partendo dalla condizione P 

n × n . 

Si può dimostrare che: 

N = 

+ 

i 

i 

−1 

vera ∀x i 

T 

−1 

T 

[ i+ 1 i+ 1 ( i+ 

1 ) i+ 

1] 

T 

P = Q + A P − P B R + B P B B P A 

i 

(equazione di Riccati per i sistemi tempo-discreti). Infatti: 

−1 

T 

−1 

T 

T 

( + ) = − ( + ) 

i+ 1 i+ 

1 

F . P i 

è una matrice di dimensione 

−1 

T 

[ i+ 1 i+ 1 i+ 

1 

i+ 

1] 

T 

A P I BR B P A A P P B R B P B B P A 

i+ 

1 

i+ 

1 

−1 

T 

−1 

T 

−1 

T 

Pi+ 

1( I + BR B Pi+ 

1) = Pi + 1 

− Pi+ 1B( R + B Pi+ 

1B) 

B Pi+ 

1 

( I + BR 1 T 

−1 

T 

−1 

T 

B Pi 

+ 1) = I − B( R + B Pi+ 

1B) 

B Pi 

+ 1 

( + 1 T 

−1 

T 

−1 

−1 

T 

T 

− 

i+ 

1)( + 

i+ 

1) = ( + 

i+ 1) − ( + 

i+ 

1 ) 

= − 

T 

−1 

T 

−1 

T 

−1 

T 

T 

( + 

i+ 

1 ) i+ 

1 

+ 

i+ 

1 

− 

i+ 1 ( + 

i+ 

1 ) 

( 

T 

−1 

T 

−1 

T 

−1 

T 

T 

−1 

i+ 

1 ) i+ 

1 

i+ 

1 

i+ 1 ( i+ 

1 ) 

T 

T 

−1 

−1 −1 

T 

T 

−1 

− ( R + B Pi 

1B) + R − R B Pi 

1B( R + B Pi 

1B) 

= 0 

⇓ 

1 

T 

[ i+ 

1] 

I BR B P I BR B P I BR B P I B R B P B B P 

T 

I I B R B P B B P BR B P BR B P B R B P B B P 

− B R + B P B B P + BR B P − BR B P B R + B P B B P 

i + 

= 

+ 

+ + 

−1 

T 

i+ 

1 

0 

−1 

T 

− I + I + R B P B − R B P B = 

i+ 

1 

T 

m× 

n 

In questo modo viene richiesta l’inversione della matrice R + B Pi+ 

1 

B ∈R , dove m è il 

numero degli ingressi ed n è il numero delle variabili di stato. Di norma è m < n . Se m = 1 

abbiamo solo uno scalare da invertire. 

P risulta d.p. perché è somma di matrici simmetriche reali almeno s.d.p. (perché P = N 

F è 

reale simmetrica almeno s.d.p.) 1 . 

Se R = r I e r → ∞ significa che non si vuol spendere nulla per il controllo ( u ≡ 0 ). La 

soluzione che si ottiene è quella di lasciare il sistema in evoluzione libera: 

T 

Pi 

= Q + A Pi+1A 

−1 

i+ 

1 

1 

0 

1 Per questioni di tipo numerico può darsi che durante i vari passi la matrice P i 

non risulti sempre d.p.. Esistono 

dei metodi che tendono a minimizzare questo inconveniente. Ad esempio, la matrice P i 

può essere scritta come 

T 

P = M M . Ad ogni passo deve essere calcolata la matrice M i 

invece della matrice P i 

. 

i i i 

73


+ 

i 

→ 0. Portiamo il numero di passi all’infinito. Se il sistema è stabile gli 

autovalori di A sono in modulo minori di 1 e la matrice P i 

è convergente: Pi+ 1 

= Pi 

= P per 

i → ∞ . La soluzione di regime si ottiene risolvendo l’equazione: 

T 

perché ( R B P B) 

− 1 

P = Q + A T PA ⇒ P − A T PA = Q (equazione di Lyapunov per i sitemi tempodiscreti) 

In questo caso è: 

∞ 

x Q x x P T 

T 

∑ i i 

= x 

2 2 

i= 

0 

0 0 

Infatti: 

Possiamo porre ( x ) 

Quindi V( ) 

∞ 

∞ 

∞ 

∞ 

∞ 

∑ i i ∑ i i ∑ i 

i ∑ i i ∑ 

i= 

0 i= 

0 i= 

0 i= 

0 

i= 

0 

i 

x T Qx x T Px x T T 

A PAx x T 

T 

T 

= − = Px − x Px = x Px 

V i i 

T 

= 1 x Pix 

2 

i 

i+ 1 i+ 

1 

0 0 

ottenendo che ∆V < 0 se è soddisfatta l’equazione di Riccati. 

x è una soluzione dell’equazione di Lyapunov. Infatti: 

1 

T 

T 

1 

T T 

T 

1 

T 

∆V = V( x 

i+ 1) − V( x 

i ) = ( x 

i+ 1Pi+ 1xi+ 1 

− x 

i 

Pix i ) = ( x 

i 

A Pi+ 

1Ax i 

− x 

i 

P1x i ) = − x 

i 

Qx 

2 

2 

2 

La legge di controllo ottenuta in questo modo assicura la stabilità. 

−T 

Poiché p 

+ 

= A ( p − Qx ) 

i 1 i i 

e p 

i 

Pix 

i 

= , la legge di controllo nel caso generale è data da: 

( ) 

−1 

T −T 

u = −R B A P − Q x 

(controllo in controreazione). 

L’equazione di Riccati può anche essere scritta nel seguente modo: 

i 

T 

P = A G A + Q 

i 

T 

G 

i+ 1 

Pi+ 1 

Pi+ 1B R B Pi 

+ 1B B Pi+ 

1 

. Se 

A è stabile, l’orizzonte di controllo tende all’infinito e gli elementi di R tendono all’infinito, 

allora G i + 1 

tende a P i+1 

: 

T 

(in modo simile all’equazione di Lyapunov) dove = − ( + ) 

i+1 

T 

P = A P A + Q 

La matrice G i+1 

è reale simmetrica d.p. anche se contiene una differenza. 

i 

i+1 

i 

i 

−1 

i 

6.2 Indice di qualità 

L’indice di qualità è dato da: 

74


J k 

N−1 

⎛ T 

T 

N ∑ ⎜ i i i 

2 ⎝ 

i= 

k 2 2 

T 

⎞ 

= x F N 

x + x Q x + u R u 

i ⎟ 

⎠ 

⇓ 

J N 

= x F x = x P x 

N 

T 

T N 

2 

N N 

2 

N 

Il problema è quello di determinare il min 

u k 

J k 

. 

Cerchiamo una formula iterativa che leghi J N−1 

ad J N 

. J N−1 

è dato da: 

In questo caso bisogna calcolare il min 

tutta la sequenza u k 

. 

Poiché x 

N 

= Ax 

N 

+ Bu , allora: 

−1 N−1 J N −1 

= 

Q R x u u 

2 2 2 

T 

T 

T 

J N −1 = x F N 

x 

N 

+ x 

N−1 N−1 + 

N−1 N−1 

J N − 

u N −1 

T T T T 

( x A + u B ) P ( Ax + Bu ) 

N−1 N−1 N N−1 N−1 

1 , cioè bisogna solo scegliere l’ingresso u N−1 e non 

Q R 

+ x x + u u 

2 2 2 

Deriviamo l’espressione a secondo membro rispetto ad u N−1 

: 

∂ 

∂u 

Otteniamo: 

N−1 

⎡ 

⎢ 

⎣⎢ 

T T T T 

( x A + u B ) P ( Ax + Bu ) 

T 

T 

N−1 N−1 N−1 N−1 

N N N T 

Q R 

x 

N x u 

T 

+ 

N 

+ 

N u 

2 2 2 

N−1 N−1 −1 −1 

⇓ 

T 

B P Ax 

T 

+ B P Bu + Ru = 

N 

N−1 N N−1 N−1 0 

⇓ 

T 

( N ) 

T 

$u = − R + B P B B P Ax 

N−1 

−1 

−1 −1 −1 N−1 

N 

N−1 

⎤ 

⎥ 

⎦⎥ = 0 

T T T T 

T 

T 

( x 

N−1A + u 

N−1B ) PN ( Ax 

N−1 + Bu 

N−1) 

+ x 

N−1Qx N−1 + u 

N−1Ru 

N−1 

= 

T 

T 

T 

T T 

T 

T 

( N ) N N ( N ) N 

2 

N N N N ( N ) 

T T 

T 

−1 

T 

T T 

T 

−1 

T 

x 

N−1A PN 

B( R B PNB) 

B PNAx N−1 2 x 

N−1A PNB( R B PNB) 

B PN 

Ax 

N−1 

T 

T 

T 

T 

−1 

T 

T 

= x Q + A P A − A P B( R + B P B) 

B P A x = x P x 

T 

= x Q + A P A x + u R + B P B u + u B P Ax = x Q + A P A x + 

N−1 −1 −1 −1 −1 −1 −1 N−1 

+ + − 

N−1 

[ N 

N 

N 

] 

+ = 

N N−1 N−1 N−1 N−1 

Quindi: 

Si può dimostrare che in generale è: 

P 

2 

T N−1 

J N −1 = x N −1 

x 

N−1 

75


T i 

J i 

= x P i 

x 

2 i 

6.3 Proprietà della matrice hamiltoniana 

Abbiamo dimostrato che gli autovalori della matrice hamiltoniana di un sistema tempocontinuo 

sono simmetrici rispetto all’asse immaginario. Si può dimostrare che gli autovalori 

della matrice hamiltoniana di un sistema tempo-discreto sono speculari rispetto al cerchio 

unitario (se tale matrice ha un autovalore z ha anche l’autovalore 1 z ). 

Abbiamo dimostrato che valgono le seguenti relazioni: 

Se le condizioni iniziali sono nulle si ottiene: 

−1 

T 

⎧x i+ 

1 

= Ax 

i 

− BR B p 

⎨ 

T 

⎩p i 

= Qx 

i 

+ A p 

i+ 

1 

i+ 

1 

−1 T 

⎧zX( z) = AX( z) − BR B zP( z) 

⎨ 

T 

⎩ P( z) = QX( z) + A zP( z) 

⇓ 

−1 

T 

⎡zI − A − BR B ⎤ X( z) 

⎢ 

T ⎥ ⎛ 

⎣ Q z I − A ⎦⎝ ⎜ ⎞ 

− 

⎟ = 

zP( z) 

⎠ 

1 

0 

dove X( z ) è la z-trasformata di x i 

e P( z ) è la z-trasformata di p i 

. 

Supponiamo che [ u 

i 

v 

i ] 

l’autovalore associato: 

T 

sia un autovettore della matrice hamiltoniana e che z sia 

−1 

T 

⎡zI − A − BR B ⎤ u 

i 

u 

i 

⎢ 

T ⎥ ⎡ z 

⎣ Q z I − A ⎦⎣ ⎢ 

⎤ 

v 

⎥ = ⎡ 

i ⎦ ⎣ ⎢ ⎤ 

−1 

v 

⎥ 

i ⎦ 

⇓ 

−1 

T 

⎧zu i 

− Au 

i 

− BR B v 

i 

= zu 

i 

⎨ 

−1 

T 

⎩Qui 

+ z v 

i 

− A v 

i 

= zv 

i 

Se esiste un autovalore z con autovettore destro associato [ u 

i 

v 

i ] 

z −1 T 

con autovettore sinistro associato [ v 

i 

u 

T i ]: 

−1 

⎡zI − A − BR B 

T T 

−1 

T T 

[ v 

i 

u 

i ] ⎢ 

−1 

T ⎥ = z [ v 

i 

u 

i ] 

⎣ Q z I − A ⎦ 

⇓ 

T T T −1 

T 

⎧v i 

z − v 

i 

A + u 

i 

Q = z v 

i 

⎨ T −1 T T −1 T T −1 

⎩− v 

i 

BR B + ui 

z − u 

i 

A = z u 

T 

⎤ 

T 

i 

T 

esiste anche l’autovalore 

76


Quindi, z −1 è autovalore della matrice hamiltoniana. 

6.4 Luogo reciproco delle radici 

T 

Se abbiamo un sistema SISO, u Ru = ru 

L’indice di qualità può essere scritto come: 

2 

(scalare) e Q 

= c T c , dove c è un vettore riga. 

J = 

dove v = cx , v ∈R . 

La matrice hamiltoniana diventa la seguente: 

∞ 

∫ 

0 

T T 

2 

x c cx + Ru 1 dt = ∫ ( v 

2 

+ ru 

2 

) dt 

2 2 

∞ 

0 

⎡ 

⎢ A 

⎢ T 

⎣c c 

bb 

r 

− A 

T 

T 

⎤ 

⎥ 

⎥ 

⎦ 

che ha polinomio caratteristico dato da: 

Otteniamo: 

⎧ 

⎪⎡ 

= det⎨⎢ 

⎣⎢ 

⎩ 

⎪ 

a 

a 

c 

( zI 

− A) 

0 

( z) a ( 

1 

c z) 

( z) a ( 

1 

) 

0 0 

−1 

z 

0 

−1 

T 

( z I − A ) 

T 

⎡ 

det s bb 

⎢ I − A − 

⎢ 

r 

T 

⎣ − c c sI + A 

⎧ 

⎪⎡ 

= det⎨⎢ 

⎣ 

⎩ 

⎪ 

( zI 

− A) 

−1 

⎡ 

−1 

⎢I − ( zI − A) 

bb 

= det⎢ 

⎢0 

⎣⎢ 

0 

−1 

T 

⎤⎡ 

bb 

z 

⎥⎢ 

I − A − 

r 

T 

1 

⎦⎥ 

⎢ 

− 

⎣ c c z I − A 

T 

T 

0⎤⎡I 

⎥⎢ 

I⎦⎣0 

⎤ 

⎥ a ( s) a ( s) 

c c 

⎥ = − = 0 

⎦ 

−1 

T 

( z I − A ) 

T 

0 

−1 

⎤⎫ 

⎡ 

⎥⎪ 

⎬ = det 

⎢ 

⎥ ⎢ 

⎦⎭ 

⎪ 

⎣⎢ 

z 

T 

⎤ 

⎡ 

bb 

z 

⎥ 

⎢ I − A − 

r 

⎦⎢ 

T −1 

⎣ c c z I − A 

T 

⎤⎫ 

⎥⎪ 

⎬ = 

⎥ 

⎦⎭ 

⎪ 

I 

−1 

− ( zI − A) 

bb 

r 

T 

−1 

T 

I − A c c I 

−1 

( ) 

r 

T T 

T 

( z ) ( z ) 

T T 

r 

I ( z I A ) c c( zI A) 

bb I I A c c I A bb 

−1 

−1 −1 

⎥ = det⎢ 

+ − − 

−1 

−1 −1 

+ − − ⎥ ⎣ 

⎡ 

= ⎢ + − − 

⎣ 

r 

T 

⎤ ⎡ 

− − − 

⎥ = + 

r 

⎢ A bb T 

1 

I A c 

⎦ ⎣ 

r 

−1 

= 1+ 

1 ( ) ( ) 

r G z G z 

T T 

I ( z I A ) c c( zI A) 

bb −1 

−1 −1 

1 1 T 

det det I c( zI 

− ) ( z − ) 

⎤ 

⎥ 

⎦⎥ 

⎡ 

T 

T 

⎤ 

⎥ = 

⎦ 

⎤ 

⎥ = 

⎦ 

T 

⎤ 

⎥ 

⎥ 

= 

⎦⎥ 

dove a 0 

è il polinomio caratteristico a ciclo aperto e det( I + MN) = det( I + NM) 

. 

77


Gli autovalori relativi alle x i 

sono quelli interni al cerchio unitario, mentre quelli relativi alle 

p i 

sono quelli esterni al cerchio unitario. 

6.5 Esempi 

Negli esempi che seguono si vedrà che il luogo reciproco delle radici non porta tutti i poli 

nell’origine. Quindi i filtri FIR (che hanno la proprietà di avere tutti i poli nell’origine) non 

sono ottimi. 

6.5.1 

.1 


G( z) 

1 

= 

z − 1 

Otteniamo il seguente luogo reciproco delle radici: 

1 1 1 1 

+ 

1 1 − 1 − 1 

= − z 

− 

r z z r ( z − 1) 

1 2 

= 0 

1.5 

1 


0.5 

0 

-0.5 

-1 

-1.5 

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 

asse reale 

Il ramo relativo alla x è quello compreso tra l’origine ed il punto 1. 

Se il valore di k 

= − 1 fosse positivo si otterrebbe il seguente luogo delle radici: 

r 

78


1.5 

1 


0.5 

0 

-0.5 

-1 

-1.5 

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 

asse reale 

In questo caso si avrebbe stabilità solo per un valore di r maggiore di un valore r c 

. Ma il 

sistema deve essere sempre stabile a prescindere dal valore di r . 

6.5.2 

.2 


G( z) 

= 1 1 

z − 1 z − 2 


1 1 1 z z 

1+ 

= 0 

2r z − 1 z − 2 z − 1 z − 1 2 

2 

1.5 

1 


0.5 

0 

-0.5 

-1 

-1.5 

-2 

-3 -2 -1 0 1 2 3 

asse reale 

I due rami vicini all’origine sono quelli relativi alla x . 

79


6.5.3 

.3 


G( z) 

= 

z − 2 

z( z −1) 


( ) 

( ) 

( )( ) 

( ) ( ) 

1 1 2 −1 

2 

1 1 2 1 2 1 2 2 1 

z 

2 

+ 

( 1) 

1 1 2 

−− ⋅ z − 

z − z − z z − z − 

= + 

= + 

− − 

r z z z z − 1 r z( z − 1)( 1− 

z) 

r ( z − 1) 

= 0 

1.5 

1 


0.5 

0 

-0.5 

-1 

-1.5 

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 

asse reale 

6.5.4 

.4 


G( z) 

= 

z − 2 

( z − )( z − ) 

1 1 2 

z − p 

Termini del tipo introducono solo uno sfasamento. 

⎛⎜ 

⎝z 

− 1 ⎞⎟ 

p ⎠ 


( ) 

1 1 2 

−1 

z − 

z − 2 

1 1 z − 2 z 1− 

2z 

+ 

⋅ 

r 1 1 2 

1 1 2 

1 1 2 

1− 

z 1− 

1 2 

z 

⋅ 

= + 

−1 −1 

( z − )( z − ) ( z − )( z − ) 

r ( z − )( z − ) 

( ) 

1 4 ( )( 2 

1 

z − z z − 2 

z 

= − 

⋅ 

= − 

r z − 1 z − 1 2 ) 

z − 1 z − 2 r z − 

1 4 ( )( ) ( 1) 

( )( ) 

2 

= 0 

= 

80


1.5 

1 


0.5 

0 

-0.5 

-1 

-1.5 

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 

asse reale 

6.5.5 


z − 1 

G( z) 

2 

= 

( z − 1)( z − 2) 


1 z − 1 

1− 

2 

⋅ 

4r 

( z − 1)( z − 2) 

z( z − 2) 

1 z 

= 1− 

z − 1 z − 1 4r 

z − 1 

2 

( )( ) ( ) 

2 

= 0 

1.5 

1 


0.5 

0 

-0.5 

-1 

-1.5 

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 

asse reale 

81


6.6 Filtro di Kalman 

Il filtro di Kalman (che in realtà è un algoritmo) può essere utilizzato per stimare i parametri 

di un sistema lineare (anche non stazionario) che può presentare del rumore (incertezze) sia 

sulle variabili di stato che sull’uscita. 

Si abbia un modello del seguente tipo: 

⎧x + 1 

= Φ x + w 

⎨ 

⎩zk = H 

kx k 

+ v 

k 

k k k k 

n 

m 

con w k 

∈R e v k 

∈R rumori bianchi. La matrice Φ k 

può essere tempovariante. Il modello 

è stocastico perché presenta dei rumori bianchi. 

Otteniamo: 

E[ w 

kw 

T 

i ] 

E[ v 

kv 

T 

i ] 

⎧0 se k ≠ i 

= ⎨ 

⎩Q 

k 

se k = i 

⎧0 se k ≠ i 

= ⎨ 

⎩R 

k 

se k = i 

dove Q k 

ed R k 

sono matrici di correlazione. Supponiamo che non ci sia correlazione tra w k 

e v k 

(le cause che originano i rumori w k 

e v k 

siano diverse): 

T 

E[ w k 

v i ] = 0 ∀k , ∀i 

Se abbiamo una stima $x k − della x basata sui valori precedenti a t k 

(abbiamo il simbolo ‘-’) 2 

possiamo valutare l’errore di stima, dato da: 

− 

e = x − x$ 

− 

k k k 

Possiamo calcolare la matrice di covarianza dell’errore di stima: 

T 

T 

T 

[ $ $ ] [ k k ] [ $ 

k k ] [ $ 

k k ] [ $ $ 

k k ] 

T 

T 

T T 

[ ] ( k k )( k k ) 

P = E e e = E x − x x − x = E x x − E x x − E x x + E x x 

− − − − − − − − − 

k k k 

Conoscendo z k 

possiamo stimare x k 

: 

− 

( ) 

− 

x$ = x$ + K z − H x$ 

k k k k k k 

dove K k 

è una matrice di correzione (detta guadagno di Kalman) e z 

− 

− H x$ è detta 

k k k 

− 

innovazione. Lo scostamento tra $x k 

e $x k 

può essere esclusivamente dovuto al rumore v k 

sulla misura ma in genere non è così. 

Il problema è quello di calcolare K k 

in modo che la nostra previsione si discosti di poco dalla 

misura. 

2 

Il simbolo ‘^’ indica che si tratta di una stima. 

82


Se definiamo e 

k 

= x 

k 

− x$ k 

possiamo calcolare la matrice di covarianza dell’errore dopo la 

stima: 

T 

T T 

Pk = E[ e 

ke k ] = E[ ( x 

k 

− x$ k )( x 

k 

− x$ 

k )] 

= 

− − − − 

[ x x$ K ( z H x$ )][ x x$ k k k k k k k k 

K 

k ( zk H 

kx$ 

k )] 

T T T T 

T 

( )( k k ) k 

E 

k k k k k 

− T − T T T 

+ E K 

k ( zk − H 

kx$ k )( zk 

− x$ 

k 

H 

k ) K 

k 

T 

{ } 

T 

E[ $ $ ] [ ( $ )( $ 

k )] 

[ ] 

= E − − − − − − = 

− − − − − 

= P − x − x z − x H K − K z − H x x − x + 

k k k k 

T T T T T 

T T 

{( $ )[( $ 

k ) k k ] k } E [ ( $ ) ]( $ 

k k k k k k k ) 

− 

T − T T T T 

+ E K 

k[ H 

k ( x 

k 

− x$ k ) + v 

k ] ( x 

k 

− x$ 

k ) H 

k 

+ v 

k 

K 

k 

= 

{ } 

[ ] 

− − − − − 

P = P − E x − x x − x H + v K − K H x − x + v x − x + 

k k k k k 

{ } 

− − T T 

− − T T 

T 

= P − P H K − K H P + K H P H K + K R K = 

k k k 

k 

T 

= K R K + I − K 

k k k 

k k k k k k k 

− 

( H ) P ( I − K H ) 

k k k k k 

k 

T 

k k k 

perché v k 

è scorrelato sia da x k 

che da $x k − . Data la matrice di covarianza dell’errore prima 

della stima è così possibile ottenere la matrice di covarianza dell’errore dopo la stima. 

Per derivare le formule di sopra abbiamo supposto di avere la matrice K k 

. Tale matrice deve 

essere scelta in modo che la matrice P k 

sia la più piccola possibile in norma. Siccome la 

matrice P k 

è ottenuta come somma di matrici del tipo MM T , si può mandare a zero la sua 

traccia (questo implica il fatto che la sua norma viene mandata a zero). 

Se p è uno scalare ed A è una matrice, allora: 

⎡ ∂p 

⎢∂a 

⎢ 

dp p 

dA = ⎢ 

∂ 

⎢∂a 

⎢ M 

⎢ 

⎣ 

∂p 

∂a 

11 12 

21 

O 

⎤ 

L⎥ 

⎥ 

⎥ 

⎥ 

⎥ 

⎥ 

⎦ 

Si può dimostrare che: 

d d 

T 

( ) ( ) 

dA tr AC = dA tr AC = C 

d 

T 

( ACA ) AC 

dA tr = 2 

Quindi, la matrice K k 

che minimizza trP k 

è data da: 

d 

T 

T 

( ) k ( k k k ) 

K tr P = − H P − 

+ K H P − 

2 2 H + R = k 

0 

d k 

k k k 

⇓ 

T 

83


− T 

[ k ] 

− T 

K = P H H P H + R 

k k k k k k 

Sostituendo il valore di K k 

così ottenuto nell’espressione di P k 

otteniamo: 

T 

( k k k ) 

− − T − 

P = P − P H H P H + R H P 

k k k k 

Abbiamo riottenuto l’equazione di Riccati, che in questo caso si può scrivere come: 

− T 

( k ) 

−1 

− 

P = P − K H P H + R K 

k k k k k 

−1 

−1 

k 

T 

k 

− 

k 

oppure 

( ) 

P = I − K H P 

− 

k k k k 

In questo caso l’equazione di Riccati è usata in un problema di osservabilità (precedentemente 

era stata usata in problemi di controllabilità). 

− 

Se abbiamo $x k 

possiamo calcolare x$ x$ 

k + 1 

= Φ 

k k 

, che è la stima prima della nuova misura. 

Otteniamo: 

− 

e = x − x$ 

− 

k+ 

1 k+ 1 k+ 

1 

− 

− T 

− 

− 

T 

Pk+ 

= E[ e 

k+ e 

k+ 

] = E[ ( x 

k+ − x$ k+ 

)( x 

k+ − x$ 

1 1 1 1 1 1 k+ 

1) 

] = 

T 

T 

[( $ 

k k k k k )( $ 

k k k k k ) ] E[ ( k k k )( k k k ) ] 

T 

= E Φ x + w − Φ x Φ x + w − Φ x = Φ e + w Φ e + w = Φ P Φ + Q 

k k k 

k 

perché e k 

e w k 

sono scorrelati. 

In definitiva, l’algoritmo del filtro di Kalman è il seguente: 

− 

1) K P H T − T 

k 

= 

k k [ H 

kPk H 

k 

+ R 

k ] 

− 

− 

2) x$ x$ K ( z H x$ 

k 

= 

k 

+ 

k k 

− 

k k ) 

− 

3) P = ( I − K H ) P 

k k k k 

− 

k + 1 

= Φkx 

k 

− 

T 

k+ 

1 

= Φk kΦk 

+ 

k 

4) x$ $ 

5) P P Q 

6) torna al punto 1) 

Nel caso di rumore bianco il filtro di Kalman è ottimo. 

Se nel sistema non abbiamo un rumore bianco ma un altro tipo di rumore possiamo pensare 

che esso provenga da un rumore bianco che passa attraverso un filtro (detto filtro sbiancante). 

Possiamo applicare il filtro di Kalman al sistema complessivo costituito dal filtro sbiancante e 

dal sistema iniziale per ricondurci al caso di rumore bianco. 

−1 

84

PARTE 

II 

MODELLISTICA ED 

IDENTIFICAZIONE

Modellistica 

7. MODELLISTICA 

Il problema che ci poniamo in questo capitolo e nel successivo è quello di individuare una 

serie di metodi operativi per determinare il modello ed i parametri di un sistema SISO lineare 

tempo-invariante con un disturbo addizionale ν( t ) sull’uscita: 

La relazione ingresso-uscita che regola questo sistema è la seguente: 

dove ( ) 

y( t) = G( q) u( t) + ν( t) 

G q è la funzione di trasferimento dall’ingresso u( t ) all’uscita ( ) G q è un 

polinomio in q , che è l’operatore di shift ( qu( t) = u( t + 1 ) ) per cui l’equazione di sopra deve 

essere interpretata come: 

k 

y( t) = ⎛ +∞ 

+∞ 

g q u( t) ( t) g u( t k) ( t) 

k 

k 

⎝ ⎜ − 

⎞ 

∑ ⎟ + ν = ∑ − + ν 

⎠ 

k= 

0 k= 

0 

y t . ( ) 

Abbiamo scelto di rappresentare il sistema in tempo discreto perché i dati osservati sono 

sempre raccolti come campioni. 

Nell’equazione di sopra abbiamo assunto che il tempo di campionamento fosse uguale ad un 

secondo. Questo non è essenziale ma rende la notazione molto più semplice. 

La densità di probabilità di ν( t ) non è nota in generale. Facciamo l’ipotesi che il disturbo ν( t) 

sia ottenuto filtrando un rumore bianco ( ) 

H q : 

con H( q) 

= 1+ 

+∞ 

∑ 

k= 

1 

h q k 

−k 

e t mediante un filtro lineare ( ) 

+∞ 

( ) = ( ) ( ) = ∑ ( ) ( − ) 

ν t H q e t h k e t k 

k= 

0 

indipendenti e aventi identica densità di probabilità: 

Si ha: 

( h 0 

= 1). Quindi e( t ) è una sequenza di variabili aleatorie 

f[ e( t) 

] = f e( t − 1) 

= K= f e t − k 

[ ] [ ( )] 

E{ e( t )} 

= 0 

87

Modellistica ed Identificazione 

dove λ è la varianza di e( t ) . 

Calcoliamo il valor medio di ν( t ) : 

{ } 

perché E e( t − k) 

= 0 . 

Calcoliamo ora la covarianza di ν( t ) : 

⎧0 se τ ≠ 0 

E{ e( t) e( t − τ) 

} = λδ( τ) 

= ⎨ 

⎩λ 

se τ = 0 

+∞ 

E{ ν ( t) 

} = ∑ h( k) E{ e( t − k) 

} = 0 

+∞ 

k= 

0 

+∞ 

E{ ν( t) ν( t − τ) 

} = h( k) h( s) E{ e( t − k) e( t − τ − s) 

} = 

+∞ 

+∞ 

∑∑ 

∑∑ 

k= 

0 s= 

0 

= h( k) h( s) λδ( k − τ − s) = λ h( k) h( k − τ) = R ( τ) 

+∞ 

∑ 

k= 

0 s= 

0 

k= 

0 

Il disturbo ν( t ) in generale può essere caratterizzato dal suo spettro, che dà una descrizione 

del suo contenuto frequenziale: 

+∞ 

ωτ 

Φ ν ν 

∑ R e H e 

ω 

( ω) = ( τ) − j 

j 

= λ ( ) 

τ=−∞ 

Quindi, il nostro problema può essere descritto nel seguente modo: 

y( t) = G( q) u( t) + H( q) e( t) 

Siccome le funzioni di trasferimento G ed H non sono note possiamo introdurre un 

parametro θ nella loro descrizione che riflette la nostra carenza di informazioni. In questo 

modo il modello parametrizzato risultante è il seguente: 

(7.1) y( t) = G( q, θ) u( t) + H( q, 

θ) e( t) 

Il parametro θ può essere stimato utilizzando uno dei metodi per l’identificazione descritti nel 

capitolo successivo. 

Data la descrizione del sistema illustrata sopra e un insieme di dati di ingresso ( u( s ) ) ed uscita 

( y( s ) ) fino all’istante t − 1 ( s ≤ t −1), come possiamo predire l’uscita all’istante y( t ) ? 

Dividiamo ambo i membri dell’equazione (7.1) per H( q,θ ) : 

Ma: 

− 

( , θ) ( ) = ( , θ) ( , θ) ( ) + ( ) 

− 

H 1 q y t H 1 q G q u t e t 

(7.2) ( ) 1 

− 

( ) 

⇓ 

1 −1 

[ , θ ] ( ) ( , θ) ( , θ) ( ) ( ) 

y t = − H q y t + H q G q u t + e t 

2 

ν 

88


( q, 

θ) 

−1 

1− H = 

+∞ 

( , θ) 

− 1 1 = 

( ) ( ) 

∑ 

H q, θ H q, 

θ k= 

1 

H q 

h q k 

−k 

[ H q ] y ( t ) 

,θ contiene solo i valori di y( s ) per s ≤ t −1. Il secondo 

membro della (7.2) è conosciuto all’istante t − 1 con l’eccezione di e( t ) . La predizione di y( t) 

è ottenuta dalla (7.2) cancellando e( t ) : 

Quindi l’espressione 1 − −1 

( ) 

(7.3) ( ) 1 

− 

( ) 

1 −1 

[ ] ( ) ( ) ( ) ( ) 

y$ t, θ = − H q, θ y t + H q, θ G q, 

θ u t 

Per caratterizzare completamente il nostro modello di sistema dobbiamo conoscere anche la 

densità di probabilità della variabile e( t ) . Non tutti i metodi che vedremo riusciranno a 

caratterizzare f e 

. 

Un modello di predizione permette solo l’identificazione dei parametri del vettore θ , mentre 

un modello probabilistico permette anche l’identificazione della densità di probabilità f e 

. 

Nei prossimi paragrafi vedremo alcune forme particolari dei polinomi G ed H . 

7.1 Modello ad equazione d’errore (ARX) 

Con questo modello vale la seguente relazione tra ingresso ed uscita: 

( ) + ( − ) + + ( − ) = ( − ) + + n a n ( − 

1 

1 K 

1 

1 K 

b ) 

y t a y t a y t n b u t b u t n 

a 

⇓ 

A q, θ y t = B q, 

θ u t + e t 

( ) ( ) ( ) ( ) ( ) 

b 

con: 

( 1 

K 

n 

n ) 

a 1 

K 

b 

θ = a a b b 

( ) 

( ) 

1 

2 

A q,θ = + a q + a q + K+ 

a q 

1 

1 

− − −na 

2 

na 

1 

2 

B q,θ = b q + b q + K+ 

b q 

1 

− − −nb 

2 

nb 

T 

Il termine noto di B è nullo ad indicare che l’uscita non dipende dall’ingresso corrente. 

Questo modello corrisponde alla seguente scelta in termini di G ed H : 

G 

= B e H = 1 

A 

A 

Il disturbo passa attraverso un filtro che ha i poli del sistema: 

89


L’espressione A( q ) y( t) 

,θ è una autoregressione dell’uscita: 

( ,θ) ( ) = ( ) + ( − 1) + ( − 2) + K+ ( − ) 

A q y t y t a y t a y t a y t n 

1 2 

L’ingresso esterno sul sistema viene chiamato ingresso esogeno. Quindi, il modello ad 

equazione d’errore è anche detto ARX (AutoRegressive eXogenous). 

Dalla (7.3) ricaviamo la funzione di predizione: 

( , θ) ( ) ( , θ) 

na 

( , θ) 

( , θ) 

B q 

−1 −1 

y$ ( t, θ) = H ( q, θ) G( q, θ) u( t) + [ 1− H ( q, θ) 

] y( t) = A( q, 

θ) 

u( t) + [ 1− A( q, 

θ) 

] y( t) 

= 

A q 

Quindi $ ( , ) 

−1 

−nb 

−1 

−na 

[ 1 ] ( ) ( 1 

K 

n ) ( ) ( 1 

K 

n ) ( ) 

= B q u t + − A q y t = b q + b q u t − a q + a q y t 

y t θ è legata agli ingressi ed alle uscite passati. 

Definendo il seguente vettore (vettore di regressione): 

otteniamo l’equazione di regressione: 

Fissati n a 

ed n b 

otteniamo: 

⎛ − y( t − 1) 

⎞ 

⎜ ⎟ 

⎜ M ⎟ 

⎜− 

y( t − na 

) ⎟ 

ϕ( t) 

= ⎜ ⎟ 

⎜ u( t −1) 

⎟ 

⎜ M ⎟ 

⎜ 

⎝ u t 

⎟ 

⎠ 

b 

( − n ) 

b 

T 

( ) = ϕ ( t) 

y t,θ θ 

T 

⎛ y( t) 

⎞ ⎛ ϕ ( t) 

⎞ 

⎜ ⎟ ⎜ ⎟ 

T 

⎜ y( t + 1) 

⎟ ⎜ ϕ ( t + 1) 

⎟ 

⎜ ⎟ 

= ⎜ ⎟ ⋅θ = Φθ 

M 

M 

⎜ ⎟ ⎜ ⎟ 

T 

⎝ y( t + d) 

⎠ ⎝ϕ 

( t + d) 

⎠ 

( 1) ( 2) L ( ) ( ) ( ) 

a 

1 2 L ( b ) 

y( t) y( t 1) L y( t n ) u( t) u( t ) 

a 

1 1 L u( t n 

b 

1) 

⎡− y t − − y t − − y t − n u t − u t − u t − n 

⎢ 

Φ = ⎢ − − − − − + − − + 

⎢ 

⎣ 

O O O O O O O 

dove Φ è detta matrice di regressione. Abbiamo ottenuto un sistema di equazioni lineari che 

deve essere risolto con la tecnica dei minimi quadrati (in generale Φ non è quadrata): 

y = Φθ 

T 

Φθ ⇒ = ( ) 

−1 

θ Φ Φ Φ 

T 

y 

a 

a 

⎤ 

⎥ 

⎥ 

⎥ 

⎦ 

90


T 

dove ( Φ Φ) 

−1 

Φ 

T 

è la pseudoinversa di Φ : Φ T Φ 

deve essere invertibile e quindi Φ deve 

avere rango pieno. La matrice Φ è a bande ma può anche non avere rango pieno se stiamo 

campionando molto velocemente un processo lento (possiamo ottenere due righe uguali o 

simili). Infatti, gli algoritmi di identificazione vengono eseguiti su calcolatori elettronici, che 

hanno una precisione limitata. 

Abbiamo ottenuto una soluzione semplice (il modello ARX consente una facile identificazione) 

che però può presentare dei problemi di calcolo. 

7.2 Modello ARMAX 

In questo caso la relazione che lega l’ingresso con l’uscita è la seguente: 

( , θ) ( ) = ( , θ) ( ) + ( , θ) ( ) 

A q y t B q u t C q e t 

con: 

( 1 

L 

n n n ) 

a 1 

L 

b 1 

L 

c 

θ = a a b b c c 

( ) 

( ) 

( ) 

1 

2 

A q,θ = + a q + a q + K+ 

a q 

1 

1 

− − −na 

2 

na 

1 

2 

B q,θ = b q + b q + K+ 

b q 

1 

− − −nb 

2 

nb 

1 2 

C q,θ = + c q + c q + K+ 

c q 

1 

1 

− − − nc 

2 

nc 

T 

In questo caso abbiamo più parametri da identificare rispetto al modello ARX. 

Il termine noto di B è nullo ad indicare che l’uscita non dipende dall’ingresso corrente. 

Questo modello corrisponde alla seguente scelta in termini di G ed H : 

G 

= B e H = 

C A 

A 

Anche in questo caso il rumore passa attraverso un filtro che ha gli stessi poli del sistema: 

Il polinomio C impone una regressione su ( ) e t che in questo caso viene chiamata media 

mobile. Questo modello è dunque detto ARMAX (AutoRegressive Moving Average eXogenous). 

Dalla (7.3) ricaviamo la funzione di predizione: 

91


( , θ) 

( , θ) 

A( q, 

θ) 

C( q, 

θ) 

( , θ) 

⎤ 

⎥ 

( , θ) 

( , θ) 

( , θ) 

B q ⎡ A q 

−1 −1 

y$ ( t, θ) = H ( q, θ) G( q, θ) u( t) + [ 1− H ( q, 

θ) 

] y( t) 

= u( t) 

+ ⎢1 

− 

A q ⎣⎢ 

C q 

B q ⎡ A q 

= u( t) 

+ ⎢1 

− 

C q ⎣⎢ 

C q 

⇓ 

( ) 

y t 

⎦⎥ 

[ ] ( ) 

( , θ) $ ( , θ) = ( , θ) ( ) + ( , θ) − ( , θ) 

C q y t B q u t C q A q y t 

⇓ 

( , θ) 

( , θ) 

−1 

−nc 

−1 

− nb 

−1 

− nc 

−1 

− na 

( c1q + Kc q ) y$ n 

( t,θ) = ( b q b 

n 

q ) u( t) ( c q c 

n 

q ) y( t) ( a q a 

n 

q ) y( t) 

c 

1 

+ K + 

b 

1 

+ K − 

c 

1 

+ K 

a 

⇓ 

⎤ 

⎥y t 

⎦⎥ 

nb 

nc 

na 

( θ) = ( n ) ( ) ( n )[ ( ) ( )] ( n ) − 1 

+ − + − 1 

+ − − θ − − 1 

+ 

− 

1 

K 

1 

K 

1 

K ( ) 

y$ t, b q b q u t c q c q y t y$ t, 

a q a q y t 

b 

Quindi y$ ( t, 

θ ) è legata agli ingressi, alle uscite e alle stime passati. 

c 

a 

( ) 

= 

7.3 Differenza tra autoregressione e media mobile 

Consideriamo la seguente relazione: 

con R( q ) rapporto di polinomi in q : 

( ) 

( ) 

( ) ( ) ( ) 

ν t 

= R q e t 

( ) 

R q 

( ) 

( ) 

C q 

= 

A q 

C q = + c q − 1 

+ K+ 

c q 

1 

1 

nc 

A q = + a q − 1 

+ K+ 

a q 

1 

1 

na 

−nc 

−na 

Si ha: 

( t) + a ( t − 1) + a ( t − 2) + K + a ( t − n ) = e( t) + c e( t − 1) + K + c e( t − n ) 

ν ν ν ν 

1 2 na 

a 1 

nc 

c 

Se consideriamo ν( t ) come uscita e C( q ) = 1 allora: 

( t) = −a ( t − 1) − a ( t − 2) −K−a ( t − n ) + e( t) 

ν ν ν ν 

1 2 

Questa formula viene chiamata autoregressione di ν ( ν all’istante t dipende da una 

combinazione lineare dei valori assunti nel suo passato). 

Se consideriamo ( ) 

A q = 1 allora: 

ν t come uscita ed ( ) 

na 

a 

92


( ) = ( ) + ( − ) + + ( − ) 

ν t e t c1e t 1 K c 

n 

e t n 

ν( t ) è funzione solo di e( t ) : questa formula è una regressione su e( t ) (non una 

autoregressione) e viene chiamata media mobile (moving average). 

Se consideriamo e( t ) come uscita e ν( t ) come ingresso la seconda equazione diventa una 

autoregressione, mentre la prima diventa una media mobile. 

c 

c 

7.4 Altri modelli 

Un modello generale è esprimibile con la seguente relazione che lega l’uscita all’ingresso: 

( , θ) 

( , θ) 

( ) 

e 

( ) ( t ) 

A ( q ) y ( t B q C q, 

θ 

, θ ) = u( t) 

+ 

F q D q, 

θ 

con A , B , C , D , F anche non tutti presenti. 

Possiamo costruire la seguente tabella: 

polinomi usati 

B 

A , B 

A , B , C 

A , C 

B , F 

B , C , D , F 

nome del modello 

FIR 

ARX 

ARMAX 

ARMA 

modello ad errore d’uscita 

Box-Jenkins 

Se un modello ha il polinomio A presenta un termine autoregressivo, se ha il polinomio C 

presenta una media mobile su ( ) e t . 

93


7.5 Criteri nella scelta del modello 

Non esistono dei criteri generali per scegliere un modello. In genere si segue una procedura “a 

tentativi”: si sceglie un modello e, se non si ottengono dei buoni risultati, si cambia modello. 

Tuttavia, nella procedura conviene essere guidati dall’intuito e da qualche conoscenza 

sull’impianto. 

Se il sistema è deterministico, non abbiamo errori sull’uscita ( e( t ) è trascurabile) ed abbiamo 

solo i polinomi A , B ed F: possiamo utilizzare il modello ARX o il modello ad errore d’uscita. 

Se, invece, il disturbo sull’uscita è molto alto rispetto al valore dell’uscita dovuto al solo 

ingresso conviene usare i modelli ARMA o ARMAX o Box-Jenkins. Nel modello Box-Jenkins la 

parte di disturbo è completamente disaccoppiata dal sistema (non è presente il termine 

1 

( ) 

A e t ). 

Se ci sono ingressi non manipolabili il modello ARMAX è il migliore. 

Inoltre, il successo di una procedura di identificazione è spesso determinato dagli ingressi che 

forniamo al sistema. Se possiamo scegliere gli ingressi (se cioè stiamo effettuando 

un’identificazione off-line) conviene che essi siano tali che la matrice Φ T Φ sia invertibile. 

94

Identificazione 

8. IDENTIFICAZIONE 

Data una struttura di modello M , M ( θ ) è uno specifico modello corrispondente ai parametri 

contenuti in un vettore θ ∈D 

⊂ R 

d , dove d è la dimensione di θ che dipende dalla struttura 

del modello. 

Definiamo il seguente vettore: 

Z N 

= [ y( 1) u( 1) y( 2) u( 2) K y( N) u( N) 

] 

Data una struttura di modello, un metodo di identificazione è una qualsiasi funzione con 

dominio nell’insieme degli Z N 

e a valori in D . 

Questa schematizzazione permette di distinguere tra modellistica, che è la scelta della 

struttura di modello per un sistema, e identificazione, che è la scelta dei parametri per quel 

modello. Quest’ultima scelta dipende da Z N 

e cioè dagli ingressi del sistema. 

8.1 Metodo di identificazione ad errore di predizione 

Dai dati osservati e dalla predizione y$ ( t, 

θ ) si può formare la sequenza di errori di predizione 

ε( t, θ) = y( t) − y$ ( t, 

θ) 

, con t = 1, 2,K N . L’errore di predizione può essere filtrato attraverso un 

filtro lineare L( q ) , ottenendo: 

( , θ) = ( ) ε( , θ) 

ε t L q t 

F 

per esaltare o ridurre bande interessanti o non importanti di frequenza nei segnali. 

Scelta una funzione norma l:R → R + 

per misurare l’errore di predizione, il metodo consiste 

nel calcolare: 

( Z ) ( Z ) 

θ$ = θ$ = arg min θ, 

N N N 

N 

1 

dove VN ( θ, Z 

N ) = ∑ l( ε 

F( t, 

θ) 

) . 

N t= 

1 

La scelta naturale sulla norma è la seguente: 

V N N 

θ∈D 

1 

l( ε ) = l 

2( ε ) = ε 

2 

2 

F F F 

(norma euclidea) 

o, in generale: 

95


( ε ) = ( ε + ε + ) 

1 

p p p 

l p F 1 2 

K (norma l p 

) 

Se si devono identificare i parametri di un modello utilizzando una macchina di acquisizione 

dati possiamo ottenere dei valori distribuiti più o meno uniformemente e dei valori, detti 

outlier, che si allontanano dalla regione in cui sono compresi tutti gli altri: 

Gli outlier sono molto frequenti: possono dipendere, ad esempio, da un malfunzionamento 

temporaneo della macchina che acquisisce i dati. Per questo possiamo voler pesare di più 

~ 

alcuni dati rispetto ad altri, utilizzando una norma del tipo l( ε) = β( t) l ( ε) 

. 

Nel caso di un modello lineare si ha: 

[ ] ( ) 

−1 −1 

( ) ( ) ( ) ( ) ( ) ( ) ( ) 1 ( ) 

ε t, θ = y t, θ − y$ t, θ = y t, θ − H q, θ G q, θ u t − − H q, θ y t, 

θ = 

[ ] 

−1 

= H ( t, θ) y( t, θ) − G( q, 

θ) u( t) 

−1 

( , θ) 

⎤ 

( , θ) ( ) ε( , θ) 

⎢ ⎥ y( t) − G( q, 

θ) u( t) 

L( q) 

ε t L q t H q 

F 

= = ⎡ ⎣⎢ 

⎦⎥ 

[ ] 

Calcoliamo la trasformata discreta di Fourier di ( θ,Z ) nel caso in cui ( ) 

norma euclidea. 

Siano s( t ) e ( ) 

V N 

N 

L q = 1 ed l è la 

w t due successioni di lunghezza N legate da un filtro lineare ( ) 

( ) ( ) ( ) 

s t = K q w t , con w( t) 

otteniamo: 

dove R N 

( ω ) è il resto. Si ha che R 

w( t ) è periodica di periodo N . 

Se s( t, θ) y( t) G( q, 

θ) u( t) 

K q : 

≤ C w 

∀t (successione d’ingresso limitata). Passando in frequenza 

jω 

(8.1) S ( ω) = K( e ) W ( ω) + R ( ω) 

= − applicando la (8.1) otteniamo: 

N 

N 

N 

N 

∝ 1 ( R 

N 

N 

→ 0 per N → ∞ ) ed R N 

( ω ) = 0 solo se 

jω 

( ω, θ) = ( ω) − ( , θ) ( ω) + ( ω) 

S Y G e U R 

N 

N 

N 

N 

96


−1 

Siccome ε( t, θ) = H ( q, θ) s( t, 

θ) 

, riapplicando la (8.1) otteniamo: 

[ N 

N ] ( ) 

−1 j 

( ) ( ω 

jω 

, θ) ( ) ( , θ) ( ) 

E ω = H e Y ω − G e U ω + R ω 

N 

2 

∑ ∑ 

2 

, con ω 

k= 1 

i= 

1 

N 

N 

⎛ 2πk⎞ 

Applichiamo la relazione di Parseval U⎜ 

⎟ = u( t) 

⎝ N ⎠ 

V 

N 

1 

2N 

N 

π 

= 2 k 

N : 

−2 2 

jω 

jω 

( θ, Z 

N ) = ∑ H( e , θ) YN 

( ω) − G( e , θ) U 

N 

( ω) + R( ω) 

V 

N 

( θ Z ) 

k= 

1 

( ω) 

( ω) 

⇓ 

( ω) 

2 2 

N 

1 Y 

U 

N 

jω 

N ~ 

, 

N 

= ∑ − G( e , θ) 

⋅ 

2 

+ R 

2N 

k= 

1 U 

N 

H 

2 

U ( ) 

N 

ω 

Il termine 

2 

è il rapporto segnale-rumore (SNR), che è un termine di peso: pesa di più 

H ( ) 

N 

ω 

Y ( ) 

N 

ω 

quando il disturbo è basso rispetto all’ingresso. Il termine è detto Empirical Transfer 

U ( ) 

N 

ω 

Function Estimate (ETFE). 

In pratica V N ( N ) 

θ,Z tiene conto della distanza tra la funzione di trasferimento reale e quella 

stimata, pesata con un rapporto che tiene conto del segnale d’ingresso e del rumore. 

N 

( ω) 

~ 

( ω) 

8.2 Stima a massima verosimiglianza 

Consideriamo una successione di variabili aleatorie y( t ) : 

N 

Y N 

= [ y( 1) y( 2) L y( N) 

] , Y N 

∈R 

Anche Y N 

è una variabile aleatoria con d.d.p. data da: 

Otteniamo: 

( θ, Y ) = ( θ, ( 1) , ( 2) , K ( )) 

f f y y y N 

Y N Y 

N 

( N 

∈ ⊂ R ) = ∫ f ( θ ) 

Pr Y A , Y dY 

N 

R 

Y N N 

Uno stimatore è una funzione θ $ θ $ ( ) 

non contiene l’ingresso. Se è nota la funzione θ $ θ $ ( ) 

Sia data la misura Y N 

. La probabilità Pr( Y N ) è proporzionale a f Y ( N ) 

= Y N 

e, a differenza di una funzione di identificazione, 

= Y N 

, da Y N 

possiamo ricavare $ θ . 

θ, Y , che ora è una 

funzione deterministica della sola θ ed è detta funzione di verosimiglianza (likelihood). 

97


Il metodo della stima a massima verosimiglianza consiste nel calcolare: 

( Y ) = ( θ Y ) 

θ $ arg max , 

N 

f Y N 

θ∈D 

Questo metodo richiede delle informazioni (di tipo probabilistico) in più rispetto al metodo ad 

errore di predizione anche se spesso si fanno delle ipotesi sulle d.d.p. delle y( t ) . 

Ad esempio, supponiamo che le y( t ) siano gaussiane: 

con λ( t ) nota e θ ignoto. 

La d.d.p. congiunta f Y ( N ) 

indipendenti: 

1 ⎧ 

⎪ 

f[ y( t) 

] = exp⎨− 

2πλ( t) 

⎩⎪ 

[ y( t) 

− θ] 

λ( t) 

θ, Y è data dal prodotto delle f y( t ) perché le y( t ) sono tutte 

N 

N 

1 ⎧⎪ 

fY 

( θ, YN 

) = ∏ f[ y( t) 

] = ∏ exp⎨− 

t= 1 

t= 

1 2πλ( t) 

⎩⎪ 

2 

⎫ 

⎪ 

⎬ 

⎭⎪ 

[ ] 

[ y( t) 

− θ] 

λ( t) 

Calcoliamo θ utilizzando il metodo della stima a massima verosimiglianza: 

( θ Y ) f ( θ Y ) 

arg max f , = arg max log , = 

θ 

Y N Y N 

θ 

[ y( t) 

− θ] 

λ( t) 

[ y( t) 

− θ] 

λ( t) 

2 

⎫⎪ 

⎬ 

⎭⎪ 

[ y( t) 

θ] 

λ( t) 

2 

⎧ 

N 

N 

N 

⎪ N 1 1 

⎫⎪ 

= arg max⎨− log − log[ ( t) 

] − 

⎬ arg max 

θ 

θ 

t 

t 

t 

⎩⎪ 

⎭⎪ = ⎧⎪ 

− 1 − 

2π 

∑ λ ∑ ⎨ ∑ 

2 

= 1 2 2 = 1 

2 = 1 

⎩⎪ 

Otteniamo: 

θ 

N 

∑ 

d 

dθ 

1 

2 

⎧⎪ 

1 

= arg min⎨ 

θ 2 

⎩⎪ 

N 

∑ 

[ y( t) 

− θ] 

λ( t) 

N 

∑ 

t= 

1 

N 

t= 1 t= 

1 

⇓ 

N 

1 y( t) 

= 

λ( t) 

∑ ⇒ 

λ( t) 

t= 1 t= 

1 

2 

= − 

∑ 

2 

⎫⎪ 

⎬ 

⎭⎪ 

[ y( t) 

− θ] 

= 0 

λ( t) 

1 

$θ = 

N 

⋅ 

1 

∑ 

λ( t) 

Quindi, θ $ è la somma dei campioni, ciascuno scalato per la sua varianza e normalizzato per la 

somma degli inversi delle varianze. 

Se λ( t ) = λ ∀t otteniamo: 

t = 1 

N 

N 

λ 1 1 

$θ = ⋅ ∑ y( t) = ∑ y( t) 

N λ N 

t = 1 t = 1 

N 

∑ 

t = 1 

y( t) 

λ( t) 

2 

⎫⎪ 

⎬ 

⎭⎪ = 

98


Se la d.d.p. delle y( t ) non è conosciuta possiamo supporre che sia di tipo gaussiano ottenendo 

(in genere) dei buoni risultati. 

Nel caso di d.d.p. gaussiana si ottengono dei risultati simili a quelli che si ottengono con il 

metodo dei minimi quadrati (metodo ad errore di predizione con norma euclidea). Quindi, in 

questo caso, il metodo ad errore di predizione e quello della stima a massima verosimiglianza 

sono equivalenti. 

Un modello probabilistico completo, oltre a fornire la y$ ( t, 

θ ) , deve anche fornire la d.d.p. 

f y( t) 

t 

y t = g t, Z 1 

, θ + ε t, 

θ , si può dimostrare che: 

ε [ , ,θ] 

dell’errore di stima. Siccome ( ) ( t− 

) ( ) 

N 

N 

[ ] ∏ ε 

( ) 

( Y ) ∏ ε 

( ) ( Z 

−1 

) 

[ ] 

f θ, = f y t − g t, , θ , t, θ = f y t , t, 

θ 

Y N t 

t= 1 t= 

1 

Calcoliamo θ utilizzando il metodo della stima a massima verosimiglianza: 

se ε( θ) 

N 

( Y ) ( Y ) ∑ [ ( ) 

ε ] 

θ$ = arg max f θ, = arg maxlog f θ, = arg max log f y t , t, 

θ = 

[ , ] log [ ( ) 

ε 

, , θ] 

Y N Y N 

θ θ θ 

1 

= arg min , = arg min , 

θ 

θ N l t 

t= 

1 

N 

N 

∑ l[ ε( t θ) 

] ∑ ε( θ) 

t= 1 t= 

1 

[ ] 

l t = − f y t t . Quindi, il metodo della stima a massima verosimiglianza è un 

caso generale del metodo ad errore di predizione. 

Se la d.d.p. f y( t) 

, t,θ è gaussiana a media nulla ed a varianza λ otteniamo: 

ε 

( ) 

[ ε( t θ) 

] 

l 

2 

⎡ 

ε 

k − 

t 

e 

λ 

, = − log⎢ 

⎥ log k log λ 

⎣⎢ 

λ ⎦⎥ = − + + 1 

2 

2 2 λ 

( t, 

θ ) ⎤ 

2 

1 ε ( , θ) 

L’unico termine che dipende da θ è ε 2 ( t,θ ) . Quindi otteniamo: 

$ arg min 1 , arg min 1 

θ = θ = , θ = arg min θ , 

θ N l t θ N 

θ 

N 

N 

2 

∑ [ ε( )] ∑ ε ( t ) VN 

( Z 

N ) 

t= 1 

t= 

1 

Utilizzare il metodo ad errore di predizione con norma euclidea significa supporre che 

l’errore di predizione abbia una d.d.p. di tipo gaussiano. 

8.3 Criteri di bontà dell’identificazione 

Se si applica più volte un metodo di identificazione ad un sistema al quale vengono forniti 

ingressi diversi sicuramente si ottengono valori diversi di θ . I vari valori di θ così ottenuti 

dovrebbero essere tutti all’incirca uguali a θ 0 

, dove θ 0 

è il vettore dei parametri veri del 

sistema (che supponiamo esista per ipotesi). Il vettore θ si comporta quindi come una 

variabile aleatoria. 

Supponiamo che sia E{ θ} 

= θ 0 

: in questo caso la stima si dice non polarizzata. 

La matrice di covarianza è definita come: 

99


T 

{[ θ( ) θ 

0] [ θ( ) θ 

0 ] } 

P = Y − Y − 

E 

N N 

Gli elementi sulla diagonale di P sono le autovarianze dei singoli parametri. Se P è piccola 

(in norma) la stima è buona perché abbiamo una piccola “dispersione” dei parametri intorno 

a θ 0 

. 

8.3.1 

.1 Disuguaglianza di Cramer-Rao 

Nel caso monodimensionale possiamo avere il seguente andamento di θ : 

La varianza σ dell’errore ci dà una misura di quanto i vari θ sono vicini a θ 0 

: 

θ 

− θ 

0 

≤ 

2 

σ 

Purtroppo non esiste alcun metodo con il quale la varianza σ dell’errore va a zero: esiste un 

limite teorico (che non può essere superato da nessuno stimatore) dato dalla disuguaglianza di 

Cramer-Rao. 

N 

Se Y ∈Y 

⊂ R , con Y indipendente da θ , allora: 

100 

N 

P ≥ M 

dove la matrice M (matrice di informazione di Fisher) è la seguente: 

⎡ 

⎤ 

M = 

( Y ) ( Y ) ( Y ) 

⎣ 

⎢ 

⎦ 

⎥ ⋅ ⎡ T 

⎧ d 

d 

⎣ ⎢ 

⎤ ⎫ 

⎨ 

⎦ 

⎥ ⎬ = − ⎧ ⎫ 

E f 

f E⎨ d 2 

log 

Y 

θ, N 

log 

Y 

θ, N 

log fY 

θ, 

2 

N ⎬⎭ 

⎩ dθ dθ ⎭ ⎩ dθ 

−1 

θ= θ θ= 

θ 

0 0 

La disuguaglianza di Cramer-Rao è solo una formula teorica perché deve essere calcolata in 

θ 0 

, che non conosciamo. 

La matrice P è una matrice di covarianza e quindi è d.p.. Si può dimostrare che anche la 

matrice M (e quindi anche M −1 ) è d.p.. La relazione P ≥ M 

−1 indica che la forma quadratica 

associata a P deve essere sempre maggiore o uguale di quella associata ad M −1 . Questo 

significa che non si possono avere sulla diagonale di P dei valori più piccoli di quelli presenti 

sulla diagonale di M −1 (varianze minime teoriche).


Siccome non conosciamo θ 0 

la formula di sopra può essere applicata in questo modo: si 

griglia lo spazio contenente θ e si calcola M più volte. La matrice M ~ più grande (in norma) 

così ottenuta è quella che può essere usata nella disuguaglianza di Cramer-Rao (sicuramente 

~ − 

sarà P ≥ M 1 

). 

8.3.2 

.2 Entropia di informazione 

Si abbia una variabile aleatoria X con d.d.p. f ( x ) . Il valor medio di X è dato da: 

+∞ 

η X 

= E{ X} = xf( x) 

dx 

La quantità di informazione associata al processo X è definita come: 

∫ 

−∞ 

I( X) = f( x) log f( x) 

dx + k 

mentre l’entropia di informazione è definita come: 

+∞ 

∫ 

−∞ 

H( X) = − I( X) 

+ k 

Sia la quantità di informazione che l’entropia di informazione sono note a meno di una 

costante additiva. 

Ad esempio, consideriamo una variabile aleatoria uniformemente distribuita in [ 0,N ] : 

In questo caso la quantità di informazione è minima, mentre l’entropia è massima. 

Se abbiamo una variabile deterministica: 

101


l’informazione è massima mentre l’entropia è minima (sappiamo quale sarà il valore assunto 

dalla variabile aleatoria senza effettuare neanche un esperimento). 

8.3.3 

Distanza di informazione di Kullback-Leibler 

Possiamo calcolare l’informazione relativa di due distinte d.d.p. f ( x) 

1 

e f ( x) 

2 

utilizzando la 

formula: 

( ) ( ) ( ) 

0, m 

= ∫ 1 

log 

2 

I f f f x f x dx 

R 

+∞ 

−∞ 

n 

Supponiamo che f0 ( t,Z t ) sia la d.d.p. di Z t 

∈R considerando i parametri in θ 0 

e che 

f ( t,Z ) sia la d.d.p. di Z t 

considerando i parametri relativi al modello. 

m 

t 

Definiamo la distanza di informazione di Kullback-Leibler nel seguente modo: 

f 

I( f0, fm 

) = ∫ f0( t, Z 

t ) log 

n f 

R 

0 

m 

( t, 

Z 

t ) 

( t, 

Z ) 

che indica la quantità di informazione di f m 

rispetto ad f 0 

. Quanto più I( f ) 

tanto più l’informazione di f m 

è vicina a quella di f 0 

: 

( ) ( ) 

t 

dZ 

I 

0 

= ∫ f0 t, Z 

t 

log f0 

t, 

Z 

t 

dZ 

t 

+ k 

n 

R 

( , ) = ( , ) log ( , ) 

I f0 f ∫ f0 

t Z f t Z dZ 

R m t m t t 

n 

R 

⇓ 

( , ) ∫ ( , ) log ( , ) ∫ ( , ) log ( , ) 

I − I f f = f t Z f t Z dZ − f t Z f t Z dZ 

= 

0 R 0 m 0 t 0 t t 0 t m t t 

n 

n 

R 

R 

( t, 

Z 

t ) 

( t, 

Z ) 

f0 

= ∫ f0 

( t, Z 

t ) log dZ 

t 

= I f0 

f 

n f 

R 

m 

t 

t 

( , ) 

m 

0 

, f m 

è piccola 

Minimizzare (rispetto ai possibili modelli ed ai possibili parametri) la distanza relativa 

( 0 

, f m ) implica massimizzare l’entropia ( 0 m ) 

I f 

entropia: 

( ) 

( ) 

( ) 

( ) 

− I f , f + k mediante un metodo a massima 

[ ] [ ( )] 

( ) 

θ$ = arg min I f , f = arg min I − I f , f = arg min − I f , f = 

0 m 0 R 0 m R 0 m 

M θ M θ M θ 

{ [ ]} 

= arg min ⎡ +∞ 

⎤ 

− , log , arg min log , 

M 

⎣ −∞ 

⎦ 

⎢ ( ) ( ) ( ) 

( θ) ∫ f0 t Z 

t 

fm t Z 

t 

dZ t ⎥ = − E 

0 

f 

m 

t Z 

t 

M ( θ) Se il modello M è fissato ( f f( t ) 

m 

= θ, ,Z ), il minimo deve essere calcolato solo rispetto a θ : 

t 

{ 0[ ( θ Z )]} 

θ $ = arg min − E log f , t , t 

θ 

102


Se sostituiamo al valore atteso l’osservazione ( ( θ Z ) 

[ t ] ( θ Z 

t ) 

E 

0 

log f , t, = log f , t, 

) otteniamo il 

metodo della stima a massima verosimiglianza: 

[ f( t Z 

t )] f( t Z 

t ) f( t Z 

t ) 

θ $ = arg min − log θ , , = arg maxlog θ , , = arg max θ , , 

θ θ θ 

Quindi, il metodo della stima a massima entropia è un caso generale di quello della stima a 

massima verosimiglianza. 

8.4 Criterio di Akaike 

Possiamo modificare il metodo di identificazione ad errore di predizione nel seguente modo: 

N 

$ ⎡ 1 

dim 

θ( Z t ) = arg min l( , t, 

θ) 

( θ ) 

⎢ ∑ ε + 

M 

⎣N 

t= 

1 

N 

dim( θ) 

dove il termine pesa la complessità del modello (a parità di errore di predizione è 

N 

preferibile avere un modello con un numero inferiore di parametri). 

( θ) 

⎤ 

⎥ 

⎦ 

8.5 Metodo della variabile strumentale 

Possiamo cercare di identificare i parametri di un modello in modo che l’errore di predizione 

( ,Z ) sia indipendente dalla sequenza Z N 

di ingresso ( ε( t ) ε( t) 

ε t 

N 

non ci sia correlazione tra ε e Z N 

. 

Definiamo ( ) 

( ,Z ) . Se ε( t ) 

ε t 

N 

[ ] 

,Z ≡ ), cioè in modo che 

ξ t come una sequenza derivata da Z N 

ed α ε( t ) come una trasformazione di 

,Z è indipendente da Z N 

vale la seguente relazione: 

N 

f 

N 

N 

1 

θ,Z = = 0 

N 

( N ) ∑ ξ( t) α[ ε( t) 

] 

t= 

1 

[ ] ( ) 

Nel caso più semplice è ξ( t) 

= Z 

N 

e α ε( t) 

= ε t . 

Fatta la scelta di ξ( t ) e di α ε( t ) , il metodo della variabile strumentale consiste nel calcolare: 

[ ] 

2 

{ f ( Z ) 0} f ( Z ) 

θ $ = sol θ , = = arg min θ , 

N N N 

θ∈D 

N 

θ∈D N N 

(è più semplice calcolare il minimo di una funzione invece che uno zero). 

T 

Ad esempio, consideriamo il modello a regressione lineare y$ ( t, 

θ) = ϕ ( t) 

θ . In questo caso si 

T 

può porre ξ( t) = Z = ϕ( t) 

ed α ε( t) 

= ε t = y t − ϕ t θ . Si ottiene: 

N 

[ ] ( ) ( ) ( ) 

103


$θ N 

⎧ 1 

T 

( )[ ( ) ( ) θ ⎫ 

N 

= sol⎨ 

∑ ϕ t y t − ϕ t ] = 0⎬ 

⎩N 

t= 

1 

⎭ 

In questo caso particolare supporre che il modello sia a regressione lineare è equivalente ad 

usare il metodo della variabile strumentale. 

Se il modello del sistema è dato da: 

T 

y( t) = ϕ ( t) + ν ( t) 

θ 0 0 

vorremmo che si avesse θ → N 

θ 

0 

per N → ∞ . Se ν ( ) 

0 

t è correlato con ϕ( t ) allora questo 

non accade mai: il vettore θ N 

non converge al valore vero dei parametri (l’errore di 

predizione, che è legato alla ϕ( t ) , è correlato con il disturbo ν 0 

( t ) ). In questo caso la stima si 

dice polarizzata (biased). 

La ξ( t ) è detta variabile strumentale se soddisfa le seguenti proprietà: 

• E ξ( t) ϕ( t) 

≠ 0 

{ } 

{ } 

• E ξ( t) ν 0 

( t) 

= 0 

Applichiamo questo metodo al modello ARX: 

Sia: 

A( q) y( t) = B( q) u( t) + ν( t) 

( ) = ( )[ ( − 1) ( − 2) K ( − 1) ( − 2) 

K] 

ξ t k q x t x t u t u t 

dove k( q ) è un filtro e la sequenza x( t ) è generata dalla sequenza u( t ) mediante i due filtri 

N( q ) ed M( q ) nel seguente modo: 

( ) ( ) = M( q) u( t) 

N q x t 

Bisogna notare che nel vettore ξ( t ) non sono presenti le uscite del sistema. 

Se il sistema funziona in anello aperto: 

possiamo scegliere i filtri N( q ) ed ( ) 

E{ ( t) ( t) 

} 

M q e la sequenza d’ingresso u( t ) in modo tale che sia 

ξ ν = 0 . In anello chiuso questo non può essere fatto (l’ingresso del sistema dipende 

dal disturbo ν( t ) ). 

Inoltre, sicuramente E{ ξ( t) ϕ( t) 

} ≠ 0 perché ξ( t ) e ϕ( t ) contengono delle componenti uguali, 

in quanto, nel caso del modello ARX, è: 

104


⎛ − y( t − 1) 

⎞ 

⎜ ⎟ 

⎜ M ⎟ 

⎜− 

y( t − na 

) ⎟ 

ϕ( t) 

= ⎜ ⎟ 

⎜ u( t −1) 

⎟ 

⎜ M ⎟ 

⎜ 

⎝ u t 

⎟ 

⎠ 

( − n ) 

b 

8.6 Applicazioni del filtro di Kalman all’identificazione 

ricorsiva 

Finora abbiamo analizzato delle tecniche di identificazione di tipo batch, nelle quali la fase di 

raccolta dati e quella di identificazione avvengono in due momenti diversi. 

Spesso può essere utile effettuare un’identificazione in linea, cioè identificare l’impianto 

mentre sta funzionando. I metodi di identificazione in linea si chiamano anche metodi 

ricorsivi. 

Il filtro di Kalman è per sua natura ricorsivo e può essere usato per costruire uno stimatore 

ricorsivo. Quindi, il filtro di Kalman può essere usato anche per il filtraggio ottimo e non solo 

per il controllo ottimo 1 . 

Le relazioni del filtro di Kalman per la stima dello stato sono le seguenti: 

(8.2) 

⎧x( t + 1) = F( t) x( t) + G( t) u( t) + w( t) 

⎨ 

⎩y( t) = H( t) x( t) + ν( t) 

dove w( t ) è il disturbo sull’ingresso, ν( t ) è il disturbo sull’uscita e: 

T 

E{ w( t) w ( t) 

} = R 1 

( t) 

T 

E{ ν( t) ν ( t) 

} = R 2 

( t) 

T 

E{ w( t) ν ( t) 

} = R 12 

( t) 

La stima dello stato all’istante t + 1 può essere scritta in funzione della stima dello stato 

all’istante t : 

[ ] 

x$ ( t + 1) = F( t) x$ ( t) + G( t) u( t) + K( t) y( t) − H( t) x$ 

( t) 

dove il termine F( t) x$ ( t) 

è legato al vecchio stato, il termine G( t) u( t ) è legato all’ingresso ed il 

termine K( t) [ y( t) − H( t) x$ ( t) 

], con H( t) x$ ( t) = y$ 

( t) 

, è legato all’errore di predizione. Il 

guadagno K( t ) del filtro di Kalman è dato da: 

[ ][ ( ) ( ) ( ) ( ) 

12 2 ] 

K( t) F( t) P( t) H T 

T 

= ( t) + R ( t) 

H t P t H t + R t 

−1 

1 D’altra parte, l’osservabilità è il duale della controllabilità (se si integra in avanti si effettua un controllo, se si 

integra all’indietro si effettua una stima). 

105


dove P( t ) è soluzione dell’equazione di Riccati e può essere espressa dalla seguente formula 

ricorsiva: 

[ ] ( ) 

P( t ) P( t) K( t) H( t) P( t) H T 

T 

+ = − ( t) + R ( t) 

K t 

1 

2 

Inoltre, P( t ) è la matrice di covarianza dell’errore dopo la stima: 

{ } 

T 

P( t) = E e( t) e ( t) 

con: 

( ) ( ) T ( ) 

T 

{ } 

{ } [ ( ) $ ] [ ( ) $ ] 

P 0 = Π = E e 0 e 0 = E x 0 − x ⋅ x 0 − x 

0 0 0 

Consideriamo un modello a regressione lineare ( $y ( t) = ϕ T ( t) 

θ ) e supponiamo che i parametri 

siano costanti ( θ( t + 1 ) = θ( t) 

= θ ). L’equazione di misura sia la seguente: 

y( t) = ϕ T ( t) θ + ν( t) 

che è un caso particolare della seconda delle (8.2). Poiché non è presente il disturbo w( t) 

sull’ingresso, otteniamo che R 1 

= 0 ed R 12 

= 0. Inoltre, poiché u( t) 

≡ 0, F( t ) = I, G( t ) = 0 ed 

T 

H( t) = ϕ ( t) 

, l’equazione del filtro di Kalman per la stima dei parametri diventa la seguente: 

[ ] 

θ $ θ $ ϕ θ $ 

T 

( t + 1) = ( t) + K( t) y( t) − ( t) ( t) 

[ ] 

[ ] ( ) 

con K( t) P( t) ( t) T 

−1 = ϕ ϕ ( t) P( t) ϕ( t) 

+ R 

2 e P ( t ) P ( t ) K ( t ) T ( ) P ( ) ( ) 

T 

+ 1 = − ϕ t t ϕ t + R 

2 

k t . 

Se i parametri sono tempo-varianti si può utilizzare la stessa procedura ponendo, ad esempio, 

θ( t + 1) = θ( t) + w ( t) 

. 

8.7 Identificabilità 

Finora abbiamo sempre supposto di avere un modello usando il quale fosse possibile 

identificare i parametri del sistema. Ma, dato un modello M ed un sistema, possiamo sapere 

se il sistema è identificabile utilizzando il modello M ? La risposta a questa domanda dipende 

da due fattori: dal modello M scelto e dai dati di ingresso ed uscita considerati durante 

l’identificazione. 

Il nostro obiettivo è quello di ottenere un unico vettore θ dei parametri veri del sistema. 

Questo non succede se: 

• il modello non è abbastanza “ricco” come il sistema 

• l’insieme dei dati di ingresso e di uscita non è sufficientemente “ricco” per identificare il 

sistema. 

Diciamo che due modelli M 1 ( θ 1 ) ed M 2 ( θ 2 ) sono uguali se danno le stesse formule di 

predizione. I due modelli possono appartenere a classi diverse, ad esempio M 1 ( θ 1 ) può essere 

un modello ARX ed M 2 ( θ 2 ) può essere un modello ARMAX: 

106


M 1 

: A( q, θ) y ( t) = B( q, 

θ) u( t) + ν( t) 

M 2 

: ( ) ( ) ( ) ( ) ( ) ( ) 

A q, θ y t = B q, θ u t + C q, 

θ e t 

= poiché si 

ottiene in entrambi i casi la stessa formula di predizione. 

Se M 1 

ed M 2 

sono due classi diverse di modelli, esse sono uguali se per ogni predittore in M 1 

(relativo ad una qualsiasi scelta dei parametri) esiste un predittore (e quindi un vettore di 

parametri) in M 2 

che è uguale al predittore in M 1 

. Questo non vuol dire che le due classi 

sono equivalenti, ma solo che per ogni predittore in M 1 

esiste un predittore in M 2 

uguale a 

quello in M 1 

(in questo caso si può dire che M 2 

è più ricca di M 1 

: non è detto che per ogni 

predittore in M 2 

esista un predittore in M 1 

uguale a quello in M 2 

). 

Se θ 1 

= [ a K a b K b] 

T 

e θ 2 

= [ θ 1 

0 K 0] 

T , allora M1( θ1) M 

2 ( θ 

2 ) 

Una classe di modelli M 1 

è identificabile in θ * * 

se, qualora M ( θ) = M ( θ ) 

1 1 

(l’uguaglianza è 

intesa come capacità di dare lo stesso predittore), allora θ = θ 

* . Da questo deriva la proprietà 

che la predizione è unica. 

Una classe di modelli M 1 

è identificabile se è identificabile per qualunque θ ∈D . 

Teorema: Data la struttura di modello ( , θ) ( ) 

( , θ) 

( , θ) 

( ) 

( ) ( ) 

A q y t 

B q C q, 

θ 

= u( t) 

+ e t , essa è 

F q D q, 

θ 

identificabile in θ * se e solo se valgono contemporaneamente le seguenti quattro condizioni: 

• A , B e C sono polinomi primi tra loro 

• B ed F sono polinomi primi tra loro 

• C e D sono polinomi primi tra loro 

• se A ≠ 1 allora anche F e D devono essere primi tra loro 

Tutti i polinomi sono calcolati in θ = θ 

* . 

Quindi, si ha l’unicità della soluzione θ solo quando non si hanno cancellazioni polo-zero nel 

modello. Se uno zero del numeratore è vicino ad uno zero del denominatore siamo vicini ad 

una condizione di non identificabilità. In questo caso conviene ridurre l’ordine del modello. 

Questo teorema è applicabile a posteriori: si calcola il valore di θ * mediante uno dei metodi 

visti sopra e poi si verificano le quattro condizioni. 

Il sistema da identificare genera in uscita una sequenza infinita ma stazionaria Z ∞ 

(possiamo 

pensare che ogni Z N 

sia una realizzazione troncata di un processo stocastico). Se abbiamo due 

modelli M( θ 1 ) ed ( ) 

informativi se la sequenza Z ∞ 

ci permette di distinguere fra M( θ 1 ) ed ( ) 

M θ 2 

(diversi per ipotesi), si dice che i dati in Z ∞ 

sono sufficientemente 

M θ 2 

. 

Quindi, la sequenza Z ∞ 

è sufficientemente informativa se, qualora 

1 

∑ E{ [ W1 ( q) − W2 ( q) 

] Z 

N 

( t) 

} = 0 (dove W1 ( q) 

è il predittore associato ad ( ) 

N 

2 

è il predittore associato ad M( θ 2 ) ), allora W1 ( q) ≡ W2 

( q) 

. 

lim 

N→∞ 

W ( q) 

[ ] 

M θ 1 

e 

La sequenza Z N 

può essere scritta come Z N 

= u( 1) y( 1) u( 2) y( 2) 

K oppure come 

Z N 

= [ u( 1) u( 2) K y( 1) y( 2) 

K ]. In questo secondo caso possiamo scrivere: 

[ ] ( ) 

( ) 

−1 −1 

( θ) ( θ) ( θ) ( ) ( θ) 

−1 −1 

( , θ) ( , θ) ( , θ) 

Z 

y$ t, = H q, G q, u t + I − H q, 

y t = 

[ H q G q I H q ] W ( q) 

= − = 

Z 

N i N 

107


T 

Se definiamo R( Z) = E{ Z N 

Z N } 

(matrice di autocorrelazione di Z N 

), si può dire che la 

sequenza Z ∞ 

è sufficientemente informativa se la seguente matrice (matrice spettrale di Z N 

): 

Φ ( ) ( ) 

u 

Φuy 

Φ ( ) [ ( ) 

Z 

ω = ω ω 

F R Z ] = ⎡ ⎣ ⎢ ⎤ 

Φ ( ) Φ ( ) 

⎥ 

yu 

ω 

y 

ω ⎦ 

è strettamente d.p. ∀ω . Quindi, deve essere Φ ( ) Φ ( ) 

uy 

ω = 

yu 

ω . 

Questa seconda definizione è equivalente alla prima: per calcolare la matrice Φ Z 

( ω ) ∀ω 

bisogna far tendere N a + ∞ (altrimenti non si possono ottenere tutte le frequenze). 

Un segnale u( t ) stazionario con spettro Φ u 

( ω ) è persistentemente eccitante se Φ u 

( ω ) > 0 

∀ω . Un segnale persistentemente eccitante è, ad esempio, il rumore bianco. 

Condizione sufficiente affinché la sequenza Z N 

sia sufficientemente informativa è che il 

segnale d’ingresso al sistema sia persistentemente eccitante. 

8.8 Altri metodi di identificazione di sistemi lineari 

stazionari 

Se abbiamo un sistema lineare stazionario possiamo tentare di identificare la sua risposta in 

frequenza 2 utilizzando un relè: 

A causa del relè l’uscita del sistema oscilla 3 con pulsazione ω 0 

e ampiezza G( j ω 

0 ) 

π 

ω 0 

è la pulsazione per la quale la G( jω ) ha fase − π . Per valutare la ( ) 

diverse da ω 0 

si può inserire un ritardo e − jωT 

∠ 

a valle del relè, ottenendo: 

[ e − j 

( )] 

ω T 

G jω = −π ⇒ G( j ) 

∠ ω = − π + ωT 

4 

, dove 

G jω per pulsazioni 

2 Se un sistema lineare è a fase minima il suo diagramma di fase si può ricavare direttamente conoscendo quello 

di ampiezza. Per questo, in genere, quando si devono effettuare delle identificazioni si considera solo l’ampiezza 

della risposta in frequenza e non la sua fase. 

G jω non è tagliata dal semiasse reale negativo del diagramma di Nyquist. 

3 Il sistema non oscilla se la ( ) 

108


In questo modo, misurando l’ampiezza dell’uscita, possiamo ottenere l’ampiezza della G( jω) 

quando essa ha fase − π + ωT . Variando il valore T possiamo valutare l’ampiezza della G( jω) 

in diversi punti. 

Se invece di un ritardo abbiamo un integratore riusciamo a valutare l’ampiezza della G( jω) 

nel punto in cui assume fase − π 2 : 

1 ⎤ 

G( jω) 

π ⇒ ∠ G( jω) 

∠ ⎡ ⎣ ⎢ jω 

⎥ = − 

⎦ 

= − 

π 

2 

8.9 Riferimenti 

• Ljung: “System Identification: Theory For The User” (1987) (base del toolbox “System 

Identification” di Matlab) 

• Söderström - Stoica: “System Identification” (1987) 

• Ljung - Glad: “System Modelling” (1995) 

• Young: “Information Theory” 

• Torantola: “Inverse Problems Theory” 

109

Funzione modulante 

9. FUNZIONE MODULANTE 

Si abbia la seguente equazione differenziale: 

2 

d y( t) ( ) 

a dy t ( ) ( ) 

2 

+ 

1 

+ a 

0y t = b 

0u t 

dt dt 

che descrive il comportamento ingresso-uscita di un sistema. I parametri a 0 

, a 1 

e b 0 

siano 

ignoti. Il problema che ci poniamo è quello di calcolarli sfruttando le nostre conoscenze di 

u( t ) ed y( t ) in un intervallo [ t 

0 

, t 

1] 

. 

Abbiamo tre incognite, quindi, teoricamente, avendo tre relazioni possiamo risolvere il 

problema. In realtà non conosciamo le derivate prima e seconda di y( t ) . 

Se la relazione di sopra è vera, ovviamente è vera anche la seguente relazione: 

t1 

t 0 

2 

d y( t) 

dy( t) 

ϕ( t) 

a ϕ( t) 

ϕ( ) ( ) ϕ( ) ( ) 

2 

+ 

1 

+ a 

0 

t y t = b0 

t u t ∀ϕ( t ) e ∀t 

0, 

t 

1 

dt 

dt 

⇓ 

2 

t1 

t1 

t1 

d y( t) 

dy( t) 

ϕ( t) 

dt a ϕ( t) 

dt a ϕ( t) y( t) dt b ϕ( t) u( t) 

2 

+ 

1 

+ 

0 

= 

0 

dt ∀ϕ( t ) e ∀t 

dt 

dt 

∫ ∫ ∫ ∫ 

t0 

t0 

Se u( t ) è affetta da rumore, effettuando l’integrale di u( t) ϕ ( t) 

compensiamo gli effetti del 

rumore su u( t ) ( ϕ( t ) è conosciuta con precisione perché può essere scelta arbitrariamente). 

Applichiamo la formula di integrazione per parti: 

t 

t1 

∫ 

t 0 

1 

ϕ( t) y& 

( t) dt = ϕ( t) y( t) 

− ϕ& 

t y t dt 

t 0 

1 

t 

[ ] ∫ ( ) ( ) 

1 

1 

1 

t 

t 

t 

∫ [ ] ∫ ( ) ( ) [ ( ) ( )] [ ( ) ( )] ∫ ( ) ( ) 

t 0 

1 

1 

1 

ϕ( t) && y( t) dt = ϕ( t) y& ( t) 

− ϕ& t y& t dt = ϕ t y& t − ϕ& t y t + ϕ&& 

t y t dt 

Possiamo scegliere la funzione ( ) 

Il nostro integrale diventa il seguente: 

t1 

t 0 

t 0 

t 

t 0 

t0 

t 

t 0 

t 0 

ϕ t in modo che sia ϕ( t ) = ϕ( t ) = e ϕ& 

( t ) ϕ& 

( t ) 

t1 

0 1 

0 

∫ ∫ ∫ ∫ 

ϕ&& 

( t) y( t) dt − a ϕ& 

( t) y( t) dt + a ϕ( t) y( t) dt = b ϕ( t) u( t) 

dt 

t1 

t1 

1 0 0 

t0 

t0 

t 0 

t 0 

t 

t 0 

, t 

0 1 

= = : 

0 1 

0 

dove ϕ( t ) , &ϕ ( t ) e &&ϕ ( t ) sono imposti da noi e memorizzati. Possono essere utilizzate più 

funzioni ϕ( t ) diverse per ottenere diverse approssimazioni dei parametri del sistema. 

In generale si ottiene il seguente sistema algebrico: 

111


⎡ c c L c 

⎢ 

c 

21 

O 

⎢ 

⎢ 

⎢ 

⎣c 

1 

c 

11 12 1, 

n 

⎤⎡a1 

⎤ ⎡a1 

⎤ ⎡ z1 

⎤ 

⎥⎢ 

a 

⎥ ⎢ 

2 

a 

⎥ ⎢ 

⎥ 

2 

z 

⎥ 

⎢ ⎥ 

2 

= M⎢ 

⎥ = z = ⎢ ⎥ 

⎥⎢ 

M ⎥ ⎢ M ⎥ ⎢ M ⎥ 

⎥⎢ 

⎥ ⎢ ⎥ ⎢ ⎥ 

⎦⎣a 

⎦ ⎣a 

⎦ ⎣z 

⎦ 

m, m, 

n n n m 

dove gli a i 

sono i parametri ignoti del sistema. 

Bisogna scegliere un insieme di funzioni ϕ i 

( t ) tale che la matrice M risulti ben condizionata 

per evitare problemi numerici. Se il numero m delle ϕ i 

( t ) è maggiore del numero n dei 

coefficienti da calcolare possiamo applicare il metodo dei minimi quadrati: 

⎡a 

1 ⎤ 

⎢ 

a 

⎥ 

T 2 

M M⎢ 

⎥ = M 

⎢ M ⎥ 

⎢ ⎥ 

⎣a 

n ⎦ 

T 

⎡ z1 

⎤ 

⎢ 

z 

⎥ 

⎢ 

2 

⎥ 

⎢ M ⎥ 

⎢ ⎥ 

⎣z 

m ⎦ 

⎡a 

1 ⎤ 

⎢ 

a 

⎥ 

⇒ ⎢ ⎥ = ( M M) 

⎢ 

⎢ 

⎣ 

2 T −1 

T 

M ⎥ 

⎥ 

a n 

⎦ 

M z 

Se m > n si riescono a ridurre di molto le incertezze sui parametri del sistema. 

Questa tecnica è applicabile sempre (anche nel caso di sistemi non lineari), almeno finché gli 

integrali da calcolare non diventano troppo complessi. 

L’identificazione mediante questa tecnica può essere effettuata in linea (potremmo essere in 

grado di rilevare guasti nel sistema). Si può fare in modo che l’intervallo sul quale si effettua 

l’identificazione risulti ad ogni istante parzialmente sovrapposto al precedente: 

Si può, cioè, suddividere l’intervallo [ t 

0 

t 

1] 

nuovi coefficienti basta gettare via i dati compresi in [ t 

0 

t 

0 

T] 

[ t1, t1 

+ T] 

. La ϕ( t ) deve essere tale che ϕ( kT ) = 0, ( ) 

derivazione necessario). 

, in N sottointervalli di durata T . Per calcolare i 

, + e calcolare quelli in 

&ϕ kT = 0 e così via (fino all’ordine di 

112

Riduzione del modello 

10. RIDUZIONE DEL MODELLO 

Un modello di ordine elevato può rappresentare in modo abbastanza preciso un sistema ma 

può causare dei problemi di calcolo. Spesso l’ordine del modello può essere ridotto, ottenendo, 

però, una minore accuratezza dei risultati. 

10.1 Matrice di controllabilità e matrice di osservabilità 

Sia dato un sistema tempo-discreto asintoticamente stabile: 

⎧x + 1 

= Ax + Bu 

⎨ 

⎩y 

k 

= Cx 

k 

k k k 

Il sistema è controllabile se la matrice [ A AB A 2 B A 1 B] 

L n− n× 

mn 

∈R ha rango pieno 

( A ∈R n× 

n e B ∈R n× 

m ). Inoltre, il sistema è osservabile se la matrice 

[ C CA CA 2 n− L CA 

1 T 

nr × n 

] ∈R ha rango pieno ( C ∈R r× 

n ). 

Il sottospazio di controllabilità è dato da Im{ [ B AB A B] 

} 

osservabilità è dato da Im C T A T C T 

( A T 

) 

n −1 

C T 

K 

. 

{[ ]} 

K n−1 , mentre il sottospazio di 

Ma il rango di una matrice M è uguale al rango di MM T . Quindi, per studiare la 

controllabilità si può esaminare il rango della seguente matrice: 

n−1 

[ B AB K A B] 

T 

⎡ B ⎤ 

⎢ T T ⎥ 

B A 

n× 

n 

⋅ 

⎢ ⎥ ∈R 

⎢ M ⎥ 

⎢ 

T T 

B ( A ) 

n −1⎥ 

⎣⎢ 

⎦⎥ 

che è quadrata, simmetrica, ad elementi reali e non negativi. Questa matrice ha rango pieno se 

il suo autovalore più piccolo è maggiore di zero (gli autovalori sono tutti reali). 

Analogamente, per studiare l’osservabilità si può esaminare il rango della seguente matrice: 

−1 

[ C C A K C ( A ) ] 

⎡ C 

⎢ 

CA 

⋅ ⎢ 

⎢ M 

⎢ 

⎣CA 

T T T T T n n−1 

⎤ 

⎥ 

⎥ ∈R 

⎥ 

⎥ 

⎦ 

Definiamo la matrice di controllabilità in N passi nel seguente modo: 

n× 

n 

113


( ) 

T T T N−1 

T T 

C N −1 

N 

= BB + ABB A + K+ 

A B B A 

( ) 

N T T 

C 

N 

C N T 

T 

+ 1 

= 

N 

+ A BB A = BB + AC 

NA (formula ricorsiva) 

Analogamente definiamo la matrice di osservabilità in N passi nel seguente modo: 

( ) 

T T T T 

O N −1 T N−1 

N 

= C C + A C CA+ K+ 

A C CA 

O 

T T 

1 

C C+ 

A ON 

A 

N+ = 

Se gli autovalori della matrice A sono tutti minori di 1 in modulo, per N crescente A N 

tende alla matrice nulla. Possiamo calcolare il lim C , ottenendo: 

N →∞ 

N 

T 

C − ACA 

= BB 

T 

(C → N+ 1 

C 

N 

per N → ∞ ) 

che è l’equazione di Lyapunov Q − AQA T = P se Q = C e P = BB 

T . La matrice C è la 

matrice di controllabilità del sistema. 

Analogamente, nel caso dell’osservabilità otteniamo la seguente relazione per N → ∞ : 

T 

T 

O − A OA = C C 

che è l’equazione di Lyapunov Q − AQA T = P se Q = O , P = BB 

T ed A T → A . La matrice 

O è la matrice di osservabilità del sistema. 

Possiamo decidere sulla completa controllabilità o osservabilità di un sistema usando uno degli 

algoritmi esistenti per la soluzione dell’equazione di Lyapunov. 

Se il sistema è instabile quello che ora abbiamo detto non è più valido (in questo caso si ha 

almeno un autovalore di A di modulo maggiore di 1). Ma il rango di A è uguale al rango di 

ρA (ρ > 0): tutti gli autovalori di A possono cioè essere scalati per un fattore ρ , ottenendo in 

ogni caso una matrice avente tutti gli autovalori in modulo minori di 1. 

10.2 Trasformazione bilanciata 

Dato un sistema tempo-discreto: 

⎧x + 1 

= Ax + Bu 

⎨ 

⎩y 

k 

= Cx 

k 

k k k 

il legame ingresso-uscita (dato da ( z) = [ z − ] 

dello spazio di stato. Se z 

k 

−1 

G C I A B ) non dipende da una trasformazione 

= Tx otteniamo: 

k 

−1 

⎧z + 1 

= TAT z + TBu 

⎨ 

−1 

⎩y 

k 

= CT zk 

k k k 

Il polinomio caratteristico di TAT −1 

sono uguali a quelli di A : 

è uguale a quello di A , quindi gli autovalori di TAT −1 

114


[ λI − TAT −1 ] = [ λTT −1 − TAT −1 ] = T ⋅ [ λI − A] ⋅ T −1 

= [ λI − A] 

det det det det det det 

Le matrici di controllabilità ed osservabilità, invece, cambiano effettuando una trasformazione 

dello spazio di stato ma conservano il loro rango, poiché le proprietà di controllabilità ed 

osservabilità sono strutturali e non dipendono da una tale trasformazione. Otteniamo: 

Analogamente: 

− 

C − TAT 

− 

CT A T = TBB T 

⇓ 

−1 −T T CT −1 

−T T 

− AT CT A 

T 

= BB 

⇓ 

T 

C − ACA 

T 

= BB 

⇓ 

C = TCT T 

1 T T T T T 

O 

T T T T T 

− T A T OTAT = T C CT 

⇓ 

T T O T − A T T T OTA = C T C 

⇓ 

T 

T 

O − A OA = C C 

⇓ 

−T −1 

O = T OT 

− − 1 − − 1 

Quindi, mentre la matrice A si trasforma per similitudine, le matrici C ed O si trasformano 

per controgradienza. 

Utilizzando un elaboratore elettronico per il calcolo di C ed O si ottengono dei risultati non 

precisi, che possono essere pensati come la somma algebrica del risultato reale (ideale) e di un 

rumore bianco (errore). Esiste una rappresentazione che minimizza l’errore di troncamento, 

che è quella con la quale le matrici di controllabilità e di osservabilità sono uguali e diagonali. 

Questa rappresentazione, detta rappresentazione bilanciata, garantisce la minima varianza del 

rumore sull’uscita. Se si applica alla matrice A questa trasformazione non si otterrà né la 

forma compagna né quella di Jordan. 

Spesso la rappresentazione bilanciata non viene applicata in modo completo ma 

indipendentemente ai vari blocchi di A , in modo da evidenziare le parti di sistema che 

dipendono dai vari ingressi. Cioè spesso si effettua la rappresentazione bilanciata dei vari 

sottosistemi del sistema iniziale ed in seguito si compongono fra di loro le rappresentazioni dei 

vari sottosistemi così ottenute. 

Se la matrice T è tale da portare il sistema in forma bilanciata si ha: 

La matrice CO ∈R n× 

n 

Σ = C = TCT = O = T − OT 

− 

si trasforma per similitudine: 

T T 1 

CO = = TCT T T 

T OT = TCO 

T 

Σ 2 − −1 −1 

Quindi, gli autovalori della matrice CO sono invarianti rispetto a trasformazioni dello spazio 

di stato. La matrice Σ 2 è diagonale e gli elementi lungo la diagonale sono gli autovalori di CO . 

115


Questi autovalori (che sono tutti positivi) sono legati alle matrici A , B , C e sono detti valori 

caratteristici del sistema. Se uno di tali valori è molto piccolo rispetto agli altri può essere 

eliminato. In questo modo si può ridurre l’ordine del sistema. Il modello ridotto deve essere poi 

confrontato (utilizzando una famiglia di segnali canonici, come le sinusoidi) con quello 

completo per verificare se la riduzione del modello ha portato ad un’approssimazione molto 

pesante, nel qual caso la riduzione non può essere effettuata. 

10.3 Modello ridotto nel caso di sistemi tempo-discreti 

Consideriamo un sistema tempo-discreto e suddividiamo il vettore x k 

( ) 

x 1 p 

k 

∈R ed 

( 2) 

x k 

q 

∈R ( p q n 

+ = ): 

n 

∈R in due parti, 

⎧x A x A x B u 

⎨ 

⎩x A x A x B u 

( 1) ( 1) ( 2) 

k+ 

1 

= 

11 k 

+ 

12 k 

+ 

1 k 

( 2) ( 1) ( 2) 

k+ 

1 

= 

21 k 

+ 

22 k 

+ 

2 k 

( 1) ( 2) 

y 

k 

= C1x k 

+ C2x 

k 

Usando la rappresentazione bilanciata otteniamo due matrici Σ 1 

e Σ 2 

. Supponendo che gli 

autovalori di Σ 2 

siano molto piccoli rispetto a quelli di Σ 1 

possiamo trascurare 

( ) 

x k 2 , passando 

da un sistema di ordine n ad un sistema di ordine p . Si possono eliminare le variabili ( ) x k 2 , 

ottenendo: 

A regime si ottiene: 

Ma eliminare la dinamica delle 

( 1) = ( 1) 

+ 

k + 1 11 k 1 k 

x A x B u 

( 1) −1 

r 

= ( − 

11) 

1 

( 1) 1 

1( 11) 

x I A B u 

r 

−1 

r r 1 r 

y = C x = C I − A B u 

( ) 

x k 

2 

è una semplificazione troppo “brutale” (il 

2 

comportamento del sistema non è rispettato, soprattutto in bassa frequenza): le x k 

sono poco 

importanti nella descrizione della dinamica del sistema ma non possono essere eliminate. 

( 2) ( ) 

Possiamo imporre che sia x x 

2 ( 2) 

, cioè che la dinamica delle x k 

sia molto veloce rispetto a 

k+ 1 

= 

k 

2 

x k 

quella delle x ( 1 ) 

k 

, cioè che le ( ) arrivino subito a regime (un valore caratteristico molto 

piccolo corrisponde ad una dinamica molto veloce): 

( 2) ( 1) ( 2) 

x 

k 

= A 

21x k 

+ A 

22x k 

+ B 

2u 

k 

( 2) −1 

( 1) −1 

k 

= ( − 

22 ) 21 k 

+ ( − 

22 ) 2 k 

x I A A x I A B u 

( 1) ( 1) ( 2) + 1 11 

12 

1 11 12 ( 22 ) 

( 1) ( 2) −1 

( ) 

⇓ 

−1 

( 1) −1 

[ [ 1 12 ( 22 ) 2 ] 

( 1) −1 

[ 1 2 22 21] 2( 22 ) 2 

x = A x + A x + B u = A + A I − A A ⋅ x + B + A I − A B ⋅ u 

k k k k k k 

y = C x + C x = C + C I − A A ⋅ x + C I − A B u 

k 1 k 2 k k k 

( ) 

116


− 1 ~ 

C + C I − A A = C e 

− 1 ~ − 1 ~ 

Se A 

11 

+ A12 ( I − A 

22 ) A 

21 

= A , B1 + A12 ( I − A 

22 ) B 

2 

= B , 

1 2 ( 22 ) 

1 

C ( I − A ) B = D 

2 22 

− ~ 

2 , otteniamo: 

( ) ( ) 

21 

1 

⎧ 

~ 1 ~ 

x 

k+ 1 

= Ax 

k 

+ Bu 

k 

⎨ ~ ( 1) 

~ 

⎩y k 

= Cx 

k 

+ Du 

k 

. 

L’uscita del sistema di ordine ridotto dipende direttamente dall’ingresso, al contrario di quanto 

succedeva nel sistema iniziale. 

10.4 Modello ridotto nel caso di sistemi tempo-continui 

Consideriamo un sistema tempo-continuo e suddividiamo il vettore x ∈R n 

x 1 

∈R p ed x 2 

∈R q ( p + q = n ): 

⎧x& 

( ) ( ) ( ) ( ) 

1 

t = A 

11x1 t + A12x 2 

t + B 

1u 

t 

⎨ 

⎩x& 

( ) A x ( ) A x ( ) B u( ) 

2 

t = 

21 1 

t + 

22 2 

t + 

2 

t 

y( t) = C x ( t) + C x ( t) 

1 1 2 2 

in due parti, 

Usando la rappresentazione bilanciata otteniamo due matrici Σ 1 

e Σ 2 

. Supponendo che gli 

autovalori di Σ 2 

siano molto piccoli rispetto a quelli di Σ 1 

possiamo supporre &x 2 

( t ) = 0 (i 

modi legati ad x 2 

( t ) sono così rapidi che arrivano subito a regime). Otteniamo: 

1 

1 

x ( t) = −A − 

− 

A x ( t) − A B u( t) 

2 22 

21 1 22 

⇓ 

&x t = A x t + A x t + B u t = A − A 

1 

A A ⋅ x t + B − A 

−1 

A B ⋅u 

t 

( ) ( ) ( ) ( ) [ ] ( ) [ ] ( ) 

1 11 1 12 2 1 11 12 22 

2 

21 1 1 12 22 

( ) ( ) ( ) [ − 1 

−1 

] ( ) ( ) 

y t = C x t + C x t = C − C A A ⋅ x t − C A B u t 

1 1 2 2 1 2 22 

21 1 2 22 

2 

2 

− 1 ~ 

Se A 

11 

− A12A 22A 21 

= A , B A A 

− 1 ~ 

1 

− 

12 22 B 

2 

= B , C C A 

1 

1 

− 

2 22 A 

21 

= C 

otteniamo: 

− ~ 

−1 

~ 

e − C A B = D , 

2 22 

2 

⎧ ( ) 

~ 

( ) 

~ 

x& 

( ) 

1 

t = Ax1 

t + Bu t 

⎨ 

( ) 

~ 

( ) 

~ 

⎩y t = Cx Du( ) 

1 

t + t 

. 

Anche in questo caso l’uscita del sistema di ordine ridotto dipende direttamente dall’ingresso, 

al contrario di quanto succedeva nel sistema iniziale. 

117

Filtri di Laguerre 

11. FILTRI DI LAGUERRE 

11.1 Funzioni di Laguerre 

I polinomi di Laguerre sono delle funzioni ortonormali che costituiscono una base dello spazio 

delle funzioni L 2 

( 0,∞ ) (funzioni a quadrato sommabile nell’intervallo di tempo [ 0,∞ ]). 

Le funzioni di Laguerre sono date da: 

con p parametro arbitrario positivo e: 

Data una generica funzione ( ) 

∞ 

∑ 

h( t) = a L ( t) 

. 

i= 

0 

i 

i 

−pt 

( ) = 2 ⋅ φ ( 2 ) 

L t p e pt 

k 

e d 

k! 

dt 

k −t 

( t) = ( t e ) 

φ k 

t k 

h t in ( ) 

L 2 

La trasformata di Laplace di L ( t) 

k 

è data da: 

L ( s) 

p s − p 

k 

= 2 

s + p 

k 

k 

0,∞ esistono degli opportuni coefficienti a i 

per cui 

k 

( ) 2p 

k+ 

1 

= 

( ) ( s + p) 

Quindi, la trasformata di Laplace di h( t ) è data da: 

∞ 

∑ 

H( s) = a L ( s) 

i= 

0 

i 

i 

⎡ 

⎢ 

⎣⎢ 

( s − p) 

( s + p) 

⎤ 

⎥ 

⎦⎥ 

k 

11.2 Analisi di sistemi tempo-continui lineari 

stazionari 

Dato un sistema lineare stazionario con risposta impulsiva h( t ) si ha: 

∞ 

∑ 

y( t) = h( t) ⊗ u( t) = a L ( t) ⊗ u( t) = a w ( t) 

i i 

i= 

0 i= 

0 

∞ 

∑ 

i 

i 

119


dove u( t ) è l’ingresso ed y( t ) è l’uscita del sistema. Nel dominio di Laplace l’equazione di 

sopra diventa la seguente: 

∞ 

∞ 

N 

∑ i i ∑ i i ∑ 

i= 

0 i= 

0 i= 

0 

Y( s) = H( s) U( s) = a L ( s) U( s) = a W ( s) ≅ a W ( s) = W( s) 

a 

dove W( s ) è un vettore riga contenente le W ( s) 

i 

ed a è un vettore colonna contenente i 

parametri a i 

. 

Nel dominio del tempo W( s ) diventa W( t ) i cui elementi W ( t) 

i 

(uscite associate con le i- 

esime funzioni di Laguerre) sono dati da: 

W ( t) = L ( t) ⊗ u( t) 

i 

I filtri di Laguerre consentono di determinare in linea i coefficienti dello sviluppo in serie di 

Laguerre della risposta impulsiva di un sistema: 

i 

i 

i 

Un filtro di Laguerre viene realizzato in N stadi, il primo dei quali (quello per i = 0 ) ha f.d.t. 

1 

data da mentre gli altri (quelli per i > 0 ) hanno f.d.t. date da s − p 

s + p 

s + p 

: 

Indicando con a il vettore dei coefficienti effettivi e con $a ( t ) il vettore delle stime di tali 

coefficienti all’istante t possiamo definire l’errore di stima nel seguente modo: 

[ ] ( ) ( ) 

e( t) = y ( t) − y ( t) = W( t) a$ ( t) 

− a = W t a~ 

t 

c 

m 

120


dove y ( t) ( t) ( t) 

c 

= W a$ è l’uscita calcolata all’istante t e y ( t) ( t) 

m 

= W a è l’uscita misurata 

all’istante t . 

La legge di adattamento dei parametri $a ( t ) è data da: 

d 

dt 

$a ( t) = −p W T 

0 

( t) e( t) 

dove p 0 

è una costante di guadagno arbitraria. Otteniamo : 

dove W T ( t ) W( t ) = Q( t ) ≥ 0: 

d ~ d 

T 

T 

a( t) = a$ ( t) = − p W ( t) e( t) p W ( t) W( t) ~ a( t) 

0 

= − 

0 

dt dt 

La condizione iniziale del blocco integratore deve essere nulla. 

La convergenza per N → ∞ è tanto più rapida quanto più il polo p è vicino al polo più lento 

del sistema. Comunque la conoscenza del polo più lento non è necessaria anche se può 

velocizzare il processo di identificazione. 

La convergenza degli a i 

è assicurata se l’ingresso è permanentemente eccitante. 

11.3 Sistemi non lineari 

L’identificazione in linea mediante i filtri di Laguerre è giustificata teoricamente solo per 

sistemi lineari stazionari. Ma la rapidità di convergenza dell’algoritmo di adattamento 

permette ai filtri di Laguerre di inseguire con precisione il comportamento ingresso-uscita di 

molti sistemi non lineari, anche se in questi casi i coefficienti non si stabilizzano. Comunque 

non è chiaro sotto quali condizioni il comportamento ingresso-uscita di un generico sistema 

non lineare sia riproducibile da un banco di filtri di Laguerre con coefficienti tempo-varianti. 

11.4 Miglioramenti dei filtri di Laguerre 

I filtri di Laguerre dipendono dal parametro p , detto “polo di Laguerre”, che viene specificato 

dall’utente. Più p è vicino al polo lento del sistema, minore è il numero di filtri necessari per 

identificare il sistema, a parità di errore di approssimazione. Filtrando opportunamente i 

segnali di ingresso-uscita è possibile costruire reti di Laguerre con poli differenti per 

approssimare il sistema in differenti bande di frequenza: 

121


aggiungere altri filtri passabanda sotto altri banchi di filtri di Laguerre. 

11.5 Generalizzazioni delle funzioni di Laguerre 

Esistono funzioni ortonormali che generalizzano i polinomi di Laguerre, dette funzioni di 

Kautz: 

2 

2b 1 

ks 

k− 

s − b 

is + c 

Ψ 2 1 

( ) 

k− 

s = 2 ∏ 2 

s + b s + c s + b s + c 

k 

k 

i= 

1 

2 

2b 1 

kc 

k− 

k s − bis + c 

Ψ 2 

( ) 

k 

s = 2 ∏ 2 

s + b s + c s + b s + c 

k 

con b k 

≥ 0 e c k 

≥ 0. 

Se b = k 

p e c k 

= 0 si ottengono le funzioni di Laguerre. 

Se b = k 

b e c c k 

= si ottengono le cosiddette “funzioni di Kautz a due parametri”. Le funzioni 

di Kautz a due parametri sono la scelta ottima se il sistema da identificare è caratterizzato da 

una coppia di poli dominanti complessi coniugati: 

k 

i= 

1 

i 

i 

i 

i 

i 

i 

122


123

12. CENNI SULL 

ENNI SULL’IDENTIFICAZIONE DEI 

SISTEMI NON LINEARI 

La dinamica di un sistema lineare &x ( t) = Ax( t) + bu( t) 

è data dalla somma di un’evoluzione 

forzata e di un’evoluzione libera. Lo stato di un sistema di questo tipo è quindi dato da una 

somma di esponenziali. Se il sistema è non lineare la descrizione della sua dinamica diventa 

più complessa 1 . Ci farebbe comodo, però, che anche in questo caso lo stato del sistema fosse 

descrivibile come somma di funzioni di un certo tipo. 

Ad esempio, se lo stato di un sistema non lineare è descritto da x( t) 

= 

N 

N 

∑ 

i= 

0 

x 

i 

cosωit 

, allora 

x& 

( t) 

= −∑ ωixi 

senωit 

. Se il sistema originario è descritto dalla relazione x& ( t) = f( x( t) , u( t) 

), la 

i= 

0 

sua evoluzione libera è data da: 

N 

− = ⎛ N 

⎝ ⎜ ⎞ 

∑ωix 

i 

sen iωt f ∑x 

i 

cosiωt⎟ 

⎠ 

i= 0 i= 

0 

Sviluppando la f in serie di Fourier ed uguagliando tra loro i termini isofrequenziali 

otteniamo un insieme di relazioni che possono permetterci di determinare i parametri del 

sistema. 

Lo scostamento tra &x ( t ) ed f x ( t) , u( t) 

può essere definito come: 

ε 2 0 

( ) 

T 

[ x ( ) ( x T 

( ) ( ))] x ( ) x ( ) ( ) 

[ ( )] 

= ∫ & t − f t , u t & t − f t , u t dt 

Si può dimostrare che x 

a 

− x < ε = 

del sistema. 

ε 2 , dove x a 

è lo stato approssimato ed x è lo stato reale 

12.1 Modelli di Hammerstein e di Wiener 

Un modello di sistema dato da un blocco non lineare seguito da un blocco lineare è detto 

modello di Hammerstein: 

1 La funzione descrittiva è un metodo approssimato per analizzare la dinamica di un sistema non lineare perché 

si considera solo la prima armonica dell’uscita. Per avere una descrizione più accurata del comportamento del 

sistema dovremmo considerare anche le armoniche successive alla prima. Inoltre, il metodo della funzione 

descrittiva è valido solo per non linearità dispari. 

125


Un modello di sistema dato da un blocco lineare seguito da un blocco non lineare è detto 

modello di Wiener: 

Spesso un sistema non lineare può essere modellato secondo Hammerstein o Wiener. 

Volendo identificare il blocco lineare e la non linearità di un sistema modellato secondo 

Hammerstein o Wiener si ha il problema di non poter decidere dove inserire le costanti 

moltiplicative (possono essere inserite nella non linearità o nel blocco lineare). In genere si 

parte dall’ipotesi di avere un fattore moltiplicativo uguale ad 1 nella non linearità o nel 

blocco lineare. 

126

Reti neurali 

13. RETI NEURALI 

Le reti neurali nascono nel 1940~45 ad opera di McCulloch e Pitt. Le reti neurali all’inizio 

erano intese come un tentativo di riproduzione del comportamento di neuroni biologici e per 

questo sono stati trasferiti in quest’ambito termini come neurone (unità elementare di 

elaborazione), assone (collegamento in uscita dal neurone) e sinapsi (connessioni tra ingressi 

di un neurone ed uscite di altri neuroni). Un neurone è inoltre caratterizzato da una funzione 

di attivazione F, da una funzione d’uscita θ , dagli ingressi x i 

e da un peso w i 

per ogni 

connessione in ingresso, in modo che l’uscita di un neurone può essere scritta come: 

{ [ ]} 

o ( t + 1) = θ F w ( t) , x ( t) 

i i i 

Tipicamente la funzione d’attivazione è la somma pesata degli ingressi e può presentare una 

soglia µ : F( w 

i 

, xi ) = ∑ w 

ix 

i 

− µ . 

i 

I pesi delle connessioni possono essere variati durante la fase di apprendimento: la rete può, 

cioè, imparare modificando i pesi delle sue connessioni, dando più importanza ad alcune e 

meno ad altre. La fase di apprendimento (learning phase) consiste nel presentare alla rete una 

serie di ingressi, detti esempi (l’insieme degli esempi viene detto training set), e nel verificare 

che la rete risponda correttamente (le uscite corrette devono essere conosciute). In base 

all’errore commesso dalla rete vengono aggiornati (in base ad una qualche regola) i pesi delle 

connessioni e il processo di apprendimento ricomincia. La fase di apprendimento termina 

quando l’errore commesso dalla rete sugli esempi è sufficientemente basso. Quando è stato 

presentato alla rete l’intero training set si dice che è terminata un’epoca di apprendimento. 

Dopo l’apprendimento la rete dovrebbe rispondere correttamente anche su un soprainsieme 

del trainig set, detto validation set. 

Questo comportamento vuole assomigliare a quello che avviene nel cervello, nel quale i 

collegamenti tra neuroni che comunicano poco si indeboliscono e i collegamenti tra neuroni 

che comunicano molto si rafforzano. 

I primi studi sulle reti neurali furono accompagnati da un grande ottimismo perché si pensava 

di aver trovato un modello matematico che riuscisse a descrivere in modo abbastanza preciso 

il comportamento di un cervello, e cioè di un essere pensante. Questi studi ricevettero un 

grande impulso quando, negli anni 1960~65, Rosenblatt ideò il percettrone e una regola per 

la determinazione in linea dei pesi. Ma successivamente (1969) Minsky mostrò che questo 

modello non era in grado di apprendere il comportamento di semplici operatori booleani, in 

127


particolare dello XOR. Questo causò una lunga pausa nello studio sulle reti neurali fino al 

1986, quando fu pubblicato un libro di Rumelhart (“P.D.P.”, Parallel Distributed Processing), 

che presentava un percettrone multistrato, con apprendimento dato dalla Back Propagation. 

Successivamente furono ideati molti altri tipi di reti, che tentano tutti, in una qualche misura, 

di risolvere problemi che richiedono una certa “intelligenza”, anche se è stato definitivamente 

abbandonato il “sogno” di poter modellare in questo modo esseri intelligenti. 

13.1 Percettrone 

Un percettrone è descrivibile nel seguente modo: 

n 

⎡ 

⎤ 

o( t + 1) = θ⎢∑ 

w ( t) 

iξ i 

− µ ⎥ 

⎣ i= 

1 ⎦ 

dove la funzione d’uscita θ è di tipo binario e può essere data da θ( h) = sgn ( h) 

(come in 

figura) o da θ( h) = u( h) 

. 

Nella formula di sopra c’è una dipendenza dal tempo che può essere eliminata, ottenendo: 

Se µ = 0 e θ( h) = u( h) 

otteniamo: 

n 

⎛ ⎞ 

o = θ⎜∑ 

w i 

ξ i 

− µ ⎟ 

⎝ ⎠ 

i= 

1 

T 

o = u( w ξ) 

Il prodotto scalare tra due vettori è positivo quando l’angolo α compreso è tale che 

π 

− < α < 

π 

2 2 : 

2 

Se ξ ∈R , fissando w la rete può riconoscere tutti gli ξ che sono dalla parte di w rispetto 

alla retta perpendicolare a w e passante per l’origine: 

128

Reti neurali 

La parte di piano tratteggiata è quella in cui giacciono tutti i vettori ξ che possono essere 

riconosciuti dalla rete. Utilizzando un valore diverso da zero per la soglia µ si può traslare la 

retta che separa i due insiemi. 

L’insieme dei vettori che sono riconosciuti da un percettrone e quello dei vettori che non sono 

riconosciuti sono linearmente separabili, cioè sono separati da una superficie lineare ad n 

dimensioni ( n è la dimensione di ξ ). Una rete a due strati come il percettrone può 

riconoscere solo ingressi che appartengono ad un insieme che sia linearmente separabile da 

quello degli ingressi non riconosciuti. 

Un percettrone di questo tipo riesce ad imparare l’AND e l’OR ma non lo XOR: 

Infatti, sia nel caso dell’AND 1 : 

ξ 1 

ξ 2 

AND OR XOR 

0 0 0 0 0 

0 1 0 1 1 

1 0 0 1 1 

1 1 1 1 0 

che nel caso dell’OR: 

1 I cerchi pieni sono in corrispondenza dei vettori che devono essere riconosciuti dalla rete, mentre quelli vuoti 

sono in corrispondenza dei vettori che non devono essere riconosciuti dalla rete. 

129


riusciamo a trovare almeno una retta (e quindi un vettore w di pesi) che separa l’insieme 

degli ingressi riconosciuti dalla rete da quello degli ingressi non riconosciuti. Nel caso dello 

XOR, invece, tale retta non esiste: 

13.2 Reti a due strati 

Una generica rete a due strati è la seguente: 

o 

n 

= ⎛ w 

⎝ ⎜ ⎞ 

θ ∑ ξ ⎟ 

j= 

1 ⎠ 

k jk j 

Ogni neurone del primo strato è collegato a tutti i neuroni del secondo strato ma non vi sono 

collegamenti tra neuroni appartenenti allo stesso strato. 

130

Reti neurali 

Cerchiamo una regola per determinare i pesi w jk 

nel caso in cui θ( h) = sgn ( h) 

. Dato il 

training set 

( ) 

o i 

( i) ( i) 

N 

{ x , y } 

i 

vogliamo che sia ( i) ( i) 

min o − y 

=1 

ed è l’uscita della rete quando l’ingresso è 

Poichè θ( h) = sgn ( h) 

, la componente k-esima di 

W 

N 

∑ 

i= 

1 

( ) 

ξ = x i . 

( ) 

o i , 

2 

, dove W è la matrice dei w jk 

( ) 

o k 

i 

, vale o 1 o −1: 

n 

n 

( i) ( i) 

k 

θ ∑ jkξ j 

θ ∑ jk j 

j= 1 ⎠ j= 

1 

o = ⎛ w w x 

⎝ ⎜ ⎞ 

⎟ = ⎛ ⎝ ⎜ ⎞ 

⎟ = ± 1 

⎠ 

Inoltre, la componente k-esima di 

( ) 

y i , 

( ) 

y k 

i 

, deve valere o 1 o −1 (altrimenti quell’uscita non 

sarebbe mai riproducibile dalla nostra rete). Possono aversi i due seguenti casi: o ed 

hanno segno uguale (sono uguali) o hanno segno diverso (sono diversi). 

( i) 

( i) 

Se o k 

ed y k 

hanno lo stesso segno i pesi della rete non devono essere modificati. Se 

( ) 

y k 

i 

hanno segno diverso possiamo aggiornare i pesi nel seguente modo: 

w = w + ∆w 

jk( new) jk( old ) jk 

( ) 

o k 

i 

( ) 

o k 

i 

( ) 

y k 

i 

ed 

con: 

( i) ( i) 

( k k ) 

∆w = η y − o 

jk 

ξ 

j 

− può valere o 2 o − 2. Il learning rate η dà una misura di quanto devono 

essere modificati i nuovi pesi rispetto ai vecchi. 

Ora supponiamo che sia θ( h) 

= kh (funzione d’uscita lineare). Possiamo imporre θ( h) 

= h e 

dove ( i 

y 

) o 

( i ) 

k k 

( ) ( ) 

i 

i 

includere la costante k nei pesi. In questo caso è o = Wx (la matrice W dei pesi effettua 

una trasformazione dell’ingresso) e, se la W è quella che permette alla rete di riconoscere gli 

esempi del training set, si ha: 

cioè: 

⎡ o 

⎢ 

⎢o 

⎢ M 

⎢ 

⎣⎢ 

o 

( 1) 

( 2) 

⎤ ⎡W 

0 0 L 0 ⎤⎡ 

x 

⎥ ⎢ 

0 W 0 L 0 

⎥⎢ 

⎥ 

x 

= ⎢ 

⎥⎢ 

⎥ ⎢ 

O ⎥⎢ 

M 

⎥ ⎢ 

⎥⎢ 

⎦⎥ 

⎣ 0 0 0 L W⎦⎣⎢ 

x 

( 1) 

( 2) 

⎤ ⎡ y 

⎥ ⎢ 

⎥ y 

= 

⎢ 

⎥ ⎢ M 

⎥ ⎢ 

⎦⎥ 

⎣⎢ 

y 

( 1) 

( 2) 

( N ) 

( N) 

( N) 

n 

( i) ( i ) ( i) 

k 

= ∑ ji j 

= 

k 

j= 

1 

o w x y 

⎤ 

⎥ 

⎥ 

⎥ 

⎥ 

⎦⎥ 

N m 

∑∑ 

( k k ) 

( i ) ( i ) ( i ) ( ) 

Definiamo la funzione di costo E( W ) = ⎜y − w x ⎟ = y − o 

i 

1 

2 

N 

m 

∑∑ 

Possiamo calcolare il valore di W per cui si ha min E ( W) 

⎛ 

n 

k 

jk j 

i= 1 k= 

1 

j= 

1 

i= 

1 k= 

1 

W 

⎝ 

∑ 

⎞ 

⎠ 

1 

2 

: i pesi possono essere aggiornati in 

modo che la direzione di discesa sia opposta rispetto al gradiente della funzione di costo: 

. 

131


∆w 

jk 

E 

= − η ∂ = −η − = −η δ 

∂w 

jk 

N 

( ) ( ) 

( ) ( ) N 

i i i 

y o x ( i ) x 

( i 

∑ 

) 

k k j ∑ k j 

i= 1 i= 

1 

( ) 

( ) ( ) ( ) 

i 

con δ k 

= y 

i i 

k 

− o 

k 

. 

La formula scritta sopra vale nel caso di addestramento off-line. Nel caso di addestramento online 

i pesi devono essere aggiornati dopo aver presentato alla rete ogni singolo esempio, con: 

∆w 

jk 

= −ηδ 

( i) ( i) 

k 

x 

j 

Se θ non è lineare ma è differenziabile possiamo definire la funzione di costo in questo modo: 

N m 

n 

1 ⎡ 

( i) ( i) 

E( W ) = y 

k 

− ⎛ w 

jkx 

j 

i k ⎝ ⎜ ⎞⎤ 

∑∑ ⎢ θ ∑ ⎟⎥ 

2 = 1 = 1 ⎣⎢ 

j= 

1 ⎠⎦⎥ 

ottenendo: 

con: 

∆w 

jk 

= −ηδ ~ 

( i) ( i) 

k 

x 

j 

~ 

⎛ ⎞ ⎛ 

( i) ( i) ( i) 

δ 

k 

= 

k 

− 

k 

θ δ θ 

⎝ j ⎠ ⎝ 

n 

n 

( i) ( i) ( i) 

( y o ) ' ⎜∑ 

w 

jkx ⎟ 

j 

= 

k 

' ⎜∑ 

w 

jkx 

j 

= 1 j= 

1 

Le funzioni θ e θ' sono note perché sono imposte da noi. 

1 

Se θ è una sigmoide ( θ( h) 

= + 

− 

): 

1 e kh 

⎞ 

⎟ 

⎠ 

si può dimostrare che: 

∂θ 

θ'= = kθ( 1− 

θ) 

∂h 

La sigmoide è in pratica una funzione binaria approssimata con la proprietà di essere 

infinitamente differenziabile e di avere comportamento lineare per h ≅ 0 . Invece la seguente 

funzione, pur essendo un’approssimazione del gradino, non è differenziabile: 

132

Reti neurali 

13.3 Reti multistrato 

In una rete multistrato ogni neurone di uno strato è collegato a tutti i neuroni dello strato 

successivo ma non vi sono collegamenti tra neuroni appartenenti allo stesso strato. Tutti gli 

strati tranne il primo (detto strato d’ingresso) e l’ultimo (detto strato d’uscita) sono detti strati 

nascosti. 

L’uscita di uno strato può essere calcolata conoscendo l’uscita dello strato precedente: 

n 

( s ) 

o 

ls 

= ⎛ w 

jl 

o 

j( s ) 

⎝ ⎜ ⎞ 

−1 

θ ∑ ⎟ 

−1 

j= 

1 ⎠ 

dove o ls 

è l’ l -esima componente dell’uscita dell’ s -esimo strato, o j( s−1 ) è la j-esima 

( s−1) 

componente dell’uscita dell’ ( s − 1) 

-esimo strato ed i w jl 

sono i pesi dei collegamenti tra 

l’ ( s − 1) 

-esimo strato e l’ s -esimo strato. 

Avendo più di due strati si riescono ad ottenere superfici non lineari di separazione e quindi si 

riescono risolvere più problemi rispetto a quelli risolvibili con reti a due soli strati. 

Ad esempio, consideriamo la seguente rete: 

dove i numeri in corrispondenza dei neuroni sono i valori della soglia µ per le funzioni 

d’attivazione ed i numeri in corrispondenza dei collegamenti sono i valori dei pesi dei 

collegamenti stessi. La funzione d’uscita sia: 

Questa rete riesce ad imparare lo XOR: 

( ) θ h = 

⎧1 se x > 0 

⎨ 

⎩0 se x ≤ 0 

133


x 1 

x 2 

y XOR 

0 0 0 0 

0 1 1 1 

1 0 1 1 

1 1 0 0 

Questa non è la soluzione unica al problema (esistono valori diversi delle soglie e dei pesi con 

i quali la rete simula ancora il comportamento dello XOR). 

Una rete avente i neuroni disposti in modo opportuno e avente delle funzioni d’attivazione e 

d’uscita opportune riesce a risolvere tutti i problemi che riesce a risolvere una macchina di 

Turing. 

Il tipo di funzioni che si riescono ad approssimare con una rete a più strati dipende dalla 

funzione d’uscita, dalla funzione d’attivazione, dal numero di strati nascosti e dal training set. 

Ad esempio, se θ è lineare si possono solo approssimare funzioni lineari, indipendentemente 

dal numero di strati nascosti. 

13.4 Back Propagation 

Il problema che si ha con le reti a più di due strati è quello dell’aggiornamento dei pesi, 

perché non si conoscono le uscite desiderate degli strati nascosti. Questo problema viene 

risolto utilizzando la Back Propagation, che consiste nel riportare indietro (verso gli strati 

nascosti) l’errore sullo strato d’uscita. 

Consideriamo una rete a tre strati (avente quindi un solo strato nascosto): 

Siano ξ l’ingresso della rete, v l’uscita dello strato nascosto, o l’uscita della rete, w ih 

i pesi 

delle connessioni tra i primi due strati e u hk 

i pesi delle connessioni tra gli ultimi due strati. 

Nelle espressioni che seguono useremo gli indici j , h e k per individuare i neuroni degli 

strati d’ingresso, nascosto e d’uscita rispettivamente. Inoltre, l’insieme di addestramento sia 

dato da 

( i) ( i) 

N 

{ x , y } . i=1 L’uscita del neurone h -esimo dello strato nascosto relativa all’ingresso 

v 

n 

( i) ( i) 

h 

θ ∑ w 

jhx 

j 

j= 

1 

= ⎛ ⎝ ⎜ ⎞ 

⎟ 

⎠ 

( ) 

x i 

è data da: 

mentre l’uscita del neurone k -esimo dello strato d’uscita relativa all’ingresso 

( ) 

x i 

è data da: 

134

Reti neurali 

La funzione di costo da minimizzare sia: 

o = ⎛ u v u w x 

⎝ ⎜ ⎞ ⎡ ⎛ 

⎣⎢ 

⎝ 

p 

p 

n 

( i) ( i) ( i) 

k 

θ ∑ hk h 

⎟ = θ⎢∑ 

hkθ⎜∑ 

jh j 

h= 1 ⎠ h= 

1 j= 

1 

1 

E = y − o 

2 

N m 

( i) ( ) 

( i 2 

∑∑ k k ) 

i= 

1 k= 

1 

Le variazioni dei pesi sui collegamenti tra lo strato nascosto e quello d’uscita sono date da: 

con: 

∆u 

hk 

E 

= −η ∂ 

∂u 

hk 

⎞⎤ 

⎟⎥ 

⎠⎦⎥ 

⇓ 

N 

p 

∂E 

( i ) ( i) 

⎡ 

( i ) ⎤ ( ) 

= −∑ 

( y 

k 

− o 

k ) θ' 

u 

hkv h 

v 

i 

h 

∂u 

⎢∑ 

⎥ 

hk i= 

1 

⎣ h= 

1 ⎦ 

⇓ 

N 

p 

N 

( ) ( ) 

⎡ ⎤ 

i i 

i 

∆u 

hk 

y 

k 

o 

k 

u 

hk 

v 

h 

v i 

i 

= η∑ 

− θ' 

⎢∑ 

⎥ h 

= η∑ 

δ 

k 

v 

i= 1 ⎣ h= 

1 ⎦ 

i= 

1 

( ) ( ) ( ) ( i) 

( ) 

δ 

( i) 

( y o ) θ' 

⎢∑ 

u 

hk 

v 

h 

( i) ( i) ( i) 

k 

= 

k 

− 

k 

Le variazioni dei pesi sui collegamenti tra lo strato d’ingresso e quello nascosto sono calcolate 

riportando indietro l’errore sullo strato d’uscita: 

∆w 

jh 

⎡ 

⎣ 

p 

h= 

1 

E 

= −η ∂ 

∂w 

⇓ 

N 

( i ) N 

p 

n 

∂E 

∂E 

∂v 

h 

( ) ( ) 

⎡ 

( ) 

⎤ ⎡ ⎤ 

i 

( ) ( ) 

( ) 

( y o i 

) θ u v i 

i 

= ∑ = − u θ w x x 

i ∑ k 

− 

k 

' 

i 

hk h hk jh j j 

∂w 

jh i ∂v 

∂w 

⎢∑ ⎥ ' ⎢∑ 

⎥ 

= 1 h jh i= 

1 

⎣ h= 1 ⎦ ⎣ j= 

1 ⎦ 

⇓ 

N 

p 

n 

N 

n 

( ) ( ) 

⎡ ⎤ ⎡ ⎤ 

⎡ ⎤ 

i i 

i 

i i 

i 

i 

∆w 

jh 

= η∑ 

y 

k 

− o 

k 

θ' ⎢∑ 

u 

hk 

v 

h ⎥u hkθ' ⎢∑ 

w 

jhx j ⎥ x 

j 

= η∑ 

δ 

k 

θ' 

⎢∑ 

w 

jhx j ⎥x 

i= 1 ⎣ h= 1 ⎦ ⎣ j= 

1 ⎦ 

i= 

1 ⎣ j= 

1 ⎦ 

( ) ( ) ( ) ( ) ( ) ( i) 

( ) 

jh 

⎤ 

⎥ 

⎦ 

h 

j 

13.5 Miglioramenti della Back Propagation 

È possibile introdurre il momentum α , che fa in modo che la nuova direzione di discesa tenga 

conto della vecchia. Infatti, se η è grande si può procedere a “zig-zag” e questo può causare 

una velocità di convergenza molto bassa: 

135


Se l’apprendimento è con momentum, l’aggiornamento dei pesi avviene mediante la seguente 

relazione: 

E 

∆w ( t ) ( ) 

ij 

+ 1 = − η ∂ + α∆w 

ij 

t 

∂w 

ij 

La seguente figura si riferisce al caso in cui α = 1 2 : 

Inoltre, un altro problema che si può avere è quello di convergere verso un minimo locale. Per 

evitare questo problema si può addestrare la rete con degli algoritmi che facciano uso di 

metodi di minimizzazione globale come gli algoritmi genetici o quelli di simulated annealing. 

13.6 Utilizzo delle reti neurali per il controllo di 

sistemi 

Le reti neurali possono essere usate anche per il controllo e non solo per l’identificazione di 

sistemi. Siccome le reti neurali hanno la capacità di apprendere è possibile utilizzarle per il 

controllo di sistemi non lineari il cui comportamento non è conosciuto con precisione. In 

questo caso non è possibile addestrare la rete con degli esempi, che presuppongono la 

136

Reti neurali 

conoscenza delle corrispondenze ingresso-uscita del sistema. Può essere usato uno schema del 

seguente tipo, nel quale il critico “premia” o “punisce” la rete a seconda che l’uscita del 

sistema sia vicina o meno a quella desiderata: 

Il critico agisce sull’uscita del sistema e non sull’uscita della rete, come avviene nel tipo 

d’addestramento utilizzato per l’identificazione ed illustrato sopra. 

137

APPENDICI

A. INVERSIONE DI MATRICI DI GRANDI 

DIMENSIONI 

⎡ 

Si abbia una matrice A B ⎤ 

⎢ 

⎣C 

D 

⎥ , con A ∈R p× 

p , B ∈R p× 

q , C ∈R q× 

p , D ∈R q× 

q . Affinchè 

⎦ 

⎡X 

Y⎤ 

⎡A 

B⎤ 

⎢ 

⎣U 

V 

⎥ , con X ∈R p× 

p , Y ∈R p× 

q , U ∈R q× 

p , V ∈R q× 

q , sia l’inversa di ⎢ 

⎦ 

⎣C 

D 

⎥ deve essere: 

⎦ 

⎡A 

⎢ 

⎣C 

B⎤ 

X 

D 

⎥ ⎡ ⎦⎣ ⎢ U 

Y⎤ 

I 

V 

⎥ = ⎡ 

⎦ ⎣ ⎢ 0 

0⎤ 

I 

⎥ 

⎦ 

⎡X 

⎢ 

⎣U 

Y⎤ 

A 

V 

⎥ ⎡ ⎦⎣ ⎢ C 

B⎤ 

I 

D 

⎥ = ⎡ 

⎦ ⎣ ⎢ 0 

0⎤ 

I 

⎥ 

⎦ 

da cui si ottiene: 

⎧AX + BU = I 

⎪AY 

+ BV = 0 

⎨ 

⎪CX 

+ DU = 0 

⎩ 

⎪CY + DV = I 

⎧XA + YC = I 

⎪XB 

+ YD = 0 

⎨ 

⎪UA 

+ VC = 0 

⎩ 

⎪UB + VD = I 

Possiamo scrivere le sottomatrici X , Y , U e V in funzione delle sottomatrici A , B , C e D : 

−1 

U = −VCA 

Y = −A −1 BV 

X = A 1 

− YCA 1 

= A 1 

+ A 1 

BVCA 1 

= A 1 

− A 1 

BU 

V = D 1 −1 

− D CY 

⇓ 

Y = − A − 1 

BD − 1 

+ A − 1 

BD − 1 

CY 

Y = − I − A − BD − − − − 

C A BD 

⇒ ( ) 

( ) 

( ) 

1 1 1 1 1 

X = A − YCA = A + I − A BD C A BD CA 

−1 −1 −1 −1 −1 −1 −1 −1 −1 

V = D + D C⋅ I − A BD C A BD 

−1 −1 −1 −1 −1 −1 −1 

141

Appendici 

( ) 

U = −D CA − D C⋅ I − A BD C A BD CA 

−1 −1 −1 −1 −1 −1 −1 −1 −1 

In questo modo è possibile invertire matrici di grandi dimensioni effettuando inversioni di 

matrici di dimensioni minori. 

142

Metodi di integrazione numerica 

B. METODI DI INTEGRAZIONE NUMERICA 

In questa appendice vedremo alcuni metodi di integrazione numerica di equazioni 

differenziali del tipo: 

&x = f( x) 

Nei prossimi paragrafi useremo la notazione x x( k t) 

k 

= ∆ , dove ∆t = h è il passo di 

campionamento. 

Un caso particolare di equazione differenziale è &x = −λ x , che descrive la dinamica di un 

sistema SISO. Se il sistema è stabile allora λ > 0 ( λ è il polo del sistema). 

B.1 Metodo di Eulero 

Possiamo utilizzare l’approssimazione di Eulero: 

dove: 

x 

k +1 

− x 

k 

&x ≅ 

∆ t 

xk + 1 

= xk + hf ( x 

j ) 

⎧k 

j = ⎨ 

⎩k 

+ 1 

(metodo esplicito) 

(metodo implicito) 

B.1.1 

Metodo esplicito 

Nel caso particolare del sistema SISO di sopra si ottiene la seguente equazione alle differenze 

semplice: 

x x h x ( h ) 

+ 1 

= − λ = 1− 

λ x 

k k k k 

Quest’equazione è stabile quando 1− hλ < 1. Siccome h > 0 e λ > 0 , allora deve essere 

hλ < 2 ⇒ h < 2 λ 

(passo di campionamento). Quindi, se λ è piccolo il sistema è lento e il 

passo di campionamento può essere grande; se λ è grande il sistema è veloce ed il passo di 

campionamento deve essere piccolo. Più è piccolo il passo di campionamento più il metodo è 

lento. 

Il metodo di Eulero esplicito è presente in Simulink con il nome di metodo di Eulero. 

143

Appendici 

B.1.2 

.2 Metodo implicito 

Nel caso particolare del sistema SISO di sopra si ottiene: 

La condizione di stabilità è: 

x = x − hλx 

k+ 1 k k+ 

1 

⇓ 

( + hλ) 

x = x 

1 

k+ 

1 

⇓ 

1 

x 

h 

x 

k+ 1 

= 

1 + λ 

k 

k 

1 

1+ 

hλ 

1 

= < 1 

1 + hλ 

Questa disequazione è soddisfatta sempre perché h > 0 e λ > 0 . Anche se il sistema originario 

è instabile (quindi λ < 0) possiamo trovare dei valori di h con i quali il metodo di 

integrazione è stabile. 

Il metodo di Eulero implicito ci permette di scegliere il passo di campionamento che 

preferiamo. Questo, però, vale solo per la stabilità del metodo di integrazione e non per 

l’approssimazione che otteniamo: se il passo è grande la stabilità del metodo è garantita ma si 

ottiene un errore grande. 

Questa caratteristica del metodo implicito ci dovrebbe far preferire quest’ultimo al metodo 

esplicito. Nel caso generale, però, otteniamo la seguente equazione: 

x = x − f x 

( ) 

k + 1 k k + 1 

⇓ 

( ) 

x + hf x = x 

k+ 1 k+ 

1 k 

cioè con il metodo implicito ad ogni passo dobbiamo risolvere un’equazione non lineare in 

x k+1 

1 

. 

B.2 Metodi a predittore-correttore 

Con il metodo di Eulero possiamo ottenere il seguente inconveniente: 

1 Per calcolare lo zero di un’equazione si può applicare un metodo di minimizzazione. 

144


Se da un punto in poi la derivata di x( t ) cresce sempre, da quel punto otteniamo una funzione 

approssimata $x ( t ) cui derivata è sempre minore di quella della funzione vera. Praticamente si 

ottiene che la $x ( t ) si allontana sempre di più dalla x( t ) . 

I metodi a predittore-correttore guardano il passo in avanti come una predizione e cercano di 

effettuare una correzione: 

predizione: $x x hf( x ) 

correzione: 

x 

k+ 

1 

+ 

= + 

k 1 k k 

h f x 

= x + 

k 

[ ( $ 

k+ 

1) + f( x 

k )] 

La predizione può essere esplicita, come nel nostro caso, o implicita, cioè basata sul metodo di 

Eulero implicito 2 . 

Nella correzione possiamo avere un correttore esplicito ( f( x k ) ) come nel nostro caso oppure 

un correttore implicito ( ( )). Il correttore implicito, però, presenta più problemi di 

f x k + 1 

calcolo di quello esplicito perché ad ogni passo bisogna risolvere un’equazione non lineare in 

x k+1 

. 

Con i metodi a predittore-correttore bisogna effettuare due valutazioni in più rispetto ai 

metodi di Eulero. 

B.2.1 

.1 Metodo di Adams-Bashfort 

• predizione esplicita: 

2 

[ ( ) ( ) ( ) ( )] 

x = A x + A x + A x + h B f x + B f x + B f x + B f x 

k+ 1 0 k 1 k−1 2 k−2 0 k 1 k−1 2 k−2 3 k−3 

(le f vengono conservate in memoria per quattro passi e quindi non vengono calcolate tutte 

ad ogni passo) 

• correzione esplicita: 

[ ( $ ) ( ) ( ) ( )] 

x = A x + A x + A x + h B f x + B f x + B f x + B f x 

k+ 1 0 k 1 k−1 2 k− 2 0 k+ 1 1 k 2 k−1 3 k−2 

2 Si possono effettuare predizioni e correzioni di tipo quadratico o cubico, che si basano sui due o tre passi 

precedenti quello attuale. 

145

Appendici 

Questo metodo è esatto per polinomi del quarto ordine. 

Se la funzione è regolare, l’errore che si commette è dell’ordine di O( h 5 ) 

l’errore era dell’ordine di O( h 2 ) ). 

Questo metodo non funziona affatto bene per funzioni irregolari, come i gradini. 

(nei metodi di Eulero 

B.3 Metodi di Runge-Kutta 

I metodi di Runge-Kutta “vedono” come varia la derivata all’interno del passo di integrazione: 

( n n ) 

k 

1 

= hf t , x 

⎛ 

k = hf⎜ 

t h 

n 

+ , x 

⎝ 

2 2 n+ 

k 1 

2 

( n h 

, 

n k ) 

k hf t x 

3 

= 

+ + 2 

1 

xk 

+ 

= xk 

+ k + k + k 

3 

⎞ 

⎟ 

⎠ 

( ) 

1 1 2 3 

In questo modo si effettuano più calcoli però, a parità di passo di integrazione, questi metodi 

sono più precisi dei precedenti. 

Quello visto è il metodo di Runge-Kutta a tre passi (R-K 3). Esistono anche metodi di Runge- 

Kutta a quattro o cinque passi (vengono presi uno o due punti in più all’interno del passo). 

Anche i metodi di Eulero espliciti possono prevedere il calcolo della derivata in uno o più 

punti all’interno del passo di integrazione. I metodi di Eulero espliciti che sfruttano questa 

tecnica usano le Forward Differentiation Formulae (FDF: formule di differenziazione in 

avanti). I metodi di Eulero impliciti che sfruttano questa tecnica usano le Backward 

Differentiation Formulae (BDF: formule di differenziazione a ritroso). Il metodo di Gear è un 

metodo implicito di questo tipo. 

B.4 Sistemi “stiff” 

I sistemi stiff sono molto diffusi e sono caratterizzati dall’avere costanti di tempo molto diverse 

tra di loro. Ad esempio, un sistema di questo tipo può essere un motore in continua, con 

costante di tempo elettrica molto minore della costante di tempo meccanica. 

146


Si abbia un sistema con il seguente luogo delle radici: 

6 

4 


2 

0 

-2 

-4 

-6 

-8 -6 -4 -2 0 2 4 6 8 

asse reale 

Abbiamo due poli instabili. Possiamo inserire due zeri in −1 ottenendo il seguente luogo delle 

radici: 

6 

4 


2 

0 

-2 

-4 

-6 

-8 -6 -4 -2 0 2 4 6 8 

asse reale 

Se si effettua una simulazione il sistema risulta instabile perché c’è una costante di tempo che 

va a zero (quella relativa al polo in − 5). Bisogna utilizzare un passo di integrazione in modo 

che sia h < 2 λ 

: se il valore di λ è molto grande, allora il valore di h deve essere molto 

piccolo. 

I sistemi stiff spesso degenerano in equazioni differenziali e algebriche accoppiate (sistemi 

DAE: Differential Algebraic Equations) che contengono equazioni di vincolo. Infatti, un 

sistema stiff può essere scritto nel seguente modo: 

&q = Mq + Gλ 

ελ & = Fq 

con ε → 0 . Al limite per ε → 0 i sistemi stiff diventano sistemi DAE. I sistemi stiff si possono 

simulare solo con il metodo di Gear. 

147

Appendici 

B.5 Metodi a passo variabile 

Finora abbiamo visto solo metodi a passo di integrazione fisso. 

Per i metodi di integrazione che richiedono tempi di calcolo molto elevati si cerca di 

minimizzare il tempo di calcolo senza perdere in precisione mediante il cambiamento di passo: 

In realtà tutti i metodi di integrazione hanno al loro interno un “meccanismo” che varia il 

passo di integrazione (entro i limiti specificati) effettuando un confronto tra le due derivare 

successive della funzione. 

Per una rampa con saturazione molto ripida possiamo ottenere la seguente approssimazione: 

Non esiste alcuna dimostrazione generale sulla convergenza dei metodi di integrazione a passo 

variabile. D’altra parte, se il passo di integrazione viene aumentato molto si potrebbe andare 

in una regione di instabilità del metodo. 

Tutti i metodi di integrazione numerica hanno anche un controllo sull’errore. In genere si può 

specificare una tolleranza per cercare di ridurre l’errore (se la tolleranza è grande il metodo 

risulterà molto veloce). 

148


B.6 Tabella riassuntiva 

VELOCITA’ PRECISIONE VELOCITA’ PRECISIONE 

EULERO * * * * * * * * * * * 

R-K 3 * * * * * * * * * * * 

R-K 5 * * * * * * * * * * 

ADAMS * * * * * * * * * 

GEAR * * * * * * * * * * * * * 

* SCARSO 

* * SUFFICIENTE 

* * * BUONO 

* * * * OTTIMO 

Le prime due colonne della tabella si riferiscono a sistemi “normali” (non stiff), mentre le altre 

due colonne si riferiscono a sistemi stiff. La velocità è intesa a parità di passo di 

campionamento. 

Simulink ha il metodo di Adams/Gear con il quale automaticamente si adotta il metodo di 

Adams o quello di Gear a seconda del sistema in questione. 

149

Teoria della regolarizzazione 

C. TEORIA DELLA REGOLARIZZAZIONE 

C.1 Problemi mal posti 

I problemi mal posti (ill-posed) sono problemi la cui soluzione può non esistere, non essere 

unica o essere instabile. 

Ad esempio, un problema mal posto è quello di trovare una funzione che interpoli una serie di 

punti, perché di tali funzioni ne esistono infinite 1 . Questo è proprio il problema che viene 

affrontato con le reti neurali, per le quali la serie di punti da interpolare è data dal training set 

{ x , y } 

N 

. 

i i i=1 Un altro problema mal posto è quello di calcolare la funzione x ∈ X tale che Ax = y , dove 

y ∈ Y è una funzione data ed A è un operatore lineare 2 . 

Per risolvere i problemi mal posti si può usare la teoria della regolarizzazione, dovuta a 

Tikhonov (1960). In base a questa teoria il problema mal posto viene risolto riportandolo ad 

un altro problema che è regolare e che quindi può essere risolto. Nell’applicazione di questa 

teoria è fondamentale avere delle conoscenze a priori del problema perché vengono introdotti 

dei vincoli che si basano sulle nostre conoscenze del problema. 

Con la teoria della regolarizzazione il problema di calcolare la funzione x 

Ax = y può essere regolarizzato ponendo: 

J( x) = Ax − y + λ R( x) 

2 2 

∈ X tale che 

dove R è un operatore funzionale detto regolarizzatore, λ è detto parametro di 

regolarizzazione e la norma è effettuata su spazi funzionali. La soluzione può essere calcolata 

nel seguente modo: 

x = arg minJ( x) 

x∈X 

Se λ cresce decresce la nostra fiducia nei dati e cresce quella sulle nostre conoscenze a priori 

del problema. Quindi, le soluzioni x λ 

al problema dipendono da λ . Si può dimostrare che, se 

x 

* ∈ X è tale che Ax * = y , allora x → λ 

x 

* per λ → 0 . 

1 Non è mal posto il problema di trovare la funzione a norma minima che interpoli una serie di punti, perché 

questo problema ha una soluzione unica. 

2 Non è mal posto il problema di calcolare la funzione y tale che y = Ax : un problema può essere mal posto o 

meno a seconda della “direzione” verso la quale lo si risolve. 

151

Appendici 

C.2 Applicazione al caso dell’approssimazione 

funzionale 

La teoria della regolarizzazione può essere applicata anche al problema dell’approssimazione 

funzionale. 

Sia { x , y } 

N 

i i i=1 

seguente funzione: 

l’insieme dei punti su cui effettuare l’interpolazione. Possiamo definire la 

N 

~ ~ 2 ~ 

( ) = ∑ i 

− ( i ) + λ ( ) 

J f x f x R f 

i= 

1 

dove ~ f ∈F è la funzione da approssimare, e calcolare: 

2 

~ 

f 

ottima 

( ) 

= arg min J ~ f 

~ 

f ∈F 

Se R è un operatore lineare ed invariante rispetto alle rotazioni e alle traslazioni si può 

trovare la soluzione applicando la risoluzione di Eulero-Lagrange nello spazio funzionale. 

Otteniamo che la soluzione esiste ed è unica se ha la seguente forma: 

( ) 

N 

~ f 

ottima 

= ∑ c 

iφ 

x − x 

i 

+ K 

i= 

1 

dove K R 

è una qualsiasi componente dello spazio nullo di R (può essere posto K R 

≡ 0 ) e la 

funzione scalare φ è detta funzione a base radiale (RBF) o funzione di Green e dipende dalla 

distanza tra x ed x i 

. La particolare funzione φ dipende dall’operatore R usato. La φ soddisfa 

la seguente relazione: 

R * Rφ = δφ 

dove R * è l’operatore aggiunto di R 3 . La funzione φ soddisfa una relazione che è legata solo 

al vincolo e non ai campioni. Per alcuni operatori R la funzione φ è già nota. 

+∞ i 

Ad esempio, se è R = ∑ ∂ 

∂x 

i= 

1 

i 

R 

, implicitamente imponiamo che tra tutte le soluzioni cerchiamo 

r 

quella più regolare. In questo caso si può dimostrare che deve essere φ( r) 

= ⎛ 2 

⎞ 

exp⎜− 

2 

⎟ 

⎝ σ ⎠ 

(funzione gaussiana). Praticamente la funzione approssimata viene ottenuta come 

sovrapposizione di funzioni gaussiane. 

Utilizzando questo operatore R e le funzioni gaussiane, otteniamo: 

N 

∑ 

j= 

1 

( ) 

~ f x = y 

ottima i i 

⇓ 

( ) 

c φ x − x = y 

j i j 

i 

3 L’operatore aggiunto è una generalizzazione della matrice aggiunta. 

152

Teoria della regolarizzazione 

con i 

= 1,..., N . Otteniamo: 

φ( 0) φ( x1 − x2 ) φ( x1 − x3 ) L φ( x1 

− x 

N ) 

( x2 − x1 ) ( 0) ( x2 − x3 ) L ( x2 

− x 

N ) 

( x3 − x1 ) ( x3 − x2 ) ( 0) L ( x3 

− x 

N ) 

⎡ 

⎢ 

⎢φ φ φ φ 

⎢ 

⎢ 

φ φ φ φ 

⎢ 

O 

⎢ 

⎣⎢ 

φ φ φ φ 

⇓ 

Φ = cy 

( x 

N 

− x1 ) ( x 

N 

− x2 ) ( x 

N 

− x3 

) L ( 0) 

Se Φ è mal condizionata, c può essere ancora calcolato nel seguente modo: 

( Φ Φ λR R) 

c = + 

T T −1 

T 

Φ 

y 

⎤ 

⎥⎡ 

c1 

⎤ ⎡ y1 

⎤ 

⎥⎢ 

c 

⎥ ⎢ 

⎥ 2 

y 

⎥ 

⎢ ⎥ 

2 

= ⎢ ⎥ 

⎥⎢ 

M ⎥ ⎢ M ⎥ 

⎥⎢ 

⎥ ⎢ ⎥ 

⎥⎣c 

N ⎦ ⎣y 

N ⎦ 

⎦⎥ 

Se, invece, Φ è ben condizionata il termine λR T R non è necessario ( R è già implicito in Φ ). 

Se sappiamo che la funzione da approssimare soddisfa le condizioni di regolarità, 

l’approssimazione migliore è quella ottenuta in questo modo, cioè come somma di gaussiane. 

C.3 Altre funzioni a base radiale 

Se, invece, R = ∂ ∂ x 

, allora φ è l’esponenziale: φ = ⎛ r ⎞ 

exp 

⎝ ⎜− 

⎟ . Una funzione a base radiale di 

σ⎠ 

questo tipo può essere usata nel caso in cui la funzione da approssimare non soddisfi le 

condizioni di regolarità. 

Esistono delle funzioni a base radiale che sono molto efficaci per risolvere dei problemi 

particolari ma che sono associate a qualche operatore R che non è conosciuto. Ad esempio, 

una funzione di questo tipo è la funzione multiquadrica: 

φ( r) 

= r + 

σ 

153

Modellistica e Simulazione

Create successful ePaper yourself

Delete template?

Save as template?