Progettazione e realizzazione di una base robotica bilanciante su ...

More documents

Recommendations

Info

84 Capitolo 7. ControlloL’algoritmo fitted Q-iteration (o FQI) è un metodo di apprendimentoper rinforzo iterativo, che si basa sulla risoluzione di una sequenza di problemidi apprendimento supervisionato. L’algoritmo, a differenza dei classicimetodi RL online, non interagisce direttamente con il sistema (batch-modeReinforcement Learning) determinando una politica di controllo, che approssimail più possibile la politica ottima, eseguendo un’analisi offline diun insieme di informazioni chiamato dataset. Un dataset è composto da unaserie di quadruple di forma (s t , a t , s t+1 , r t ) in cui s t indica lo stato attuale,a t l’azione intrapresa, s t+1 lo stato in cui il sistema si porta e r t il rinforzoimmediato ottenuto.Alla prima iterazione l’algoritmo viene utilizzato per stimare il valoreatteso del rinforzo, ovvero:Q 1 (s, a) = E π R t |s t = s, a t = a (7.20)Ad ogni passo successivo l’algoritmo utilizza l’intero dataset assieme allafunzione calcolata al passo precedente per determinare un nuovo insieme didati di training utilizzato da un sistema di apprendimento supervisionato,chiamato regressore, per calcolare il successivo valore della funzione. Inquesto modo, ad ogni iterazione viene aumentato l’orizzonte temporale, finoa quando si raggiungono le condizioni di arresto. In seguito è mostrato lopseudo codice che descrive l’algoritmo FQI.Algorithm 1 Algoritmo fitted Q-iterationrepeatN ← N + 1creare un nuovo dataset T S = (i l , o l ), l = 1, . . .,♯D utilizzando l’ultimastima Q N−1 e il dataset di partenza D, in cui:i l = (s l t, a l t) (7.21)o l= r l t + γ maxa ′ Q N−1 (s l t+1, a ′ ) (7.22)applicare l’algoritmo di regressione R al dataset T S per approssimarela nuova funzione Q N (s t+1 , a)until una condizione di arresto viene raggiuntareturn π N (s) = argmax a∈A Q N (s, a)Le condizioni di arresto possono essere diverse. Si può dichiarare a prioriil numero massimo di iterazioni da eseguire, definendo quindi l’orizzonte
7.3. Controllo basato su apprendimento per rinforzo 85temporale, oppure calcolare ad ogni passo la distanza tra l’ultima approssimazionericavata (Q N ) e quella precedente (Q N−1 ), terminando il cicloquando la differenza raggiunge un valore di soglia minimo.Quando vengono raggiunte le condizioni di arresto la politica di controlloottenuta è definita come:π N (s) = argmax a∈A Q N (s, a) (7.23)L’algoritmo fitted Q-iteration gode delle seguenti proprietà:• è svincolato dal modello: l’unica informazione necessaria è un insiemedi dati sotto forma di quadruple (stato, azione, stato successivo,rinforzo)• è legato alla bontà dei dati: più i dati raccolti riescono a descriverein maniera efficiente il sistema, più i risultati prodotti dall’algoritmosaranno buoni. È possibile apprendere politiche di successo anchepartendo da un insieme ridotto di dati• è in grado di generare politiche di controllo con prestazioni paragonabilia quelle ottenute tramite i controllori analitici, nonostante sianecessaria molta meno conoscenza del sistema rispetto ad essi7.3.4 Regressore Extra-TreesNell’ambito dell’apprendimento supervisionato sono state sviluppate numerosetecniche di regressione, alcune delle quali sfruttano le strutture ad albero(metodi tree-based). Gli algoritmi basati sugli alberi di regressione ripartisconol’insieme degli input in regioni distinte, assegnando a ciascuna di esseuna predizione del valore di uscita, che viene calcolato come media tra glioutput presenti nel dataset T S che appartengono a quella determinata regione.Il modello prodotto dai metodi di regressione ad alberi è ottenutomediando le stime di differenti alberi, generati compiendo scelte differentidurante la classificazione dei dati.Il metodo Extra-Trees, abbreviazione di extremely randomized trees [23],genera M alberi sfruttando per intero le informazioni presenti nel datasetT S, invece che iniziare l’analisi da un determinato campione come altri metodiquali KD-Tree [21] e Tree Bagging [24].
Page 1:
POLITECNICO DI MILANOCorso di Laure
Page 5:
RingraziamentiRingrazio innanzitutt
Page 8 and 9:
4.1 Telaio . . . . . . . . . . . .
Page 10 and 11:
8.4 Bilanciamento con controllore L
Page 12 and 13:
2 Capitolo 1. IntroduzioneLa fase p
Page 14 and 15:
4 Capitolo 1. Introduzione
Page 16 and 17:
6 Capitolo 2. Stato dell’arte(a)(
Page 18 and 19:
8 Capitolo 2. Stato dell’arte(a)(
Page 20 and 21:
10 Capitolo 2. Stato dell’artenel
Page 22 and 23:
12 Capitolo 3. Studio teorico del p
Page 25 and 26:
3.1. Modello del robot 15La prima g
Page 27 and 28:
3.1. Modello del robot 17L’energi
Page 29 and 30:
3.1. Modello del robot 193.1.3 Simu
Page 31 and 32:
3.2. Stima dell’inclinazione del
Page 33 and 34:
Page 35 and 36:
Page 37 and 38:
Capitolo 4Progetto meccanico“Bend
Page 39 and 40:
4.1. Telaio 29Figura 4.2: Progetto
Page 41 and 42:
4.2. Ruote e trasmissione 31Figura
Page 43 and 44: 4.3. Attuatori 33Figura 4.6: Cerchi
Page 45 and 46: 4.3. Attuatori 3510Angle / Torque p
Page 47 and 48: Capitolo 5Progetto elettronico“Il
Page 49 and 50: 5.1. Sensori 395.1 SensoriA bordo d
Page 51 and 52: 5.1. Sensori 41Figura 5.3: Diagramm
Page 53 and 54: 5.2. Condizionamento dei segnali an
Page 55 and 56: 5.3. Elettronica di potenza 45Per r
Page 57 and 58: 5.3. Elettronica di potenza 47Per p
Page 59 and 60: 5.3. Elettronica di potenza 49In qu
Page 61 and 62: 5.3. Elettronica di potenza 51(a)(b
Page 63 and 64: 5.3. Elettronica di potenza 53quind
Page 65 and 66: 5.3. Elettronica di potenza 55Tabel
Page 67 and 68: 5.4. Logica e microcontrollore 57te
Page 69 and 70: 5.5. Comunicazioni 59Il microcontro
Page 71 and 72: Capitolo 6Software“Credo che alla
Page 73 and 74: 6.1. Architettura 63PID utilizzato
Page 75 and 76: 6.2. Acquisizione dei segnali 65Per
Page 77 and 78: 6.3. Controllo dei motori 67si rile
Page 79 and 80: 6.5. Algoritmi di controllo 69imple
Page 81 and 82: Capitolo 7Controllo“La vita è co
Page 83 and 84: 7.1. Controllore PID 73(a) K P vari
Page 85 and 86: 7.1. Controllore PID 75Tabella 7.1:
Page 87 and 88: 7.2. Controllore LQR 77Un generico
Page 89 and 90: 7.3. Controllo basato su apprendime
Page 93: 7.3. Controllo basato su apprendime
Page 99 and 100: Capitolo 8Realizzazioni sperimental
Page 101 and 102: 8.1. Stima dell’angolo del robot
Page 103 and 104: 8.2. Ritardo dei segnali e test di
Page 105 and 106: 8.2. Ritardo dei segnali e test di
Page 107 and 108: 8.3. Bilanciamento con controllore
Page 115 and 116: Capitolo 9Conclusioni e sviluppi fu
Page 117 and 118: 9.2. Sviluppi futuri 107tamento del
Page 119 and 120: Bibliografia[1] T McGeer. Passive d
Page 121: BIBLIOGRAFIA 111[23] Pierre Geurts,
show all

Progettazione e realizzazione di una base robotica bilanciante su ...

Create successful ePaper yourself

Delete template?

Save as template?