13.07.2015 Views

Progettazione e realizzazione di una base robotica bilanciante su ...

Progettazione e realizzazione di una base robotica bilanciante su ...

Progettazione e realizzazione di una base robotica bilanciante su ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

7.3. Controllo basato <strong>su</strong> appren<strong>di</strong>mento per rinforzo 79cisamente nel campo dell’appren<strong>di</strong>mento automatico, che punta a realizzarealgoritmi in grado <strong>di</strong> apprendere dall’esperienza accumulata e <strong>di</strong> adattarsialle mutazioni dell’ambiente. Questa tecnica <strong>di</strong> programmazione si basa <strong>su</strong>lpre<strong>su</strong>pposto <strong>di</strong> potere ricevere degli stimoli dall’esterno in seguito alle scelteeffettuate dall’algoritmo, che possono rivelarsi più o meno utili. Vienedefinito quin<strong>di</strong> un premio in caso sia stata scelta un’azione corretta, che avvicinaall’obiettivo, mentre <strong>una</strong> scelta errata comporta <strong>una</strong> penalizzazionedel sistema.L’obiettivo perseguito dal sistema è il raggiungimento del maggior premiopossibile e <strong>di</strong> conseguenza del migliore ri<strong>su</strong>ltato possibile.Quando si affronta un problema utilizzando le tecniche <strong>di</strong> RL (dal termineinglese Reinforcement Learning) ci si chiede quin<strong>di</strong> quali azioni, tra quellepossibili, i soggetti principali (gli agenti) devono intraprendere nell’ambientein cui operano, in modo da massimizzare la ricompensa nel lungo periodo(rinforzo atteso). Lo scopo degli algoritmi <strong>di</strong> RL è far sviluppare all’agenteun comportamento (politica) che lo porti a selezionare le azioni più adattea raggiungere un determinato obiettivo.Agentestato s t rinforzo r tr t+1azione a ts t+1AmbienteSi definisce agente un’entità in grado <strong>di</strong> percepire l’ambiente che lo circonda(ad esempio tramite dei sensori) e <strong>di</strong> eseguire delle azioni che, interagendocon esso, mo<strong>di</strong>ficano lo stato del sistema (ad esempio tramite degliattuatori). È definito ambiente quin<strong>di</strong> l’insieme degli elementi che possonopartecipare ad un qualche tipo <strong>di</strong> interazione con l’agente.La tecnica <strong>di</strong> appren<strong>di</strong>mento per rinforzo formalizza le interazioni tra agenteed ambiente permettendo <strong>di</strong> definire un metodo per selezionare, in ognistato del sistema, l’azione da eseguire.L’interazione tra agente e ambiente è continua: quando l’agente esegue delleazioni riceve in risposta dall’ambiente <strong>una</strong> descrizione, eventualmente parziale,dello stato del sistema mo<strong>di</strong>ficato dall’azione eseguita e un rinforzo,ovvero un valore numerico che rappresenta l’utilità dell’azione eseguita alfine <strong>di</strong> raggiungere l’obiettivo.Il para<strong>di</strong>gma del Reinforcement Learning prevede che, data <strong>una</strong> sequen-

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!