Le tecniche di ridondanza Sommario Sommario Introduzione Le ...
Le tecniche di ridondanza Sommario Sommario Introduzione Le ...
Le tecniche di ridondanza Sommario Sommario Introduzione Le ...
- No tags were found...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Tecniche per il progetto <strong>di</strong> sistemi elettronici tolleranti ai guasti, 15-23 luglio 2002<strong>Le</strong> <strong>tecniche</strong> <strong>di</strong> <strong>ridondanza</strong>Fulvio Corno, Maurizio Rebaudengo,Matteo Sonza ReordaPolitecnico <strong>di</strong> TorinoDipartimento <strong>di</strong> Automatica e Informatica<strong>Sommario</strong>• <strong>Introduzione</strong>• Ridondanza nell’hardware• Ridondanza nell’informazione• Ridondanza nel tempo• Ridondanza nel software• Conclusioni.2<strong>Sommario</strong>• <strong>Introduzione</strong>• Ridondanza nell’hardware• Ridondanza nell’informazione• Ridondanza nel tempo• Ridondanza nel software• Conclusioni.<strong>Introduzione</strong>• Introducendo <strong>ridondanza</strong> nel sistema se neaccrescono le capacità, e quin<strong>di</strong> lapossibilità <strong>di</strong> rilevare e tollerare i guasti.• La <strong>ridondanza</strong> può avere effetti (positivi onegativi) non solo sull’affidabilità, ma anchesulle prestazioni, le <strong>di</strong>mensioni, il peso, ilconsumo del sistema.34<strong>Le</strong> <strong>tecniche</strong> <strong>di</strong> <strong>ridondanza</strong>• <strong>Le</strong> <strong>tecniche</strong> <strong>di</strong> <strong>ridondanza</strong> si <strong>di</strong>vidono in:• Ridondanza nell’hardware• Ridondanza nell’informazione• Ridondanza nel tempo• Ridondanza nel software.<strong>Sommario</strong>• <strong>Introduzione</strong>• Ridondanza nell’hardware• Ridondanza nell’informazione• Ridondanza nel tempo• Ridondanza nel software• Conclusioni.56F.Corno, M. Rebaudengo, M. Sonza Reorda 1
Tecniche per il progetto <strong>di</strong> sistemi elettronici tolleranti ai guasti, 15-23 luglio 2002Permette <strong>di</strong> tollerare guasti singoli eImplementazione multipli <strong>di</strong> tipo permanente del TMR (stuck at) etemporaneo (SEU) che coinvolgono i flip• L'architettura flop che TMR saranno può usati essere per adottata realizzare a ilregistro.<strong>di</strong>versi livelli:• A livello gate, triplicando ciascun flip flop perproteggere i bit <strong>di</strong> dato memorizzati• A livello register, triplicando un registro• A livello sistema, triplicando un processore• A livello applicazione, triplicando un interosistema.Permette <strong>di</strong> tollerare guasti singoli emultipli <strong>di</strong> tipo permanente (stuck at) eImplementazionetemporaneo (SEU)delcheTMRcoinvolgono ilprocessore.• L'architettura TMR può essere adottata a<strong>di</strong>versi livelli:• A livello gate, triplicando ciascun flip flop perproteggere i bit <strong>di</strong> dato memorizzati• A livello register, triplicando un registro• A livello sistema, triplicando un processore• A livello applicazione, triplicando un interosistema.1314Permette <strong>di</strong> tollerare:• Guasti nell'hardware, in particolare singoliImplementazione permanenti (stuck at) del e temporanei TMR (SEU)che coinvolgono il sistema• L'architettura • Guasti nel TMR software, può se essere le tre adottata versioni del a<strong>di</strong>versi software livelli: sono <strong>di</strong>verse• Eventuali errori <strong>di</strong> progetto nei processori,• A livello gate, triplicando ciascun flip flop perse questi sono <strong>di</strong>versi.proteggere i bit <strong>di</strong> dato memorizzati• A livello register, triplicando un registro• A livello sistema, triplicando un processore• A livello applicazione, triplicando un interosistema.15Realizzazione dei moduli• L'architettura TMR <strong>di</strong>venta inefficace se lo stessoguasto si verifica in tutti moduli.• Questo può succedere se il guasto è un guasto <strong>di</strong>modo comune.• EsempioOgni modulo corrisponde ad un processore; i 3processori eseguono lo stesso co<strong>di</strong>ce: il TMR nonprotegge l'applicazione:• contro i guasti nel co<strong>di</strong>ce• contro guasti analoghi che si verificanocontemporaneamente in almeno 2 processori, adesempio a causa <strong>di</strong> interferenze elettromagnetiche.16Restoring organEsempio• Se il voter <strong>di</strong> un TMR si guasta, vi possonoessere dei malfunzionamenti• Una possibile soluzione consiste neltriplicare anche il voter (restoring organ).Proc 1voterMem 1voterProc 2voterMem 2voterProc 3voterMem 3voter1718F.Corno, M. Rebaudengo, M. Sonza Reorda 3
Tecniche per il progetto <strong>di</strong> sistemi elettronici tolleranti ai guasti, 15-23 luglio 2002Voter Software• Il voter può essere realizzato in softwareattraverso un programma eseguito da unprocessore.EsempioTask A Task A Task AvoterTask BProcessore 1 Processore 2 Processore 31920Voter HW o SW• La scelta tra un voter HW o SW <strong>di</strong>pende da• <strong>di</strong>sponibilità <strong>di</strong> un processore che esegua ilco<strong>di</strong>ce <strong>di</strong> voting• velocità richiesta• vincoli <strong>di</strong> spazio, consumo, peso• numero <strong>di</strong> voter che devono essere realizzati• flessibilità futura eventualmente richiesta.Voting tra segnali <strong>di</strong>versi• In taluni casi (ad esempio quando si lavorasu sensori) i tre segnali su cui eseguire ilvoting possono essere <strong>di</strong>versi anche inassenza <strong>di</strong> guasti.• In tal caso il voter implementa strategie piùcomplesse quali la selezione del valoreinterme<strong>di</strong>o (mid-value select).2122Selezione del valore interme<strong>di</strong>o• Consiste nel selezionare ad ogni istante ilvalore interme<strong>di</strong>o tra i 3 (o gli N)campionati.Somma dei flussi• In alcuni casi non è possibile eseguire unvoting e si applica una tecnica alternativa(sempre basata sul mascheramento) notacome somma dei flussi (flux-summing).2324F.Corno, M. Rebaudengo, M. Sonza Reorda 4
Tecniche per il progetto <strong>di</strong> sistemi elettronici tolleranti ai guasti, 15-23 luglio 2002La corrente in uscita<strong>di</strong>pende dallasomma delle correnti La velocità delEsempioin ingresso.motore <strong>di</strong>pendedalla corrente iningresso.Funzionamento in caso <strong>di</strong> guasto• Caso 1: un modulo smette <strong>di</strong> funzionare (nonproduce nessuna corrente): gli altri moduliaumentano la corrente prodotta sino a riportare ilmotore alla velocità voluta.• Caso 2: un modulo produce una corrente <strong>di</strong>versada quella prevista: gli altri moduli mo<strong>di</strong>ficano lacorrente prodotta in modo da compensare glieffetti del guasto, e riportare il motore allavelocità voluta.2526Ridondanza attiva• Si basa sulle seguenti fasi:• Error detection• Fault location• Fault containment• Fault recovery.• <strong>Le</strong> ultime 3 fasi vengono anche in<strong>di</strong>cate con iltermine riconfigurazione.• A <strong>di</strong>fferenza della <strong>ridondanza</strong> passiva, non fa usodel mascheramento, e quin<strong>di</strong> il sistema puòessere temporaneamente soggetto ad errori, edeventualmente anche a malfunzionamenti.27Funzionamento• Il sistema• localizza il modulo guasto• si riporta in uno stato corretto• sostituisce il componente guasto• riparte (eventualmente con capacità ridotte).28CaratteristicheArchitetture <strong>di</strong> <strong>ridondanza</strong> attiva• La <strong>ridondanza</strong> attiva• Non elimina la possibilità <strong>di</strong> brevi perio<strong>di</strong> <strong>di</strong>malfunzionamento.• Comporta <strong>di</strong> solito un costo (in termini <strong>di</strong>hardware e consumo) inferiore a quello della<strong>ridondanza</strong> passiva.• È <strong>di</strong> solito utilizzata in applicazioni a lungadurata o ad alta <strong>di</strong>sponibilità.• Duplicazione e confronto (duplication withcomparison)• Attesa e sostituzione (standby replacemento standby sparing)• Tecniche miste (ad esempio pair-and-aspare).2930F.Corno, M. Rebaudengo, M. Sonza Reorda 5
Tecniche per il progetto <strong>di</strong> sistemi elettronici tolleranti ai guasti, 15-23 luglio 2002Duplicazione e confronto• Rappresenta l’architettura <strong>di</strong> <strong>ridondanza</strong> attiva piùsemplice.• Si basa sulla duplicazione dell’hardware e delsoftware e sull’aggiunta <strong>di</strong> un comparatore checonfronta le uscite dei due moduli.• Nel caso sia rilevata una <strong>di</strong>fferenza (e quin<strong>di</strong> unerrore) parte una procedura per identificare ilmodulo guasto e <strong>di</strong>sabilitarlo.• Da quel momento il sistema funziona senza<strong>ridondanza</strong>, in attesa <strong>di</strong> un intervento <strong>di</strong>manutenzione.31Problemi• I guasti sulle linee <strong>di</strong> ingresso ai due modulinon vengono né rilevati né tollerati.• I guasti nel comparatore possono:• Impe<strong>di</strong>re il rilevamento <strong>di</strong> guasti nei moduli• Segnalare l’occorrenza <strong>di</strong> guasti inesistenti.• In taluni casi il confronto tra le uscite deidue moduli non è facilmente eseguibile.32Mem. PrivataProc ARisultati AEsempioSegnale <strong>di</strong> ErroreACMPProc AShared MemoryRisultati BRisultati ASegnale <strong>di</strong> ErroreBCMPProc BMem. PrivataProc BRisultati BAttesa e sostituzione• Il sistema comprende uno o più moduliridondanti (spare).• Allorquando viene rilevato che un modulo èguasto, questo viene sostituito da uno deimoduli <strong>di</strong> riserva.• Si <strong>di</strong>stinguono due <strong>tecniche</strong>:• Hot sparing• Cold sparing.3334Hot sparing• I moduli <strong>di</strong> riserva sono attivi ed eseguonotutte le funzionalità eseguite dal moduloprincipale La sostituzione richiede una sospensione <strong>di</strong>durata minima nelle attività del sistema, inquanto i moduli <strong>di</strong> riserva sono giàalimentati ed attivi. I moduli <strong>di</strong> riserva consumano.Cold sparing• I moduli <strong>di</strong> riserva non sono alimentati, evengono attivati solo nel momento in cui<strong>di</strong>vengono necessari. La sospensione delle funzionalità delsistema durante la riconfigurazione è piùlunga. I moduli <strong>di</strong> riserva non consumano.3536F.Corno, M. Rebaudengo, M. Sonza Reorda 6
Tecniche per il progetto <strong>di</strong> sistemi elettronici tolleranti ai guasti, 15-23 luglio 2002Pair-and-a-spare• Combina le due <strong>tecniche</strong> precedenti.• Il sistema comprende:• Due moduli che lavorano in parallelo e le cuiuscite vengono continuamente confrontate• Un modulo <strong>di</strong> riserva che prende il posto <strong>di</strong>quello guasto quando viene rilevato un errore.• Il sistema Stratus adotta questo approccio.Ridondanza ibrida• Combina <strong>ridondanza</strong> attiva e passiva.• Adotta il mascheramento, ma i moduli guastivengono rimpiazzati una volta rilevato il guasto.• Non permette ai guasti <strong>di</strong> produrremalfunzionamenti, ma ha un costo hardwareelevato.• È adatta ai casi in cui si desidera la massimaaffidabilità.3738NMR with sparesArchitettura triple-duplex3940Triple-duplex• L’architettura TMR permette <strong>di</strong> evitare ilverificarsi <strong>di</strong> qualunque malfunzionamento.• L’architettura con duplicazione e confrontopermette <strong>di</strong> sostituire i moduli guasti, cosìche successivi errori possono ancora esseretollerati.41F.Corno, M. Rebaudengo, M. Sonza Reorda 7