13.07.2015 Views

Le tecniche di ridondanza Sommario Sommario Introduzione Le ...

Le tecniche di ridondanza Sommario Sommario Introduzione Le ...

Le tecniche di ridondanza Sommario Sommario Introduzione Le ...

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Tecniche per il progetto <strong>di</strong> sistemi elettronici tolleranti ai guasti, 15-23 luglio 2002<strong>Le</strong> <strong>tecniche</strong> <strong>di</strong> <strong>ridondanza</strong>Fulvio Corno, Maurizio Rebaudengo,Matteo Sonza ReordaPolitecnico <strong>di</strong> TorinoDipartimento <strong>di</strong> Automatica e Informatica<strong>Sommario</strong>• <strong>Introduzione</strong>• Ridondanza nell’hardware• Ridondanza nell’informazione• Ridondanza nel tempo• Ridondanza nel software• Conclusioni.2<strong>Sommario</strong>• <strong>Introduzione</strong>• Ridondanza nell’hardware• Ridondanza nell’informazione• Ridondanza nel tempo• Ridondanza nel software• Conclusioni.<strong>Introduzione</strong>• Introducendo <strong>ridondanza</strong> nel sistema se neaccrescono le capacità, e quin<strong>di</strong> lapossibilità <strong>di</strong> rilevare e tollerare i guasti.• La <strong>ridondanza</strong> può avere effetti (positivi onegativi) non solo sull’affidabilità, ma anchesulle prestazioni, le <strong>di</strong>mensioni, il peso, ilconsumo del sistema.34<strong>Le</strong> <strong>tecniche</strong> <strong>di</strong> <strong>ridondanza</strong>• <strong>Le</strong> <strong>tecniche</strong> <strong>di</strong> <strong>ridondanza</strong> si <strong>di</strong>vidono in:• Ridondanza nell’hardware• Ridondanza nell’informazione• Ridondanza nel tempo• Ridondanza nel software.<strong>Sommario</strong>• <strong>Introduzione</strong>• Ridondanza nell’hardware• Ridondanza nell’informazione• Ridondanza nel tempo• Ridondanza nel software• Conclusioni.56F.Corno, M. Rebaudengo, M. Sonza Reorda 1


Tecniche per il progetto <strong>di</strong> sistemi elettronici tolleranti ai guasti, 15-23 luglio 2002Permette <strong>di</strong> tollerare guasti singoli eImplementazione multipli <strong>di</strong> tipo permanente del TMR (stuck at) etemporaneo (SEU) che coinvolgono i flip• L'architettura flop che TMR saranno può usati essere per adottata realizzare a ilregistro.<strong>di</strong>versi livelli:• A livello gate, triplicando ciascun flip flop perproteggere i bit <strong>di</strong> dato memorizzati• A livello register, triplicando un registro• A livello sistema, triplicando un processore• A livello applicazione, triplicando un interosistema.Permette <strong>di</strong> tollerare guasti singoli emultipli <strong>di</strong> tipo permanente (stuck at) eImplementazionetemporaneo (SEU)delcheTMRcoinvolgono ilprocessore.• L'architettura TMR può essere adottata a<strong>di</strong>versi livelli:• A livello gate, triplicando ciascun flip flop perproteggere i bit <strong>di</strong> dato memorizzati• A livello register, triplicando un registro• A livello sistema, triplicando un processore• A livello applicazione, triplicando un interosistema.1314Permette <strong>di</strong> tollerare:• Guasti nell'hardware, in particolare singoliImplementazione permanenti (stuck at) del e temporanei TMR (SEU)che coinvolgono il sistema• L'architettura • Guasti nel TMR software, può se essere le tre adottata versioni del a<strong>di</strong>versi software livelli: sono <strong>di</strong>verse• Eventuali errori <strong>di</strong> progetto nei processori,• A livello gate, triplicando ciascun flip flop perse questi sono <strong>di</strong>versi.proteggere i bit <strong>di</strong> dato memorizzati• A livello register, triplicando un registro• A livello sistema, triplicando un processore• A livello applicazione, triplicando un interosistema.15Realizzazione dei moduli• L'architettura TMR <strong>di</strong>venta inefficace se lo stessoguasto si verifica in tutti moduli.• Questo può succedere se il guasto è un guasto <strong>di</strong>modo comune.• EsempioOgni modulo corrisponde ad un processore; i 3processori eseguono lo stesso co<strong>di</strong>ce: il TMR nonprotegge l'applicazione:• contro i guasti nel co<strong>di</strong>ce• contro guasti analoghi che si verificanocontemporaneamente in almeno 2 processori, adesempio a causa <strong>di</strong> interferenze elettromagnetiche.16Restoring organEsempio• Se il voter <strong>di</strong> un TMR si guasta, vi possonoessere dei malfunzionamenti• Una possibile soluzione consiste neltriplicare anche il voter (restoring organ).Proc 1voterMem 1voterProc 2voterMem 2voterProc 3voterMem 3voter1718F.Corno, M. Rebaudengo, M. Sonza Reorda 3


Tecniche per il progetto <strong>di</strong> sistemi elettronici tolleranti ai guasti, 15-23 luglio 2002Voter Software• Il voter può essere realizzato in softwareattraverso un programma eseguito da unprocessore.EsempioTask A Task A Task AvoterTask BProcessore 1 Processore 2 Processore 31920Voter HW o SW• La scelta tra un voter HW o SW <strong>di</strong>pende da• <strong>di</strong>sponibilità <strong>di</strong> un processore che esegua ilco<strong>di</strong>ce <strong>di</strong> voting• velocità richiesta• vincoli <strong>di</strong> spazio, consumo, peso• numero <strong>di</strong> voter che devono essere realizzati• flessibilità futura eventualmente richiesta.Voting tra segnali <strong>di</strong>versi• In taluni casi (ad esempio quando si lavorasu sensori) i tre segnali su cui eseguire ilvoting possono essere <strong>di</strong>versi anche inassenza <strong>di</strong> guasti.• In tal caso il voter implementa strategie piùcomplesse quali la selezione del valoreinterme<strong>di</strong>o (mid-value select).2122Selezione del valore interme<strong>di</strong>o• Consiste nel selezionare ad ogni istante ilvalore interme<strong>di</strong>o tra i 3 (o gli N)campionati.Somma dei flussi• In alcuni casi non è possibile eseguire unvoting e si applica una tecnica alternativa(sempre basata sul mascheramento) notacome somma dei flussi (flux-summing).2324F.Corno, M. Rebaudengo, M. Sonza Reorda 4


Tecniche per il progetto <strong>di</strong> sistemi elettronici tolleranti ai guasti, 15-23 luglio 2002La corrente in uscita<strong>di</strong>pende dallasomma delle correnti La velocità delEsempioin ingresso.motore <strong>di</strong>pendedalla corrente iningresso.Funzionamento in caso <strong>di</strong> guasto• Caso 1: un modulo smette <strong>di</strong> funzionare (nonproduce nessuna corrente): gli altri moduliaumentano la corrente prodotta sino a riportare ilmotore alla velocità voluta.• Caso 2: un modulo produce una corrente <strong>di</strong>versada quella prevista: gli altri moduli mo<strong>di</strong>ficano lacorrente prodotta in modo da compensare glieffetti del guasto, e riportare il motore allavelocità voluta.2526Ridondanza attiva• Si basa sulle seguenti fasi:• Error detection• Fault location• Fault containment• Fault recovery.• <strong>Le</strong> ultime 3 fasi vengono anche in<strong>di</strong>cate con iltermine riconfigurazione.• A <strong>di</strong>fferenza della <strong>ridondanza</strong> passiva, non fa usodel mascheramento, e quin<strong>di</strong> il sistema puòessere temporaneamente soggetto ad errori, edeventualmente anche a malfunzionamenti.27Funzionamento• Il sistema• localizza il modulo guasto• si riporta in uno stato corretto• sostituisce il componente guasto• riparte (eventualmente con capacità ridotte).28CaratteristicheArchitetture <strong>di</strong> <strong>ridondanza</strong> attiva• La <strong>ridondanza</strong> attiva• Non elimina la possibilità <strong>di</strong> brevi perio<strong>di</strong> <strong>di</strong>malfunzionamento.• Comporta <strong>di</strong> solito un costo (in termini <strong>di</strong>hardware e consumo) inferiore a quello della<strong>ridondanza</strong> passiva.• È <strong>di</strong> solito utilizzata in applicazioni a lungadurata o ad alta <strong>di</strong>sponibilità.• Duplicazione e confronto (duplication withcomparison)• Attesa e sostituzione (standby replacemento standby sparing)• Tecniche miste (ad esempio pair-and-aspare).2930F.Corno, M. Rebaudengo, M. Sonza Reorda 5


Tecniche per il progetto <strong>di</strong> sistemi elettronici tolleranti ai guasti, 15-23 luglio 2002Duplicazione e confronto• Rappresenta l’architettura <strong>di</strong> <strong>ridondanza</strong> attiva piùsemplice.• Si basa sulla duplicazione dell’hardware e delsoftware e sull’aggiunta <strong>di</strong> un comparatore checonfronta le uscite dei due moduli.• Nel caso sia rilevata una <strong>di</strong>fferenza (e quin<strong>di</strong> unerrore) parte una procedura per identificare ilmodulo guasto e <strong>di</strong>sabilitarlo.• Da quel momento il sistema funziona senza<strong>ridondanza</strong>, in attesa <strong>di</strong> un intervento <strong>di</strong>manutenzione.31Problemi• I guasti sulle linee <strong>di</strong> ingresso ai due modulinon vengono né rilevati né tollerati.• I guasti nel comparatore possono:• Impe<strong>di</strong>re il rilevamento <strong>di</strong> guasti nei moduli• Segnalare l’occorrenza <strong>di</strong> guasti inesistenti.• In taluni casi il confronto tra le uscite deidue moduli non è facilmente eseguibile.32Mem. PrivataProc ARisultati AEsempioSegnale <strong>di</strong> ErroreACMPProc AShared MemoryRisultati BRisultati ASegnale <strong>di</strong> ErroreBCMPProc BMem. PrivataProc BRisultati BAttesa e sostituzione• Il sistema comprende uno o più moduliridondanti (spare).• Allorquando viene rilevato che un modulo èguasto, questo viene sostituito da uno deimoduli <strong>di</strong> riserva.• Si <strong>di</strong>stinguono due <strong>tecniche</strong>:• Hot sparing• Cold sparing.3334Hot sparing• I moduli <strong>di</strong> riserva sono attivi ed eseguonotutte le funzionalità eseguite dal moduloprincipale La sostituzione richiede una sospensione <strong>di</strong>durata minima nelle attività del sistema, inquanto i moduli <strong>di</strong> riserva sono giàalimentati ed attivi. I moduli <strong>di</strong> riserva consumano.Cold sparing• I moduli <strong>di</strong> riserva non sono alimentati, evengono attivati solo nel momento in cui<strong>di</strong>vengono necessari. La sospensione delle funzionalità delsistema durante la riconfigurazione è piùlunga. I moduli <strong>di</strong> riserva non consumano.3536F.Corno, M. Rebaudengo, M. Sonza Reorda 6


Tecniche per il progetto <strong>di</strong> sistemi elettronici tolleranti ai guasti, 15-23 luglio 2002Pair-and-a-spare• Combina le due <strong>tecniche</strong> precedenti.• Il sistema comprende:• Due moduli che lavorano in parallelo e le cuiuscite vengono continuamente confrontate• Un modulo <strong>di</strong> riserva che prende il posto <strong>di</strong>quello guasto quando viene rilevato un errore.• Il sistema Stratus adotta questo approccio.Ridondanza ibrida• Combina <strong>ridondanza</strong> attiva e passiva.• Adotta il mascheramento, ma i moduli guastivengono rimpiazzati una volta rilevato il guasto.• Non permette ai guasti <strong>di</strong> produrremalfunzionamenti, ma ha un costo hardwareelevato.• È adatta ai casi in cui si desidera la massimaaffidabilità.3738NMR with sparesArchitettura triple-duplex3940Triple-duplex• L’architettura TMR permette <strong>di</strong> evitare ilverificarsi <strong>di</strong> qualunque malfunzionamento.• L’architettura con duplicazione e confrontopermette <strong>di</strong> sostituire i moduli guasti, cosìche successivi errori possono ancora esseretollerati.41F.Corno, M. Rebaudengo, M. Sonza Reorda 7

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!