pdf-Datei mit 72-dpi-Fotos - FG Mikroelektronik, TU Berlin

Perspektiven des modernen ASIC-Designs 

Lukas Bauer

Technische Universität Berlin 

Institut für Mikroelektronik 

Lukas Bauer 

Dissertation 


D83 

Zeichen der Technischen Universität Berlin im Bibliotheksverkehr 

von der Fakultät IV (Elektrotechnik und Informatik) der Technischen Universität Berlin 

zur Erlangung des akademischen Grades „Doktor der Ingenieurwissenschaften“ – Dr.-Ing. – 

genehmigte Dissertation, 

verfasst in der Zeit vom 20.09.2000 bis 20.11.2001, 

eingereicht am 28.11.2001, 

Tag der wissenschaftlichen Aussprache: 15.05.2002 

Promotionsausschuss: 

Vorsitzender: Prof. Dr.-Ing. Ernst Obermeier, TU Berlin 

Gutachter: Prof. Dr. rer. nat. Otto Manck, TU Berlin 

Gutachter: Prof. Dr.-Ing. Hans Weinerth, TU Berlin 

(zus. Gutachten: Prof. Dr.-Ing. Ulrich Golze, TU Braunschweig) 

Diese Dissertation kann als .pdf-Datei (72 dpi und 600 dpi) geladen oder als Buch bestellt werden: 

http://mikro.ee.tu-berlin.de/~bauer/index.php3 

Printed in Germany 

Copyright © 2001 Lukas Bauer 

Titelblatt 

Seite 2 

All rights reserved. No part of this publication may be reproduced, stored in a retrieval system, or transmitted, in any 

form or by any means (electronic, mechanical, photocopying, recording, or otherwise), without the prior written permission 

of the author.



Lukas Bauer 

Dissertation 


Inhaltsverzeichnis 

Seite 3 

1 Das Wachstum der Mikroelektronik als Herausforderung des Designers 5 

2 ASICs – Anwendungsspezifische integrierte Schaltungen 6 

2.1 Historische Entwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 

2.1.1 Von den Anfängen der Mikroelektronik zur TTL-bestückten Leiterplatte. . . . 6 

2.1.2 Das ASIC als Bindeglied zwischen Standardkomponenten . . . . . . . . . . . . . . . 7 

2.1.3 Totalintegration zum „System on a Chip“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 

2.2 Einsatz von ASICs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 

2.2.1 Motivation für den ASIC-Einsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 

2.2.2 Märkte und Einsatzfelder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 

2.2.3 Die Konkurrenz der Standardprodukte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

3 Gegenwärtige technologische und wirtschaftliche Randbedingungen 14 

3.1 Technologischer Fortschritt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 

3.1.1 Wachstumsgesetze der Mikroelektronik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 

3.1.2 Gegenwärtige Grenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 

3.2 Wirtschaftliche Restriktionen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 

3.2.1 Explodierende NRE-Kosten im Submikron-Bereich . . . . . . . . . . . . . . . . . . . 21 

3.2.2 Stückkosten und Mindeststückzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 

4 Zeitgemäße Entwurfsstrategien 24 

4.1 Modernes Digitaldesign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 

4.1.1 Fehlervermeidung durch Automatisierung und Abstraktion . . . . . . . . . . . . . 24 

4.1.2 Grafisches VHDL als personen- und maschinenlesbare Spezifikation. . . . . . 25 

4.1.3 Logiksynthese als etabliertes Mittel der Produktivitätssteigerung . . . . . . . . . 35 

4.1.4 Verkürzung von Entwicklungszeiten durch IPs und Design Re-Use . . . . . . . 39 

4.2 Verifikation durch FPGA-Prototypenboards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 

4.2.1 Hardware-Software-Co-Design mit skalierten ASIC-Äquivalenten. . . . . . . . 42 

4.2.2 Tests im realen Umfeld statt Simulationen mit unpräzisen Modellen . . . . . . 44 

4.3 Layouterstellung und Zeitverhalten hochkomplexer ASICs . . . . . . . . . . . . . . . . . . . 47 

4.3.1 Wachsender Einfluss von Metallisierungskapazitäten . . . . . . . . . . . . . . . . . . 47 

4.3.2 Systematische Ansätze zur Beherrschung des Post-Layout-Timings . . . . . . . 50 

4.3.3 Neue Aufgaben der Place & Route Tools im Submikron-Bereich . . . . . . . . . 54 

4.4 Design Flow und Verifikation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 

4.4.1 Ein vollständiger, moderner Design Flow. . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 

4.4.2 Die Lücke im Verifikationsablauf als Damoklesschwert . . . . . . . . . . . . . . . . 63 

5 Perspektiven des modernen ASIC-Designs 74 

5.1 Testkonzepte komplexer Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 

5.1.1 Strukturtests mit modifizierten Scan-Path-Verfahren . . . . . . . . . . . . . . . . . . . 74 

5.1.2 Software-Speichertests mit Ausmaskierung defekter Bereiche . . . . . . . . . . . 77 

5.1.3 Selbsttest und digitale Kalibrierung von Analogfunktionen. . . . . . . . . . . . . . 81 

5.2 Strukturwandel in der Systemarchitektur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 

5.2.1 Zukünftige Aufbau- und Verbindungstechniken. . . . . . . . . . . . . . . . . . . . . . . 88 

5.2.2 Programmierbarkeit und Konfigurierbarkeit eines „System on a Chip“. . . . . 91 

5.2.3 Neubewertung von Speicher- und Logikintegration . . . . . . . . . . . . . . . . . . . . 94 

5.2.4 Neue Kosten- und Marktstrukturen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98



Lukas Bauer 

Dissertation 


Inhaltsverzeichnis 

Seite 4 

6 Zusammenfassung und Ausblick 99 

Lebenslauf 101 

Danksagung 102 

Kurzfassung (Abstract) 103 

English Abstract 104 

Glossar 105 

Literaturverzeichnis 111 

Wachstum der Mikroelektronik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 

Schaltungstechnik, Schaltungsentwurf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 

Design Flow, CAE Tools, Halbleiterhersteller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 

Zitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 

ASICs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 

ASIC Gallery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117



Lukas Bauer 

1. Kapitel 

Dissertation 


Das Wachstum der Mikroelektronik als Herausforderung 

des Designers 

Kapitel 1 

Seite 5 

Wer mit 15 Jahren sein erstes 1.000-Teile-Puzzle löst, betrachtet dies als den krönenden 

Abschluss einer rasanten Steigerung. Viel größere Puzzles sind nicht vorstellbar. 

Wer mit 30 Jahren sein erstes 1.000.000-Teile-Puzzle zusammensetzt, hat Mikroelektronik studiert 

und weiß, dass er entsprechend dem Moore’schen Gesetz 1 fünf Jahre später 10 Millionen 

Teile – bzw. Gatter – in ein ASIC integrieren wird. 

Doch es gibt einen Unterschied: Beim Puzzeln ist Probieren erlaubt, und jeder Fehler fällt sofort 

auf. Ein fertiges Puzzle, das Fehler aufweist, ist nicht denkbar. Der ASIC-Designer hingegen hat 

bei jedem Gatter und jeder Verbindung die Möglichkeit, unbemerkte Fehler einzubauen, und ein 

einziger Fehler reicht aus, um das gefertigte ASIC unbrauchbar zu machen. Selbst bei einer 

Designsicherheit pro Gatter von 99,999% liegt die Wahrscheinlichkeit für ein korrektes 10.000- 

Gatter-ASIC nur bei 90%, bei einem 100.000-Gatter-Design bei 37% und bei einer Million Gattern 

unter 0,005%, d. h. von 20.000 ASIC-Projekten wäre eines erfolgreich. Reparaturen von 

Fehlern im gefertigten ASIC sind dabei ausgeschlossen, und ein Fehlversuch verursacht einen 

Schaden von einer Million Dollar. Sind härtere Spielregeln denkbar? 

Der stetige technologische Fortschritt hat ein seit über 40 Jahren unverändert anhaltendes exponentielles 

Wachstum der Schaltungskomplexitäten ermöglicht, das den ASIC-Entwickler zwingt, 

in regelmäßigen Abständen seine Designmethoden nicht bloß zu verbessern, sondern zu revolutionieren, 

um in Produktivität und Designsicherheit mit diesem Wachstum mithalten zu können. 

So hat der Verfasser die Logiksynthese, die automatische Erzeugung von Schaltungen aus einer 

Verhaltensbeschreibung, und grafische HDL-Programme, die eine intuitivere Beschreibung von 

Funktionsabläufen erlauben, im Rahmen eines Praktikums am Institut für Mikroelektronik der 

TU Berlin eingeführt und mit Erfolg in den meisten seiner bisher 19 ASIC-Projekte eingesetzt. 

Im Laufe seiner zehnjährigen Beschäftigung mit dem ASIC-Design – dieser Zeitraum geht mit 

einer Verhundertfachung der Schaltungskomplexitäten einher – konnte er dabei mehrere Generationen 

von CAE-Programmen kennenlernen und die faszinierende Entwicklung bis hin zu Transistorgeometrien 

weit unterhalb von einem Mikrometer mitverfolgen, die zusätzliche gravierende 

Änderungen im ASIC-Design erfordert. So müssen im Deep-Submicron-Bereich bei der Layouterstellung 

physikalische Effekte berücksichtigt werden, die früher eine untergeordnete Rolle 

gespielt haben, und völlig neue Algorithmen eingesetzt werden, um das Zeitverhalten der Schaltungen 

weiterhin beherrschen zu können. 

Nach einer indirekten Definition des ASIC-Begriffs im 2. Kapitel und einer differenzierten 

Betrachtung der Wachstumsgesetze der Mikroelektronik in Kapitel 3 sollen daher im 4. Kapitel 

ausführlich zeitgemäße Lösungen der Probleme bei Entwurf, Layouterstellung und Verifikation 

hochkomplexer ASICs dargestellt werden, die in der Praxis erprobt worden sind. 

Die Zukunft der ASIC-Entwicklung schließlich soll in Kapitel 5 anhand ausgewählter Bereiche 

diskutiert werden, in denen sich nicht nur bisherige Trends fortsetzen, sondern in denen sich völlig 

neuen Strukturen ergeben. 

1. Das Moore’sche Gesetz [53] beschreibt die Verzehnfachung der Komplexität integrierter Schaltungen 

alle fünf Jahre (vgl. Abschnitt 3.1.1, „Wachstumsgesetze der Mikroelektronik“, auf Seite 14).



Lukas Bauer 

2. Kapitel 

Dissertation 


ASICs – Anwendungsspezifische integrierte Schaltungen 

2.1 Historische Entwicklung 

2.1.1 Von den Anfängen der Mikroelektronik zur TTL-bestückten Leiterplatte 

Kapitel 2 

Seite 6 

Eine fundamentale Voraussetzung für die Konstruktion aktiver Analogschaltungen oder stabil 

arbeitender Digitalelektronik stellt die Verfügbarkeit spannungs- oder stromverstärkender Bauelemente 

dar. Lange Zeit kamen hierfür nur Elektronenröhren oder im Digitalbereich Relais in 

Frage, deren Herstellungskosten und deren begrenzte Lebensdauer die Komplexität der Schaltungen 

stark limitierten: Ein Elektronenröhrenrechner des Typs UNIVAC von 1946 (8 Tonnen, 

125kW, 1000 Rechenoperationen pro Sekunde, ab 1951 kommerziell erhältlich für 1 Million US- 

Dollar) enthielt ca. 5000 Röhren und konnte im statistischen Mittel nur einige Stunden lang 

betrieben werden, bevor eine Röhre ausfiel. 

Mit Erfindung des Transistors im 

Jahre 1947 (s. Abbildung 2-1) stand 

erstmals ein verschleißfreies, stromverstärkendesFestkörper-Bauelement 

zur Verfügung, das zwar 

anfangs noch sehr teuer war, sich 

aber aufgrund seiner Zuverlässigkeit 

und seiner elektrischen Eigenschaften 

immer mehr gegenüber den älteren 

Bauteilen durchsetzte. Ab 1957 

wurden Transistoren zu mehreren auf einer einzigen Scheibe aus Halbleitermaterial gefertigt 

(Planartechnologie), um anschließend getrennt verarbeitet zu werden. 

1958 hatte dann Jack Kilby die Idee, auch andere Bauteile wie 

Widerstände und Kondensatoren mit den gleichen fotografischen 

Verfahren und Diffusionsprozessen auf demselben Stück Halbleitermaterial 

herzustellen wie die Transistoren selbst. Indem er 

die Bauteile anschließend mit feinen Drähten verband, fertigte er 

so die erste monolithische integrierte Schaltung, einen „Phase- 

Shift Oscillator“, bestehend aus einem Transistor und einigen 

weiteren Bauteilen (Abbildung 2-2). Wenig später gelang es 

sogar, auch die Verbindungen zwischen den Bauelementen in 

einem Arbeitsschritt herzustellen, indem die Oberfläche der 

Halbleiterscheibe metallisiert und die Metallschicht nach einer 

Abbildung 2-1: Prototyp des 

ersten Transistors, erfunden 

1947 von Shockley, Bardeen 

und Brattain. 

Ein Plexiglasdreieck, dessen 

Schenkel getrennt mit Goldfolie 

belegt sind, wird auf ein 

Germaniumplättchen gedrückt, 

wodurch im Halbleitermaterial 

golddotierte Gebiete entstehen 

(Foto: Bell Laboratories). 

Abbildung 2-2: Labormuster der 

ersten integrierten Schaltung von 

1958 (Foto: Texas Instruments) 

fotografisch übertragenen Vorlage partiell weggeätzt wurde, so dass nur die gewünschten Verbindungen 

übrigblieben. Hiermit war der Grundstein gelegt, mit wenigen Arbeitsschritten elektronische 

(Teil)schaltungen unabhängig von der Anzahl der enthaltenen Bauteile zu fertigen, was bei 

nahezu unveränderten Prinzipien durch Verkleinerung der Strukturen bis heute ein ungeahntes 

Wachstum der Schaltungskomplexitäten ermöglicht hat. 

Bereits 1961 stellte Texas Instruments den ersten IC-basierten Mikrocomputer vor, der aus 587 

digitalen integrierten Schaltungen, namentlich RS-Flipflops, NOR-Gattern und Treibern,



Lukas Bauer 

Dissertation 


Kapitel 2.1 

Seite 7 

bestand. Die Komplexität der Logikbausteine wurde in den folgenden Jahren schrittweise gesteigert, 

und ICs wurden als kommerzielles Produkt verfügbar. Das bekannteste Beispiel ist die 1964 

ebenfalls von Texas Instruments eingeführte Bausteinfamilie 5400 (bzw. 7400), in der diverse 

Gatter, Flipflops und einfache Logikbaugruppen in TTL-Technologie als integrierte Schaltungen 

im bis heute nahezu unveränderten DIP14-Gehäuse angeboten wurden. 1968 folgte von RCA die 

stromsparende CMOS-Logikfamilie CD4000. 

Der erste monolithisch integrierte Mikroprozessor (Abbildung 

2-3) wurde 1971 von Intel entwickelt. Die Integration 

stellte eine Notlösung mit unzureichender Performance dar, 

da die Designer nicht in der Lage waren, den geforderten 

Chipsatz von acht ICs im Zeitplan zu entwickeln. Der Auftraggeber 

brach das Projekt daraufhin ab, Intel wurden so 

aber die Entwicklungskosten finanziert, und mit dem gewonnenen 

Know-How konnte Intel Nachfolgeprodukte realisieren 

und bis heute eine marktbeherrschende Stellung 

behalten. 

Mit den seither allgemein erhältlichen Logikbausteinen, 

Mikroprozessoren sowie RAMs standen auch den Elektronikentwicklern 

außerhalb der IC-Herstellerfirmen die erforderlichen 

Grundelemente zur Verfügung, um alle 

erdenklichen Digitalschaltungen bis hin zu Computersystemen aufzubauen. Da hierbei ein Großteil 

der irregulären systemspezifischen Logik aus einzelnen Flipflops und Gattern, also unter Verwendung 

von ICs geringster Komplexität, zusammengefügt werden musste, entstanden oft 

„Gattergräber“ in der Form riesiger Leiterplatten von mehreren 1000 cm 2 Größe, die dicht mit 

TTL-ICs bestückt waren. 

Die Möglichkeit, spezifische Teilschaltungen als eigenes IC zu realisieren, blieb dabei den Halbleiterherstellern 

vorbehalten; außerhalb dieser Unternehmen scheiterte dies an Know-how- und 

Kostenbarrieren, da die IC-Hersteller zwar teilweise Auftragsentwicklungen durchführten, sich 

aber nicht darauf einließen, ICs nach Kundenentwürfen zu fertigen. Hierzu fehlte es in der 

Anfangszeit auch noch an geeignet standardisierten Herstellungsprozessen mit wohldefinierten 

Transistorparametern: Man steuerte die elektrischen Eigenschaften einer Schaltung nicht wie 

heute ausschließlich über Maskengeometrien, sondern vielfach über Variationen der Prozessparameter 

wie z. B. der Dotierungsprofile. Das IC-Design galt daher jahrelang als Geheimwissenschaft 

weniger Spezialisten. 

2.1.2 Das ASIC als Bindeglied zwischen Standardkomponenten 

Abbildung 2-3: Intel 4004, der erste 

4-Bit-Mikroprozessor von 1961 mit 

2300 Transistoren, im Keramikgehäuse 

mit Holzdeckel (Foto: Intel) 

Ab Anfang der 1980er Jahre wurde das IC-Design dann endlich der Öffentlichkeit zugänglich. 

Zum einen erschien mit dem „Mead Convay“ [23] das erste Standardwerk zum VLSI-Design, 

zum anderen entwickelte AMI die erste Familie von Gate Arrays, zu denen das fast legendäre 

UA4 mit knapp 800 Gattern gehörte. Der hierbei zugrunde liegende Gedanke, Chips mit Arrays 

von CMOS-Transistoren auf vorgefertigten Wafern anzubieten, auf denen die schaltungsspezifischen 

Verbindungen unter Verwendung einer einzigen individuellen Metallisierungsmaske hergestellt 

werden konnten, machte das IC-Design erstmals finanzierbar und aufgrund der fest 

definierten Transistorparameter auch beherrschbar. 

Der Begriff des ASICs, der anwendungsspezifischen integrierten Schaltung, wurde eingeführt, 

und die Vorteile der Gate-Array-Technologien wurden weltweit von Universitäten genutzt, um 

ASIC-Design in Theorie und Praxis zu lehren.



Lukas Bauer 

Dissertation 


Kapitel 2.1 

Seite 8 

Auch im kommerziellen Bereich erkannte man schnell die Vorteile spezifischer ICs. Neben höheren 

Schaltungsgeschwindigkeiten und einem weitgehenden Schutz vor illegalen Schaltungsnachbauten 

erlaubten ASICs eine erhebliche Reduktion der Systemkosten, die sich aus den 

Einsparungen an Leiterplattenfläche, Montagekosten und Bauteilkosten zusammensetzt. Angesichts 

der Tatsache, dass ohne weiteres 100 ICs zu einem ASIC vereinigt werden konnten, waren 

insbesondere die Einsparungen im Leiterplattenbereich enorm. 

Im Sinne einer Kostenoptimierung des Gesamtsystems wurde daher meist so viel digitale Logik 

wie möglich in das ASIC integriert, bis eine feste Obergrenze wie die in einem Gate Array enthaltene 

Gatteranzahl oder die maximal verfügbare Anzahl an Pins – in den 80er Jahren meist nur 

40 bis 68 – erreicht war. Aufgrund ihrer Komplexität galten dabei alle Mikroprozessoren und 

Speicher als „grundsätzlich nicht integrierbar“, und bei Peripheriebausteinen mit parallelen 

Schnittstellen sprach die Anschlusszahl meist gegen die Integration. In einem Computersystem 

stellte daher die „Glue Logic“ zwischen derartigen Standardkomponenten ein typisches Einsatzgebiet 

für ein ASIC dar. 

Abbildung 2-4 zeigt ein typisches Beispiel für eine Teilintegration der Logik eines Computersystems; 

eine höhere Integrationsdichte war aus Gründen der Komplexität und des Pin Counts der 

verwendeten Bausteine nicht möglich. 

2.1.3 Totalintegration zum „System on a Chip“ 

Das anhaltende Wachstum der Komplexitäten in der Mikroelektronik und die fortlaufende Weiterentwicklung 

der Gehäusetechnologien haben dazu geführt, dass heute ASICs mit Millionen 

von Gattern und Hunderten von Pins kostengünstig realisiert werden können. Damit sind die 

klassischen Grenzen der ASIC-Integration weitgehend entfallen, und in konsequenter Fortsetzung 

der Kostenoptimierung kommt es immer häufiger vor, dass alle digitalen Komponenten 

eines Systems in einem einzigen ASIC untergebracht werden können. Falls dabei zur Systems- 

GAL1 

(MMU) 

16-Bit-CPU MC 68000 

GAL2 

(DMA) 

ROM 

RAM 

ROM 

RAM 

ISDN-S0 

Abbildung 2-4: Ein 16-Bit-Microcomputer zum Anschluss an den DMA-Bus „ACSI“ eines Atari Heimcomputers 

als Beispiel für den Einsatz von „ASICs“. Hier wurden vom Verfasser, 1991 noch Student, aus Kostengründen zwei 

programmierbare GALs eingesetzt, um ca. 400 Gatteräquivalente zu integrieren. Die verbleibenden Komponenten 

(CPU, Speicher, Takt- und Reset-Generator sowie einige Bustreiber) waren typisch für die frühen 90er Jahre.



Lukas Bauer 

Dissertation 


Kapitel 2.2 

Seite 9 

teuerung auch eine CPU integriert wird und das ASIC somit auch alle Schnittstellen und Speicherblöcke 

sowie die Firmware enthält, spricht man vom „System on a Chip“ (SoC). 

Die offensichtlichen Vorteile der Totalintegration wie die Einsparungen an Leiterplattenkosten, 

die erhöhte Zuverlässigkeit und das verbesserte Zeitverhalten gegenüber einer Mehrchiplösung 

sprechen dafür, dass sich der Gedanke des „System on a Chip“, unterstützt vom anhaltenden 

technologischen Fortschritt, immer weiter durchsetzen wird. Der Schwerpunkt dieser Arbeit soll 

daher auf dem Entwurf und den Zukunftsperspektiven hochkomplexer digitaler ASICs liegen. 

Zunächst sollen aber typische Einsatzfelder von ASICs, die gegenwärtigen Grenzen der Systemintegration 

sowie die Kosten- und Stückzahlproblematik beleuchtet werden. 

2.2 Einsatz von ASICs 

2.2.1 Motivation für den ASIC-Einsatz 

Integrierte Schaltungen werden heute in einer unüberschaubaren Vielzahl von Anwendungen in 

allen Bereichen des Lebens eingesetzt. Bei der Produktentwicklung sind die Motive für den Einsatz 

anwendungsspezifischer Schaltkreise sehr vielfältig und keineswegs auf kommerzielle 

Gesichtspunkte beschränkt. 

Im Extremfall ist die Entwicklung eines ASICs trivialerweise unverzichtbar, wenn aus technischen 

Gründen eine Realisierung mit Standardkomponenten und diskreten Bauteilen nicht möglich 

ist. Dies ist beispielsweise dann der Fall, wenn neue Algorithmen in Hardware implementiert 

werden sollen, die noch nicht in Standardkomponenten realisiert worden sind und für deren 

geforderte Performance eine Implementation in programmierbarer oder diskreter Logik ausscheidet; 

des weiteren, wenn die Performance gegenüber den besten verfügbaren Standardkomponenten 

gesteigert werden soll oder wenn die zulässigen mechanischen Dimensionen des Produkts 

einen Aufbau aus Einzelkomponenten verbieten. 

Doch auch in weniger extremen Situationen erlauben es ASICs häufig, diverse Eigenschaften des 

zu realisierenden Produktes entscheidend zu verbessern oder dem Unternehmen sonstige Wettbewerbsvorteile 

zu verschaffen: 

● ASICs reduzieren die Systemkosten: 

Durch die Integration des Funktionsinhalts vieler ICs geringer Komplexität in ein ASIC 

lassen sich die Systemkosten drastisch reduzieren. Es ergeben sich Einsparungen bei der 

Leiterplattenfläche, den Montagekosten und den Bauteilkosten (incl. Beschaffung und 

Lagerhaltung). Im Vergleich zu den Herstellungskosten der einzelnen ICs werden IC- 

Gehäusekosten und Siliziumflächen (Summe der Chipgrößen) eingespart. Dass die 

Gesamtsiliziumfläche beim Zusammenfügen einzelner ICs zu einem ASIC drastisch 

verringert wird, ergibt sich aus einem Größenvergleich der internen Gatter mit den Padzellen 

im I/O-Bereich des ICs. Da auf den Pads vergleichsweise riesige Bonddrähte aufgesetzt 

werden müssen und die Ausgangstreiber Kapazitäten auf der Leiterplatte 

umladen müssen, die um Größenordnungen über den Chip-internen Lastkapazitäten liegen, 

sind I/O-Zellen oft 100 mal so groß wie interne Gatter und nehmen bei ICs geringer 

Komplexität einen erheblichen Teil der Siliziumfläche ein, die beim Zusammenfügen zu 

einem ASIC eingespart wird. 

● ASICs bieten in Spezialanwendungen eine höhere Performance: 

Während für allgemeine Anwendungen eine Vielzahl von hochoptimierten Mikroprozessoren 

und digitalen Signalprozessoren angeboten wird, deren Performance kaum zu 

überbieten ist, werden in spezifischen Anwendungen oft spezielle Algorithmen benötigt,



Lukas Bauer 

Dissertation 


Kapitel 2.2 

Seite 10 

die in Hardware abgebildet werden müssen, um eine maximale Performance zu erreichen. 

Die günstigste Gesamtlösung besteht meist aus einer integrierten CPU mittlerer 

Komplexität und parallel dazu arbeitenden Hardware-Rechenwerken für die rechenzeitintensiven 

Funktionen der spezifischen Anwendung. Ein so aufgebautes ASIC kann 

durch seine massive Parallelität ein Vielfaches der Performance gegenüber einem leistungsstarken 

Mikroprozessor mit entsprechender Software erreichen. 

● ASICs sparen Strom: 

Insbesondere bei batteriebetriebenen Geräten ist die Stromaufnahme der Schaltung relevant. 

Da bei einem individuell auf das Produkt zugeschnittenen ASIC nur die tatsächlich 

benötigten Schaltungsfunktionen Strom verbrauchen, stellen ASICs oft die stromsparendste 

Lösung dar. Nicht nur beim Handy kann die Lebensdauer des Akkus ein entscheidendes 

Vergleichskriterium bei der Kaufentscheidung sein, und deshalb ist dieser 

Aspekt nicht zu unterschätzen. 

● ASICs sind kleiner: 

Was für den Stromverbrauch mobiler Geräte gilt, gilt erst recht für deren Formfaktor. 

Durch die Integration aller Systemkomponenten in ein einziges ASIC lässt sich die 

jeweils kleinste Bauform erreichen. 

● ASICs können die Beschaffungsproblematik vermeiden: 

Schwankende Preise und Lieferzeiten bis hin zur Abkündigung von Produkten oder 

monatelangen Lieferengpässen sind bei Standardkomponenten keine Seltenheit, bei 

ASICs hingegen sind Kosten und Termine aufgrund fester Lieferverträge kalkulierbar. 

Die im Jahr 2000 extreme Beschaffungsproblematik bei Flash-Speichern war daher 

sicher ein Grund für manche „System on a Chip“-Integration. 

● ASICs steigern die Zuverlässigkeit des Systems: 

Die Zuverlässigkeit eines Systems ist von der Komplexität der ICs fast vollkommen 

unabhängig. Entscheidend ist die Anzahl der Bauteile und Verbindungen, da im Bereich 

der Leiterplatte mechanische Spannungen und Korrosion auftreten können. Falls viele 

oder alle Systemfunktionen in einem ASIC integriert werden können, steigt die Zuverlässigkeit 

des Systems erheblich. 

● ASICs dienen als Kopierschutz: 

Der wirtschaftliche Schaden durch den illegalen Nachbau elektronischer Geräte kann 

für die betroffenen Unternehmen bis zum Bankrott führen. Solange nur Standardkomponenten 

auf einer Leiterplatte assembliert werden, gibt es keinen wirksamen Schutz 

gegen Raubkopien. Auch ein Abschleifen des Aufdrucks der integrierten Schaltungen 

erschwert lediglich die Analyse der Schaltung. ASICs hingegen erlauben einen fast perfekten 

Kopierschutz und machen bei Kryptographieanwendungen ein Ausspähen interner 

Daten nahezu unmöglich. 

Im Vergleich zu einer Lösung aus Standardkomponenten – falls eine solche existiert – bezahlt der 

Auftraggeber die aufgeführten Vorteile zunächst mit den Entwicklungs- und NRE-Kosten der 

ASIC-Integration, aber auch mit einer verlängerten Entwicklungszeit und dem Risiko eines 

Fehlschlags. Obwohl die Abwägung zwischen Chancen und Risiken stets individuell erfolgen 

muss, zeigt sich doch, dass in bestimmten Märkten und Einsatzfeldern in der Regel die Vorteile 

einer ASIC-Entwicklung überwiegen. Welche Bereiche das sind und wie durch den ASIC-Einsatz 

Marktstrukturen verändert werden können, soll im Folgenden dargestellt werden.



Lukas Bauer 

2.2.2 Märkte und Einsatzfelder 

Dissertation 


Kapitel 2.2 

Seite 11 

Eine Vergrößerung des Gewinns ist sicher das wichtigste kommerzielle Ziel in allen Industriezweigen, 

wobei der Gewinn eng mit dem Umsatz, dem Produkt aus Stückzahl und Preis der verkauften 

Produkte, verknüpft ist. In den meisten Industriezweigen ist diese Größe auf den 

Gesamtmarkt bezogen eng limitiert, so dass lediglich ein Konkurrenzkampf um die Verteilung 

des Marktes geführt werden kann. 

Die Mikroelektronik-Industrie stellt hier insofern eine Ausnahme dar, als das exponentielle 

Wachstum zu solch rasanten Leistungssteigerungen oder Preissenkungen führt, dass hierdurch 

völlig neue Märkte mit teilweise explosionsartigem Wachstum geschaffen werden können. Die 

Beispiele hierfür (Computer, Internet, Mobilfunk, TV-/Audio-/Videogeräte etc.) sind äußerst 

vielfältig, während sich in den letzten 50 Jahren nur wenige wirklich neue nicht-elektronische 

Produkte verbreiten konnten und das Verbreitungstempo z. B. des Automobils vergleichsweise 

moderat war. 

In der Mikroelektronikbranche beobachtet man die folgenden Expansionsphänomene: 

● Ein Erreichen neuer Leistungsklassen erweitert Märkte. 

Die Taktfrequenz und Performance eines Mikroprozessors, die Datenrate einer Schnittstelle 

oder die Auflösung und Bildqualität eines digitalen Videosystems stellen Leistungsmerkmale 

dar, die stetigen Verbesserungen unterliegen. Der Kunde ist 

naturgemäß bereit, für das Mehr an Leistung einen entsprechend höheren Preis zu 

bezahlen 1 . Durch deutliche Steigerungen gegenüber dem Stand der Technik kann ein 

Unternehmen nicht nur der Konkurrenz Marktanteile abgewinnen, sondern evtl. auch 

das Gesamtmarktvolumen vergrößern, wenn die gesteigerte Leistung erstmals für neue 

Anwendungen und Einsatzgebiete ausreicht oder die bessere Qualität der Endprodukte 

mehr Kunden zu Käufen bewegt. Derartige Entwicklungen spielen sich derzeit beispielsweise 

bei PCs und Spielkonsolen, Netzwerkkomponenten (Gigabit Ethernet) und 

digitalen Video-Aufzeichnungsgeräten ab. 

Mit Ausnahme von Parallelrechnern, die aus einer gesteigerten Anzahl käuflicher 

Mikroprozessoren zusammengesetzt werden können, sind die beschriebenen Verbesserungen, 

die stets ein Vordringen in den absoluten High-End-Bereich bedeuten, ohne die 

Entwicklung spezieller ICs nicht möglich. Dabei ist es aufgrund der hohen NRE-Kosten 

und Risiken den finanzkräftigen Unternehmen vorbehalten, die gesteigerte Leistung 

durch Ausnutzen der modernsten Halbleitertechnologien zu erreichen. Die Chancen 

kleiner und mittlerer Unternehmen, mit ASICs in neue Leistungsklassen vorzustoßen, 

bleiben darauf beschränkt, neuartige Algorithmen und Architekturen zu erfinden. 

● Ein Unterschreiten von Preisbarrieren erschließt neue Märkte. 

Da Kaufentscheidungen anhand von Qualität und Preis eines Produktes gefällt werden, 

ist eine Kostenreduktion der andere Weg, zusätzlichen Absatz zu erzeugen. Vielfach 

zeigt sich, dass Preissenkungen zu einer weit überproportionalen Stückzahl-Steigerung 

führen, so dass sich der Gesamtumsatz sogar erhöht. Die dafür erforderliche Kostenreduktion 

muss allerdings signifikant über die kontinuierliche Kostendegression der Einzelkomponenten 

eines Systems hinausgehen und ist heute in den meisten Fällen nur 

durch eine Single-Chip-Integration möglich. Dabei kann anhand der Komplexität zwischen 

verschiedenen Produktklassen unterschieden werden: 

1. Die stetige Kostendegression der Mikroelektronik führt jedoch z. B. bei Mikroprozessoren über einen 

längeren Zeitraum betrachtet zu annähernd konstanten Preisen bei steigender Performance.



Lukas Bauer 

Dissertation 


Kapitel 2.2 

Seite 12 

„System on Chip“-ICs hoher Komplexität werden ausschließlich in Märkten mit großen 

Stückzahlen eingesetzt, typischerweise in hochwertigen Consumer-Produkten wie 

DVD-Playern, Settop-Boxen, Digitalkameras, Handys oder Spielkonsolen, also in 

Systemen mit komplexer Programmier- oder Konfigurierbarkeit und hoher Performance. 

Abweichend vom typischen ASIC-Anwender sind die Hersteller derartiger Endprodukte 

meist große Unternehmen, die über eigene Halbleiterfabriken und Entwicklungsabteilungen 

verfügen. 

Als „Mini-SoC“ sollen hier Low-Cost-ICs definiert werden, die alle Systemfunktionen 

eines stark reduzierten Systems in einem Chip integrieren. Es gibt Anwendungen mit 

wenigen Schnittstellen und fest definierten Funktionen, so dass beispielsweise der Programmspeicher 

durch ein sehr kleines ROM ersetzt werden kann. Neben der reduzierten 

Flexibilität sind gegenüber den High-End-Produkten des jeweiligen Bereichs oft auch 

Abschläge an der Performance oder dem Benutzerinterface erlaubt. Typische Beispiele 

sind Chipkarten mit Kryptographiefunktionen, intelligente Zugangskontrollsysteme 

(Wegfahrsperre), einfache Telespiele („Tamagochi“) sowie alle Consumer-Produkte des 

jeweils unteren Preissegments, die als komplexitäts- und kostenmäßig reduzierte 

Systeme zu Massenprodukten werden können. 

In Systemen ohne Controller schließlich können die einfachen Funktionen über hartverdrahtete 

Logik realisiert werden, so dass man trotz der Totalintegration auf einem 

Chip nicht mehr vom SoC spricht. Oft handelt es sich um batteriebetriebene oder fremdgespeiste 

Systeme mit Chipflächen im Bereich von 1mm 2 , die aus Platz- und Kostengründen 

in Chip-on-Board-Technologie aufgebaut werden. Typische Anwendungen sind 

Telefonkarten, intelligente Sensoren, Digitaluhren, Taschenrechner im Scheckkartenformat 

oder Melodien piepende Grußkarten. 

Insbesondere die Vertreter der letzten Kategorie zeigen deutlich, wie durch reine 

Kostensenkung Märkte geschaffen werden können. Wenn eine Melodien piepende 

Grußkarte kaum mehr kostet als eine (angenehm) stille Karte, wird sie (ungeachtet der 

ökologischen Bedenklichkeit batteriebetriebener Wegwerfprodukte) bei Unterschreiten 

einer gewissen Preisdifferenz gekauft. 

● Eine Verbesserung des Preis-Leistungs-Verhältnisses erlaubt eine Expansion in 

etablierten Märkten. 

Während sich die bisher beschriebenen Phänomene üblicherweise in Märkten abspielen, 

die aufgrund der hohen Stückzahlen für große Unternehmen interessant sind und nicht 

selten von diesen dominiert werden, werden die typischen ASICs vor allem von kleinen 

und mittleren Unternehmen in Bereichen mit mittleren Stückzahlen eingesetzt: Die 

Umsätze müssen einerseits groß genug sein, um die Entwicklungs- und NRE-Kosten 

einer ASIC-Entwicklung zu rechtfertigen, andererseits aber nicht so hoch, dass die „Big 

Player“ mit enormen Investitionen und SoC-Integrationen eine marktbeherrschende 

Stellung erreichen. 

ASICs werden daher häufig in Märkten eingesetzt, die noch Produkte mit Mehrchip- 

Lösungen erlauben. Dabei kann das ASIC in einer „Nahezu-SoC“-Lösung die Hauptfunktionen 

des Systems umfassen, wobei evtl. große Speicher und Peripheriekomponenten 

wie z. B. Ethernet-Phy’s extern angeschlossen werden, oder das ASIC kann neben 

einem käuflichen Microcontroller eingesetzt werden und nur die systemspezifischen 

Spezialfunktionen enthalten. 

Das ASIC ist dabei üblicherweise auf ein konkretes Produkt zugeschnitten und kann 

dessen Preis-Leistungs-Verhältnis oft ausreichend verbessern, um den Marktanteil des



Lukas Bauer 

Dissertation 


Kapitel 2.2 

Seite 13 

Herstellers gegenüber der Konkurrenz zu vergrößern, was insbesondere für kleinere 

Unternehmen ein enormes Wachstum ergeben kann. Typische etablierte Märkte dieser 

Art sind der Telekommunikationssektor, die Mess- und Regelungstechnik, die Industrieautomatisierung 

und die beginnende Haustechnik. 

2.2.3 Die Konkurrenz der Standardprodukte 

Auch wenn es in den letzten Jahren zu einer Vermischung beider Arten integrierter Schaltungen 

gekommen ist (vgl. Abschnitt 5.2.4), sollen hier die klassischen Unterschiede zwischen ASICs 

und Standardprodukten beschrieben werden. 

Standardkomponenten werden von großen Unternehmen, meist den Halbleiterherstellern selbst, 

entwickelt und so allgemein wie möglich gehalten, um einen möglichst breiten Kundenkreis mit 

vielen Anwendungen anzusprechen. Der Integrationsgrad ist deutlich geringer als der eines 

„System on a Chip“, meistens werden sogar nur einzelne Schnittstellen oder Funktionsgruppen 

als Standardprodukt angeboten, die vom Kunden zu Systemen zusammengestellt werden. 

Die Möglichkeiten, auf Funktionen und Eigenschaften der angebotenen ICs Einfluss zu nehmen, 

sind für kleine und mittlere Unternehmen nahe bei null, da sich die Hersteller von Standardkomponenten 

nur daran orientieren, welche Produkte sich in großen Stückzahlen mit Gewinn vermarkten 

lassen. Dem Kleinunternehmer bleibt so oft nur die Möglichkeit, sich der manchmal fast 

monopolartig angebotenen Standardkomponenten zu bedienen: „Friss oder stirb!“ 

Erst bei mittleren Stückzahlen, im Durchschnitt ab ca. 100.000 Exemplaren, lohnt sich die Investition 

in eine ASIC-Entwicklung, um zu einer individuellen, in Preis und Leistung optimal auf 

ein Produkt zugeschnittenen Lösung zu gelangen. Um den mit dem ASIC erreichbaren Wettbewerbsvorteil 

nicht auch der Konkurrenz zu bieten, sind die Lieferverträge der ASIC-Kunden mit 

dem Halbleiterhersteller bzw. einem als „Fabless ASIC Provider“ fungierenden Designhaus in 

aller Regel von exklusiver Natur; die Kunden sind sogar oft bereit, für die exklusive Belieferung 

mit ihrem ASIC höhere Preise oder ungünstigere Konditionen zu akzeptieren: Das ASIC soll 

Alleinstellungsmerkmale nur für das eigene Produkt bieten. 

Dies erlaubt die folgenden Definitionen: 

● Das ASIC ist eine Lösung für ein Produkt. 

● Das Standard-IC ist eine Lösung für einen Markt. 

Die Hauptvorteile von Standardkomponenten sind dabei ihre sofortige Verfügbarkeit und die 

geringen Herstellungskosten, die daraus resultieren, dass Entwicklungs- und NRE-Kosten bei 

den hohen Stückzahlen anteilig nur wenig ins Gewicht fallen. Andererseits werden vom gewinnorientierten 

Hersteller Aufschläge erhoben, die insbesondere bei monopolartig angebotenen Produkten 

enorm sein können. 

Das günstigere Preis-Leistungs-Verhältnis lässt sich daher oft mit ASICs erzielen. In einem ASIC 

kann der integrierte Funktionsumfang darüber hinaus optimal auf das zu realisierende Produkt 

zugeschnitten werden. Beim Einsatz von Standardkomponenten müssen häufig Funktionen mit 

eingekauft werden, die gar nicht benötigt werden, während zusätzliche Leistungsmerkmale nur 

über teure externe Erweiterungen realisiert werden können. Beim ASIC hingegen können Funktionsumfang, 

Performance, Speichergrößen etc. individuell optimiert werden, ohne dass solche 

Mehrkosten entstehen. Im Vergleich zu Standardlösungen erlaubt es ein ASIC daher oft, zum 

gleichen Preis das entscheidende zusätzliche Merkmal mit anzubieten, das den Markterfolg herbeiführt.



Lukas Bauer 

3. Kapitel 

Dissertation 


Gegenwärtige technologische und wirtschaftliche 

Randbedingungen 

3.1 Technologischer Fortschritt 

3.1.1 Wachstumsgesetze der Mikroelektronik 

Kapitel 3 

Seite 14 

Das exponentielle Wachstum der Mikroelektronik, das seit vier Jahrzehnten etwa alle fünf Jahre 

zu einer Verzehnfachung der Schaltungskomplexitäten führt, ist nicht nur eine faszinierende Entwicklung, 

die in anderen Industriezweigen oder an den Wertpapierbörsen vergeblich auch nur 

annähernd Vergleichbares sucht. Das Wachstum stellt auch eine Gesetzmäßigkeit dar, die es 

erlaubt, bereits während der Konzeptionsphase eines Produktes abzuschätzen, welcher Funktionsumfang 

sich bei Produktionsbeginn, also etwa sechs bis zwölf Monate später, in einem ASIC 

integrieren lassen wird. 

Prediction is very difficult, especially about the future. 

Niels Bohr 

Angesichts einer Wachstumsrate von fast 60% per anno ist es für den Geschäftsmann durchaus 

ein signifikanter Unterschied, ob er für die Kalkulation und Produktdefinition aktuelle Komplexitätswerte 

zugrundelegt oder ob er den voraussichtlichen technologischen Fortschritt während der 

Entwicklungszeit mit einplant. Im Folgenden sollen daher die Wachstumstrends der Mikroelektronik 

untersucht werden, und es soll dargestellt werden, warum die Annahme eines in naher 

Zukunft weiterhin konstanten Wachstums im ASIC-Geschäft gefahrlos möglich erscheint. 

Bereits 1965 formulierte Intel-Mitbegründer Gordon Moore das wohl wichtigste Wachstumsgesetz 

der Mikroelektronik, das nach ihm benannte Moore’sche Gesetz [53], demzufolge sich die 

Komplexität integrierter Schaltungen jedes Jahr verdoppelt. Die wenigen Daten der noch sehr 

jungen Entwicklung extrapolierte er damals zwar etwas zu optimistisch – im langjährigen Durchschnitt 

wuchsen die Komplexitäten bis heute etwa alle 18 Monate um den Faktor zwei – doch 

erkannte Moore früh den exponentiellen Charakter des Wachstums. 

Andere Analysten untersuchten später die Performance von Mikroprozessoren und vermeldeten 

noch spektakulärere Ergebnisse. Hierbei muss aber berücksichtigt werden, dass bei Prozessoren 

eine Vermischung von Schaltzeiten der Gatter und Zugriffszeiten der Speicher stattfindet, die 

unterschiedlichen Wachstumsraten folgen, und dass die Architekturprinzipien der Mikroprozessoren 

starken Änderungen unterliegen. Eine unverfälschte Aussage über den technologischen 

Fortschritt ist daher nur bei Betrachtung der Einzelparameter möglich, von denen nun diejenigen 

untersucht werden sollen, die für das ASIC-Design aus technischer Sicht relevant erscheinen; die 

Kostenentwicklung wird dann in Abschnitt 3.2 dargestellt. 

Die Abbildungen 3-1 bis 3-15 auf Seite 16 bis 19 wurden generiert, indem aus der Literatur Diagramme 

und Einzelwerte zur historischen Entwicklung der betrachteten Parameter entnommen, 

um aktuelle Daten ergänzt und gemeinsam mit den Zielvorgaben der „SIA Roadmap“ [1], [2], 

[3], [4] in jeweils einem Diagramm dargestellt wurden. Die Vorgaben der SIA, einer internationalen 

Vereinigung von Halbleiterherstellern, haben dabei fast den Charakter von selbsterfüllenden 

Prophezeiungen, da die einzelnen Unternehmen enorme Summen investieren, um die Vorgaben



Lukas Bauer 

Dissertation 


Kapitel 3.1 

Seite 15 

einzuhalten oder gar zu überbieten. Tatsächlich zeigt sich im Vergleich der Roadmaps von 1994 

bis 1999, dass die wesentlichen Ziele stets höher gesteckt bzw. zeitlich nach vorne verschoben 

werden mussten. 

Durch die gemeinsame Darstellung historischer, aktueller und prognostizierter Werte werden in 

den Diagrammen teilweise sehr lang anhaltende Trends sichtbar. Die Darstellung erfolgt überwiegend 

im logarithmischen Maßstab, wodurch das exponentielle Wachstum mit langjährig konstanten 

Wachstumsraten deutlich wird. 

In den Abbildungen 3-1 und 3-2 wird zunächst das Wachstum der Schaltungskomplexitäten 

gezeigt. Dargestellt werden die Größe von DRAMs in Bits und die Transistorzahl von Mikroprozessoren, 

die das klassische Untersuchungsobjekt des Moore’schen Gesetzes sind. Die beliebteste 

Formulierung für das Wachstum der DRAM-Größen, die eine Vervierfachung alle drei Jahre 

hervorhebt, orientiert sich dabei an der historisch bedingten Schrittweite des Speicherwachstums: 

Aufgrund des Multiplexens von Reihen- und Spaltenadressen in einem DRAM erlaubt eine 

Erweiterung um eine Adressleitung sofort eine Vervierfachung der Speichergröße. Da Drei-Jahres-Abstände 

auch produktionstechnisch sinnvoll sind, hat sich diese Schrittweite bis heute etabliert. 

Die Grundlage des Wachstums ist dabei die technologische Weiterentwicklung der Lithographieprozesse, 

die zu einer Verringerung der Strukturbreite, d. h. der Kanallänge der Transistoren 

(Abbildung 3-3) führt. Da sich viele andere Geometriegrößen wie z. B. die Metallisierungsabstände 

(metal pitch) in etwa proportional zur Strukturbreite ebenfalls verkleinern, steigt die 

erreichbare Zelldichte quadratisch mit dem Kehrwert der Kanallänge an (Abbildung 3-4). 

Die vergrößerte Zelldichte kann das Wachstum der Schaltungskomplexitäten jedoch nicht allein 

erklären. Einen weiteren Beitrag liefert eine stetige Vergrößerung der Chipflächen (vgl. Abbildung 

3-5). Dabei erlaubt die höhere Dichte allein einen Komplexitätsanstieg bei DRAMs von 

32% p. a. 1 , der zusammen mit dem Flächenwachstum von 20% p. a. zu einem Gesamtanstieg der 

Speichergröße von 58% p. a. 2 entsprechend Abbildung 3-1 führt. 

Möglich wird das Flächenwachstum in erster Linie durch eine drastische Verringerung der 

Defektdichte bei der Fertigung. Um 1975 lag der Yield eines 20mm 2 -Chips noch bei ca. 60%. 

Rechnet man diesen auf einen heutigen 400mm 2 -Speicherchip um, ergäbe sich eine Ausbeute 

von nur noch 0,6 20 ≈ 0,0037%, die jede wirtschaftliche Produktion unmöglich machen würde. 

Durch extreme Reinraumbedingungen und die weitgehende Automatisierung konnte die Defektdichte 

aber so stark reduziert werden, dass sich das dargestellte Flächenwachstum bei gleichzeitig 

noch vergrößertem Yield erreichen ließ. 

Die treibende Kraft der dargestellten Entwicklungen waren lange Zeit die hochvolumigen Standardprodukte, 

allen voran Speicher und Mikroprozessoren, in deren Kielwasser die ASICs nur 

verzögert vom technologischen Fortschritt profitierten. In den vergangenen Jahren haben ASICs 

aber, wie Abbildung 3-3 deutlich zeigt, zu den Speichern aufgeschlossen und stellen heute 

gemeinsam mit den Mikroprozessoren die Technologietreiber dar. 

In den Abbildungen 3-6 bis 3-15 auf Seite 16 bis 19 wurde die Entwicklung weiterer Parameter 

dargestellt, auf die erst im weiteren Verlauf dieser Arbeit Bezug genommen wird. Der Übersichtlichkeit 

wegen wurden sie aber gemeinsam in diesem Kapitel gesammelt. So zeigt Abbildung 3-6 

das Wachstum der Anschlusszahl von IC-Gehäusen, das vor allem auf die vergrößerte Busbreite 

paralleler Speicherinterfaces zurückzuführen ist. 

1. Längenreduktion 13% p. a. aus Abbildung 3-3; 1 / 0,87 2 ≈ 1,32 

2. 1,32 ⋅ 1,20 ≈ 1,58

100G 

10G 

1G 

100M 

10M 

1M 

100k 

10k 

1000 

100 

10 



Lukas Bauer 

Komplexität von DRAMs 

(Bits) 

1k 

4k 

16k 

64k 

256k 

Trend: 

Faktor 10 in 5 Jahren 

(Faktor 4 in 3 Jahren) 

1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 

Abbildung 3-1: Die Komplexität von DRAMs [10] 

folgt streng einem exponentiellen Wachstumstrend. 

50μ 

20μ 

10μ 

5μ 

2μ 

1μ 

0.5μ 

0.2μ 

0.1μ 

50n 

Strukturbreite 

(drawn gate length) 

256 

1k 

4k 

16k 

64k 

256k 

1M 

1M 

4M 

Dissertation 


16M 

64M 

256M 

1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 

Abbildung 3-3: Das Kernziel der Technologen ist eine 

Verringerung der Transistor-Kanallängen [4], [11]. 

1000 

500 

400 

300 

200 

100 

50 

40 

30 

20 

10 

DRAM-Trend 

×0,5 in 5 Jahren 

(-13% p.a.) 

4M 

Chipfläche (DRAM, μP) 

(mm2 ) 

8080 

8086 

4k 

4004 

1k 

16k 

286 

386 

256k 

64k 

16M 

64M 

1G 

256M 

1G 

4G 

4G 

16G 

16G 

ASIC-Trend 

×0,5 in 4 Jahren 

(-16% p.a.) 

1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 

Abbildung 3-5: Die Komplexitätszunahme ist zum Teil 

auf die wachsende Chipgröße zurückzuführen [3], [10]. 

1M 

4M 

4G 

Alpha 21364 0.25μ 

Pentium 0.8μ 

1G 

486 

256M 

P4 0.18μ 

64M P II 0.35μ 

Pentium 0.6μ 

16M P II 0.25μ 

P III E, 0.18μ 

Pentium 0.35μ 

Trend: 

+20% p.a. 

16G 

100G 

10G 

1G 

100M 

10M 

1M 

100k 

10k 

1000 

100 

10 

Komplexität von Mikroprozessoren 

(Transistoren) 

DRAM-Trend 

(+58% p.a.) 

8080 

4004 

8086 

286 386 

erstes kommerzielles IC: 1 Flipflop (2 T + 8 R) 

μP-Trend 

(+43% p.a.) 

Kapitel 3.1 

Seite 16 

Alpha 21464 

Alpha 21364 

IBM Power 4 

Alpha 21264 Pentium 4 

Alpha 21164 Pentium III E 

Pentium III 

Pentium II 

Pentium Pro 

Pentium 

486 

1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 

Abbildung 3-2: Irreguläre Strukturen in Mikroprozessoren 

führen dort zu einem langsameren Wachstum [20]. 

1M 

500k 

200k 

100k 

50k 

20k 

10k 

5k 

2k 

1k 

500 

200 

100 

50 

20 

10 

Zelldichte 

(Gatter/mm2 im Core-Bereich) 

Maximaldichte 

(lückenlose Packung) 

Trend: quadratisch 

(n/A ~ 1/l 2 ) 

nutzbare Dichte 

(geroutet) 

10μ 5μ 3μ 2μ 1.5μ 1.0μ .7μ .5μ .35μ .25μ .18μ .13μ .1μ 

Abbildung 3-4: Die Zelldichte steigt mit dem Quadrat 

der inversen Kanallänge an [20], [45]. 

10k 

5k 

2k 

1000 

500 

200 

100 

50 

20 

10 

Pin-Anzahl 

(oben) max. Gehäuse-Pinzahl 

(unten) Pinzahl von Mikroprozessoren 

Trend: 

+14% p.a. 

8080 8086 (DIL) 

4004 (DIL) 

486 (PGA) 

386 (PGA) 

286 (PGA) 

Alpha 21364 

(LGA) 

Alpha 21264 (PGA) 

P III (μPGA) 

P4 (μPGA) 

Pentium II (LGA) 

Pentium Pro (PGA) 

Pentium (PGA) 

1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 

Abbildung 3-6: Auch die Pin-Anzahl ist bisher exponentiell 

gewachsen [1], [3], [4], [14], [20].



Lukas Bauer 

Dissertation 


Kapitel 3.1 

Seite 17 

Abbildung 3-8 zeigt die Zunahme der Taktfrequenz von Mikroprozessoren, Abbildung 3-9 die 

Entwicklung der Zugriffszeiten von DRAMs und Abbildung 3-10 die Verzögerungszeit eines 

Gatters in verschiedenen Technologien. An elektrischen Parametern sind in Abbildung 3-11 die 

Core-Versorgungsspannung, in Abbildung 3-12 der Leistungsverbrauch pro Gatter und in Abbildung 

3-13 die Leistungsaufnahme von Mikroprozessoren dargestellt. Schließlich wurden noch 

die Wafergröße (Abbildung 3-14) und die Maskenanzahl (Abbildung 3-15) dargestellt. 

Die für den ASIC-Designer entscheidende Frage nach der zukünftigen Entwicklung, also der 

Extrapolierbarkeit der Kurven, konzentriert sich dabei auf die Verringerung der Strukturbreite 

(Abbildung 3-3), da dieser Parameter wie geschildert das Komplexitätswachstum dominiert und 

sich auch die Schaltungsgeschwindigkeit direkt aus der Kanallänge der Transistoren ergibt. 

Mathematisch betrachtet ist die Extrapolation der Kurven dabei trivial, da sich die Kernparameter 

rein exponentiell mit langjährig konstanten Wachstumsraten verhalten. Fraglich ist jedoch, wie 

lange diese Entwicklung noch unverändert anhalten wird. 

Die in den vergangenen Jahrzehnten am häufigsten hierzu gestellte Prognose besagt, das Wachstum 

werde noch ca. drei bis vier Jahre unverändert anhalten und dann in eine Sättigung übergehen. 

Zu dieser Abschätzung verleiten die stets bevorstehenden produktionstechnischen Barrieren. 

Die gegenwärtig angedachten Lösungen erlauben eine Fortsetzung der Trends über den genannten 

Zeitraum, einem weiteren Wachstum stehen aber derzeit unlösbare Hindernisse entgegen. 

Dass diese Sättigung bis heute nicht eingetreten ist, ist dem in der Prognose unterschätzten 

menschlichen Erfindungsgeist zu verdanken, der, motiviert durch die Bedürfnisse eines gigantischen 

Wachstumsmarktes, stets neue Lösungen hervorgebracht hat, mit denen die fertigungstechnischen 

Schwierigkeiten umgangen werden konnten. Hierzu zählten in der Vergangenheit 

beispielsweise der Übergang von Aluminium-Gates zu selbstjustierenden Polysilizium-Gates, die 

Einführung von Fotomasken im 10:1-Maßstab zur Belichtung von Wafer-Teilbereichen (Reticles) 

und die Verwendung von ultraviolettem Licht zur Belichtung. 

Darüber, wann das exponentielle Wachstum 

dennoch in eine Sättigung übergehen wird, kann 

aus heutiger Sicht nur spekuliert werden. Unbestritten 

ist, dass physikalische Grenzen für die 

Konstruktion von MOSFETs existieren. Fraglich 

ist jedoch, wo genau diese liegen und ob 

nicht Transistoren nach anderen Konstruktionsprinzipien 

denkbar sind, für die andere Grenzen 

gelten. Eine Spekulation hierüber soll nicht Teil 

dieser Arbeit sein. Stattdessen soll eine pragmatische 

Antwort gegeben werden: Für die konkrete 

Evaluierung von ASIC-Projekten ist 

angenehmerweise nur eine kurzfristige Extrapolation 

der Kurven erforderlich, da von der 

Produktplanung bis zur Prototypenfertigung in 

der Regel nur sechs bis zwölf Monate vergehen 

und auch ein von vornherein eingeplanter 

Abbildung 3-7: Die Überführung von Labormustern 

zur Serienreife erscheint kalkulierbar. 

Umstieg auf die nächstkleinere Technologie („Shrink“) aufgrund der kurzen Produktzyklen 

allenfalls drei Jahre in die Zukunft geplant wird. Eine solche kurzfristige Extrapolation sollte 

insofern erlaubt sein, als die Weiterentwicklung bereits verfügbarer Labormuster von Transistoren 

zur Serienreife erheblich einfacher ist als das Vordringen zu kleineren Strukturbreiten. 

Gemäß Abbildung 3-7 tritt hier ein Vorlauf von ca. sechs Jahren auf, der eine ausreichende Planungssicherheit 

für ASIC-Entwicklungen bietet. 

5n 

10n 

20n 

50n 

0.1μ 

0.2μ 

0.5μ 

1.0μ 

2.0μ 

5.0μ 

Labormuster des ersten Transistors 

Serienreife der ASIC-Technologie 

Spekulation 

logische Entwicklung 

Δt ≈ 6 Jahre 

➔ Sicherheit für die Zukunft 

der ASIC-Entwicklung! 

1980 1990 2000 2010 2020 2030

10G 

5G 

2G 

1G 

500M 

200M 

100M 

50M 

20M 

10M 

5M 

2M 

1M 

500k 

200k 

100k 



Lukas Bauer 

Taktfrequenz von Mikroprozessoren 

(Hz) 

4004 

8080 

8086 286 

1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 

Abbildung 3-8: Taktfrequenzen von über 1GHz waren 

vor 10 Jahren noch fast unvorstellbar [9], [20]. 

10n 

5n 

2n 

1n 

500p 

200p 

100p 

50p 

20p 

10p 

386 

486 

Dissertation 


Alpha 21264 Pentium 4 

Alpha 21164 Pentium III 

Pentium II 

Pentium Pro 

Pentium 

Trend: 

+33% p.a. 

5μ 3μ 2μ 1.5μ 1.0μ .7μ .5μ .35μ .25μ .18μ .13μ .1μ 70n 50n 

Abbildung 3-10: Typische Verzögerungszeiten eines 

Gatters in verschiedenen Technologien [6], [44], [45] 

100μ 

50μ 

20μ 

10μ 

5μ 

2μ 

1μ 

500n 

200n 

100n 

50n 

20n 

10n 

5n 

2n 

1n 

Verzögerungszeit eines Gatters 

(NAND2, typisch, fanout=3) 

V CC = 5V für l ≥ 0,5μ 

V CC ~ l für l ≤ 0,5μ 

Leistungsverbrauch eines Gatters 

(typisch, in μW/Gatter/MHz) 

V CC = 5V für l ≥ 0,5μ 

V CC ~ l für l ≤ 0,5μ 

5μ 3μ 2μ 1.5μ 1.0μ .7μ .5μ .35μ .25μ .18μ .13μ .1μ 70n 50n 

Abbildung 3-12: Leistungsverbrauch pro schaltendem 

Gatter in verschiedener Technologien [20], [46] 

300 

250 

200 

150 

100 

50 

0 

Zugriffszeit von DRAMs 

(RAS cycle time, ns) 

neue Core- 

Architekturen 

alter Trend: 

-4,5% p.a. 

SDRAM 

Kapitel 3.1 

Seite 18 

FCRAM (Fujitsu) 

1980 1985 1990 1995 2000 2005 2010 

Abbildung 3-9: Die Geschwindigkeit von DRAMs 

nahm lange Zeit nur moderat zu [18], [20]. 

15V 

14V 

13V 

12V 

11V 

10V 

9V 

8V 

7V 

6V 

5V 

4V 

3V 

2V 

1V 

0V 

Versorgungsspannung 

(Core) 

Trend: 

proportional (V ~ l) 


Abbildung 3-11: Die Spannungsfestigkeit der dünnen 

Gateoxide lässt heute keine 5V-Corespannung mehr zu. 

1000 

500 

200 

100 

50 

20 

10 

5 

2 

1 

0.5 

0.2 

0.1 

Leistungsaufnahme von Mikroprozessoren 

(Watt) 

4004 

8080 

8086 286 

386 

Alpha 21264 SIA 

Alpha 21164 

Pentium II 

Pentium III 

Pentium Pro 

Pentium 

Trend: 

+22% p.a. 

1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 

Abbildung 3-13: Entwicklung der Leistungsaufnahme 

von Mikroprozessoren [4], [16], [20] 

486 

Pentium 4

20 

18 

16 

14 

12 

10 

8 

6 

4 

2 

0 



Lukas Bauer 

Wafergröße 

(Zoll) 

1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 

Abbildung 3-14: In modernen Technologien wird heute 

bereits mit 300mm-Wafern gearbeitet. 

3.1.2 Gegenwärtige Grenzen 

Dissertation 


Kapitel 3.1 

Seite 19 

Neben den aktuellen Daten einer kontinuierlichen Entwicklung, die sich aus den Diagrammen im 

letzten Abschnitt ablesen lassen, sind für den ASIC-Designer auch andere technologische Grenzen 

und Möglichkeiten von Interesse, insbesondere dann, wenn mehr als nur digitale Logik integriert 

werden soll. 

Dies betrifft zum einen die Integration von Speichern. Während sich SRAMs geringer Dichte in 

jedem CMOS-Prozess integrieren lassen, werden für DRAMs, Flash-Speicher oder hochdichte 

SRAMs spezielle Prozessvarianten mit zusätzlichen Maskenebenen und Prozessschritten benötigt. 

Dabei schließen sich die Verwendung von DRAM und die von Flash gegenwärtig aus: Die 

Vielzahl an unterschiedlichen Prozessschritten ergäbe eine zu geringe Ausbeute in der Fertigung. 

CMOS-Prozessvarianten für „DRAM + Logik“ oder „Flash + Logik“ hingegen stehen mit akzeptablem 

Yield zur Verfügung. 

Eine interessante Alternative zum gewöhnlichen SRAM stellt das seit Ende 1998 von MoSys 

angebotene RAM-Makro „1T-SRAM“ [28] dar. Dabei handelt es sich im Kern um ein dynamisches 

RAM mit einer 1-Transistor-Zelle, die unter Einhaltung der Design Rules gewöhnlicher 

CMOS-Prozesse konstruiert wurde. Die Ansteuerung des Makros erfolgt aber dank einer integrierten 

Refresh- und Interfacelogik wie bei einem gewöhnlichen synchronen SRAM. Das 1T- 

SRAM ist in verschiedenen Technologien und Speicherkonfigurationen gegen Lizenzgebühren 

erhältlich. Der Vorteil liegt in einer deutlichen Flächenreduktion gegenüber gewöhnlichen 

SRAMs mit 6-Transistor-Zelle bei vergleichbarer Zugriffsgeschwindigkeit. 

Weitere Hindernisse auf dem Weg zur „System on Chip“-Integration stellen technologische Spezialitäten 

dar. Analoge Präzisionsschaltungen, hohe Ströme und Spannungen, integrierte optoelektronische 

Bauelemente oder On-Chip Sensorik erfordern Varianten der Herstellungsprozesse, 

die derzeit nicht mit hochintegrierten CMOS-Prozessen vereinbar sind. Allerdings bieten Silicon 

Foundries wie TSMC bereits sogenannte „generische Prozesse“ an, in denen sich der Kunde aus 

verschiedenen Standardoptionen einen individuellen Technologiedurchlauf zusammenstellen 

kann. So können DRAM- oder Flash-Prozesse gewählt und die Anzahl der Metallisierungsmas- 

100 

50 

40 

30 

20 

10 

5 

4 

3 

2 

1 

Maskenanzahl 

(oben) typ. Gesamtmaskenanzahl 

(unten) max. verf. Metall-Ebenen 

NMOS 

PMOS 

NMOS 

NMOS (2metal) 

CMOS (single well) 

CMOS 

4m 

5m 

CMOS (3m) 

CMOS (3m) 

CMOS (twin well, 2m) 

CMOS+Flash (5m) 

1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 

Abbildung 3-15: Die Verdrahtbarkeit hochkomplexer 

Schaltungen erfordert immer mehr Ebenen [3], [4], [12].



Lukas Bauer 

Dissertation 


Kapitel 3.1 

Seite 20 

ken frei bestimmt werden. Im I/O-Bereich können dickere Oxide für 5V-Kompatibilität oder eine 

spezielle Implantation zur Erhöhung der ESD-Festigkeit eingekauft werden. Für analoge Funktionsgruppen 

schließlich sind optional Prozessvarianten erhältlich, in denen sich lineare, symmetrische 

und hochkapazitive MIM-Kapazitäten („Metal-Insulator-Metal“) realisieren lassen. 

Eine Ausnutzung der hiermit zur Verfügung stehenden Möglichkeiten erfordert allerdings zuweilen 

ein Full-custom-Design von Teilmodulen, wenn nicht alle benötigten Elemente in der gleichen 

Technologie als Bibliothekselemente des Herstellers oder als IP erhältlich sind. So fehlt es 

derzeit besonders häufig an speziellen Pads und Interface-Modulen sowie an A/D- und D/A- 

Wandlern in Deep-Submicron-Technologien.



Lukas Bauer 

3.2 Wirtschaftliche Restriktionen 

Dissertation 


3.2.1 Explodierende NRE-Kosten im Submikron-Bereich 

Kapitel 3.2 

Seite 21 

Das Wachstum der Mikroelektronik erfordert technologisch gesehen ein ständiges Vordringen in 

neue Grenzbereiche. Es konnte bis heute aufrecht erhalten werden, da stets die limitierenden Faktoren 

durch einen Umstieg auf neue Fertigungsverfahren umgangen werden konnten. Dies erfordert 

aber zum Teil äußerst kostenintensive Geräte und Materialien. So verlangen die immer 

höheren Anforderungen an die Defektdichte bei der Herstellung nach extremen Reinraumbedingungen, 

die nur noch in personenfreien Fabriken bei fast 100%iger Automatisierung aller Prozessschritte 

einzuhalten sind. Die Automatisierung, die immer aufwändigeren Prozessschritte 

sowie die gesteigerte Präzision von Lithographie, Metrologie, Schichtstärken, Temperatur- und 

Konzentrationsprofilen haben die Kosten für eine Halbleiterfabrik auf mehrere Milliarden US- 

Dollar ansteigen lassen (vgl. Abbildung 3-18 auf Seite 22). 

Während diese Kosten bei den durchsatzoptimierten Fabriken auf eine entsprechend höhere produzierte 

Siliziumfläche umgelegt werden können, entwickeln sich die bei jedem Design erforderlichen 

Maskenkosten zu einer echten Einstiegsbarriere für das ASIC-Design. Das Problem bei 

der Lithographie besteht darin, dass die Wellenlänge des zur Belichtung verwendeten UV-Lichtes 

(heute 193nm) nicht in dem Maße reduziert werden konnte wie die Strukturbreite, da für kleinere 

Wellenlängen kaum noch optisch transparente Materialien zur Verfügung stehen. 

Bei der Belichtung von Strukturen in der Größenordnung der Wellenlänge führt die Beugung des 

Lichtes bereits zu einer Verkürzung von Linienenden und zu Verrundungen von Ecken. Abhilfe 

schaffen hier OPC-Masken (vgl. Abbildung 3-16), deren überproportional feinere Strukturen 

aber wegen der größeren Datenmengen auch deutlich erhöhte Maskenschreibzeiten erfordern. 

Abbildung 3-16: Bei OPC-Masken („Optical Proximity Correction“) werden Verkürzungen von Linienenden und 

Verrundungen an den Ecken (2. v. links) durch feine Nebenstrukturen (2. v. rechts) ausgeglichen [7]. 

Spätestens bei Technologien von 0,25μm werden 

sogar „Phase Shift Masks“ benötigt. Bei der 

Belichtung von Linien mit Strukturbreiten unterhalb 

der Wellenlänge führt die Beugung am Spalt 

bei herkömmlichen Masken dazu, dass von beiden 

Seiten Licht unter die dunklen Teile gestreut wird 

und sich dort summiert (konstruktive Interferenz), 

wodurch der Kontrast minimal werden kann. 

Wird hingegen (vgl. Abbildung 3-17) unter jeder 

zweiten durchlässigen Linie eine Erhebung oder 

Vertiefung auf die Maske gebracht, die die Phase 

um 180° dreht, wird aus der konstruktiven Interferenz 

eine destruktive, die zur weitgehenden Auslöschung 

der gebeugten Lichtanteile führt und 

Abbildung 3-17: Erhöhung der Auflösung durch 

destruktive Interferenz bei Phasenshift-Masken [15]



Lukas Bauer 

Dissertation 


Kapitel 3.2 

Seite 22 

Belichtungen im Bereich unterhalb der Wellenlänge erst ermöglicht. Theoretisch lassen sich so 

Strukturen belichten, deren Breite der halben Wellenlänge entspricht. 

OPC- und Phasenshift-Masken haben die NRE-Kosten im Submikron-Bereich in bis dahin 

unvorstellbare Höhen getrieben (vgl. Abbildung 3-19). Da im Memory- und Mikroprozessorbereich 

aufgrund der gewaltigen Umsätze aber selbst Maskenkosten von über einer Million US- 

Dollar toleriert werden, werden zum Nachteil der ASIC-Kunden auch keine übermäßigen 

Anstrengungen unternommen, die NRE-Kosten gering zu halten. 

10B 

5B 

2B 

1B 

500M 

200M 

100M 

50M 

20M 

10M 

Kosten pro Fab (US$) 

bipolar bipolar 

5 μm 

3 μm 

2 μm 

1.5 μm 

0.25 μm 

0.35 μm 

0.5 μm 

0.7 μm 

1 μm 

0.13 μm/0.1 μm 

0.18 μm 

1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 

Abbildung 3-18: Die Kosten für eine Halbleiterfabrik 

haben 1 Milliarde US-Dollar längst überschritten [17]. 

3.2.2 Stückkosten und Mindeststückzahlen 

Trotz des gewaltigen Anstiegs der Kosten für eine Halbleiterfabrik konnten die Waferpreise pro 

Siliziumfläche in etwa konstant gehalten werden, da die Wafergröße und die fortschreitende 

Automatisierung zu einem entsprechend gesteigerten Durchsatz der Fabriken geführt haben. 

10 

9 

8 

7 

6 

5 

4 

3 

2 

1 

0 

0.5 μm 

0.6 μm 

0.8 μm 

1.0 μm 

0.35 μm 

0.25 μm 

Trend: 

Faktor 10 

in 10 Jahren 

Herstellungskosten (US¢/mm 2 ) 

0.18 μm 

1995 1996 1997 1998 1999 2000 2001 2002 

Abbildung 3-20: Wafer-Herstellungskosten pro mm 2 in 

verschiedenen Technologien [8] 

So zeigt Abbildung 3-20, dass zu jedem Zeitpunkt eine etwa gleichbleibende Preisspanne von ca. 

3¢/mm 2 für eine veraltete Technologie bis ca. 8¢/mm 2 für eine sehr fortschrittliche Technologie 

1M 

500k 

200k 

100k 

50k 

20k 

10k 

5k 

2k 

1k 

NRE-Kosten (US$) 

(Masken- und Prototypenfertigung) 

Gate Array 

Standard Cell 

Trend: 

Faktor 2 

p. Generation 


Abbildung 3-19: Gleichzeitig explodieren wegen der 

aufwändigen Maskenherstellung die NRE-Kosten. 

2.0 

1.8 

1.6 

1.4 

1.2 

1.0 

0.8 

0.6 

0.4 

0.2 

0.0 

Gehäusekosten (US¢/Pin) 

DIL 

PQFP 

BGA 

1980 1985 1990 1995 2000 2005 2010 

Abbildung 3-21: Gehäusekosten pro Pin für preiswerte 

Plastikgehäuse im Consumer-Bereich [4]



Lukas Bauer 

Dissertation 


Kapitel 3.2 

Seite 23 

existiert, wobei sich allerdings die Strukturbreiten der jeweiligen Technologien mit dem technologischen 

Fortschritt verschieben. Innerhalb einer Strukturbreite ist naturgemäß eine Kostendegression 

zu beobachten. 

Da die Komplexität moderner ASICs geringfügig schneller zunimmt als die erreichbare Gatterdichte, 

steigen die Chipflächen und somit die Preise historisch gesehen stetig leicht an. (Eine 

andere Interpretation ist die, dass die geringere Defektdichte von der Ausbeute her größere Chipflächen 

erlaubt, die aus Gründen einer maximalen Systemintegration sofort ausgenutzt werden.) 

Angesichts der steigenden Pinzahlen komplexer ASICs werden auch die Gehäusekosten immer 

interessanter. Die historische Konstante liegt hier bei ca. 1¢/Pin (vgl. Abbildung 3-21). Für die 

Zukunft ist hier eine Abnahme zu erwarten: Zum einen erhöht bei den hochpoligen BGA-Gehäusen 

eine weiter ansteigende Pin-Anzahl kaum noch die Substratkosten, so dass lediglich die 

Bondkosten als untere Grenze zu berücksichtigen sind, und zum anderen könnte es in diesem 

Jahrzehnt zu einem Durchbruch bei den bondfreien Gehäusen („Flip Chip“) kommen. 

Zusammenfassend lässt sich feststellen, dass die immer höhere Integrationsdichte bei konstanten 

Siliziumpreisen eine immer weitergehende Systemintegration bis hin zum „System on a Chip“ 

voll unterstützt, dass sich die explodierenden NRE-Kosten aber zu einer echten Einstiegsbarriere 

für das ASIC-Geschäft entwickeln könnten. 

Hinzu kommt, dass auch die Entwicklungskosten hochkomplexer ASICs stark zunehmen und 

immer häufiger auch Teilmodule als Fremdleistung („IP“) eingekauft werden müssen, um die 

maximal zulässige Entwicklungszeit von üblicherweise ca. sechs Monaten nicht zu überschreiten. 

Außerdem werden bei hoher Systemintegration auch „Hard Macros“ des Halbleiterherstellers 

oder von Fremdanbietern benötigt. Hierunter fallen z. B. embedded CPUs, größere RAMs, 

Flash-Macros oder Ethernet-Phy’s. Während konventionelle Halbleiterhersteller ihren Kunden 

derartige Macros oft kostenlos zur Verfügung stellen, lassen sich die reinen Silicon Foundries 

diese in der Regel teuer bezahlen. Auf diese Weise können sich die gesamten NRE-, IP- und Entwicklungskosten 

bei einem SoC bereits heute auf mehrere Millionen US-Dollar summieren. 

Ein weiteres Hindernis stellen Mindeststückzahlen dar, die von den Halbleiterherstellern gefordert 

werden. Wenn eine Silicon Foundry wie TSMC 4,8 Millionen 8-Zoll-Wafer im Jahr (2001) 

produziert, was etlichen Milliarden IC’s entspricht, wird klar, dass mitunter auch ASIC-Projekte, 

die dem Kunden als ehrgeizig erscheinen, vom potentiellen Hersteller als uninteressant abgelehnt 

werden. 

Die Konsequenz ist neben einem für viele Kunden kaum noch tragbaren finanziellen Risiko, dass 

sich die Entwicklung hochkomplexer ASICs nur noch rentiert, wenn Stückzahlen in der Größenordnung 

von 1 Million Stück erreicht werden können. Die Anzahl der ASIC-Designs im High- 

End-Bereich ist daher stark rückläufig. 

Die Chance für alle ASIC-Entwickler besteht aber darin, dass moderne SoCs wegen ihrer Programmierbarkeit 

so flexibel und universell einsetzbar gestaltet werden können, dass immer mehr 

Applikationen mit dem gleichen ASIC realisiert werden können. Auf diese Weise können insgesamt 

durchaus interessante Stückzahlen erreicht werden.



Lukas Bauer 

4. Kapitel 

Dissertation 


Zeitgemäße Entwurfsstrategien 

4.1 Modernes Digitaldesign 

4.1.1 Fehlervermeidung durch Automatisierung und Abstraktion 

Kapitel 4 

Seite 24 

Da die technologische Entwicklung einem ungebremsten Wachstum der Designkomplexitäten 

bis auf weiteres nicht entgegenzustehen scheint, soll in dieser Arbeit nun die Nutzbarkeit der 

Ressourcen hinterfragt werden. Wenn bei den Entwürfen nicht bloß die Bitbreite bzw. der Grad 

an Parallelität steigt, sondern die Schaltungen auch inhaltlich immer komplexer werden, droht in 

der Spezifikations- und Entwurfsphase der zeitliche und personelle Aufwand in unzumutbarem 

Maße zu steigen. Gleichzeitig sinkt die Wahrscheinlichkeit, dass ein gefertigter Chip beim ersten 

Versuch fehlerfrei funktioniert, extrem schnell ab: Sie potenziert 1 sich bei konstanter Fehlerwahrscheinlichkeit 

pro Gatter mit einem Komplexitätsmaß, das seinerseits exponentiell wächst. 

Beide Faktoren machen eine wirtschaftliche Produktentwicklung unmöglich, sofern nicht die 

Produktivität der Designer in dem Maße gesteigert und das Fehlerrisiko pro Gatter in dem Maße 

reduziert werden kann, in dem der Umfang der Schaltung zunimmt. Da aber weder Fleiß noch 

Disziplin der Designer den Wachstumsraten der Mikroelektronik folgen können, ist eine Revolution 

der Designmethoden in regelmäßigen Abständen unabdingbar. 

Im Bereich der Layouterzeugung sind diese Revolutionen – die Einführung der CAD-Programme 

und der automatischen Place & Route Tools – weitgehend abgeschlossen, und beim Schaltungsentwurf 

wird die Logiksynthese inzwischen allgemein als Mittel zur Produktivitätssteigerung 

und Fehlervermeidung akzeptiert. 

Der Gewinn für den Designer ergibt sich dabei aus dem immer höher werdenden Abstraktionsgrad. 

Während die rein manuelle Layouterstellung noch eine intensive Beschäftigung mit jedem 

Transistor voraussetzte, muss beim Einsatz der Logiksynthese noch nicht einmal die Gatterrepräsentation 

der Schaltung bekannt sein. Bei der Umsetzung der Verhaltensbeschreibung in ein Layout 

ist heute zumindest theoretisch ein voller Automatismus ohne Benutzereingaben und ohne 

Risiko möglich. Aus der Computerunterstützung („Computer Aided Design“, CAD) ist in diesem 

Bereich schon heute eine fast vollständige Übernahme der Arbeiten durch Computerprogramme 

(„Electronic Design Automation“, EDA) geworden, so dass sich der Engpass beim IC-Design 

immer mehr zur (HDL-)Spezifikation hin verschiebt, die zusammen mit der Simulation und Fehlerbeseitigung 

auf dieser Ebene oft schon mehr als 75% der Arbeitszeit eines ASIC-Designs 

beansprucht. 

Derzeit ist es jedoch bei einigen Designern noch gängige Praxis, eine Spezifikation teils verbal, 

teils grafisch zu formulieren und sie anschließend per Hand in eine HDL-Beschreibung umzusetzen. 

Dieser aufwändige Arbeitsschritt sowie die erforderliche Fehlerkorrektur in der entstandenen, 

unübersichtlichen Textdatei verlangen auch hier einschneidende Veränderungen. Angesichts 

der ständig steigenden Komplexität der Schaltungen werden heute erheblich bessere Spezifikationsformen 

benötigt als zig-tausend Zeilen lange VHDL-Beschreibungen, um durch höhere 

Abstraktion mit geringerem Aufwand mehr Gatter entwerfen zu können. 

1. Für mathematische Laien sei angemerkt, dass der Wahrscheinlichkeitswert, der etwas kleiner als 1 ist, 

durch das Potenzieren mit einem großen Wert deutlich kleiner als 1 werden kann.



Lukas Bauer 

Dissertation 


Kapitel 4.1 

Seite 25 

Es wird daher eine modernere Darstellungsform als VHDL benötigt, an die die folgenden Anforderungen 

gestellt werden: 

● Die neue Darstellungsform muss übersichtlicher sein als VHDL. 

● Die Automatisierung der Logiksynthese muss erhalten bleiben oder ausgedehnt werden. 

● Der Grad an Abstraktion muss steigen, d. h. die Darstellungsform muss so kompakt 

sein, dass pro eingegebener Zeile noch mehr Gatter beschrieben (und automatisch 

erzeugt) werden als bei alleiniger Anwendung der Logiksynthese. 

Diese Anforderungen werden nur von grafisch orientierten Programmen erfüllt. 

4.1.2 Grafisches VHDL als personen- und maschinenlesbare Spezifikation 

4.1.2.1 Grafische HDL-Programmierung am Beispiel „Speedchart“ 

Grafische HDL-Eingabetools erlauben es heute, Schaltpläne, Datenpfade und vor allem 

Zustandsmaschinen direkt am Bildschirm zu zeichnen und zu simulieren. Durch die Kombination 

verschiedener Eingabeformate, eine hierarchische Gliederung und die zweidimensionale 

Anordnung selbst erklärender grafischer Beschreibungselemente entsteht eine übersichtliche, 

gleichermaßen personen- und maschinenlesbare Form der Spezifikation, die optimal geeignet ist, 

alle anderen Spezifikationsformen zu ersetzen bzw. zu vereinheitlichen, und die gleichzeitig in 

einen synthetisierbaren HDL-Text compiliert werden kann. 

Ein solches grafisches HDL-Programm, „Speedchart“, wurde vom Verfasser dieser Arbeit 1993 

am Institut für Mikroelektronik der TU Berlin eingeführt und bereits mehrfach mit Erfolg bei 

kommerziellen ASIC-Entwicklungen eingesetzt. Durch einen intensiven Kontakt mit den Programmierern 

konnte das Programm sogar in einigen Punkten mit gestaltet werden. Zwar konnte 

die Herstellerfirma Speed ihre finanziellen Probleme nicht lösen, so dass seit ihrer Insolvenz im 

Jahre 1997 das Programm nicht mehr weiterentwickelt wurde, doch Speed hatte als Pionier der 

Methodik bis dahin einen so großen Vorsprung zu allen Konkurrenten herausgearbeitet, dass 

Speedchart noch heute vielerseits als das beste Tool seiner Art angesehen wird. Aus diesem 

Grund sollen im Folgenden die grafischen HDL-Programme am Beispiel Speedchart besprochen 

werden. 

Der Produktivitätsgewinn liegt auch bei den grafischen HDL-Programmen primär in der gesteigerten 

Abstraktion. Die Darstellungsform der Spezifikation nähert sich der Denkweise des Designers 

immer mehr an, der sich nicht mehr mit der HDL-Prozessverwaltung und ähnlichen, 

letztlich unproduktiven Formalitäten beschäftigen muss, sondern sich auf das Wesentliche 

beschränken kann. So wird die Ablaufsteuerung durch Zustände und Transitionen grafisch 

beschrieben und die Hardwarebeschreibungssprache nur noch eingesetzt, um Bedingungsabfragen, 

Signalzuweisungen und -operationen zu formulieren, wobei jedes der verbleibenden Elemente 

bei der Synthese mehr Gatter beschreibt als bei allen anderen Spezifikationsformen. 

4.1.2.2 Speedchart als grafischer HDL-Browser 

In seiner einfachsten Funktion, die beispielsweise im Datenpfad-Bereich zur Anwendung kommen 

wird, dient Speedchart nur als grafisch gestalteter Browser für HDL. Auf oberster Ebene 

kann dabei ein Schaltplan grafisch erstellt werden. Die im Schaltplan platzierten und verdrahteten 

Zellen können zur hierarchischen Gliederung tiefer liegende Schaltplanseiten oder aber synchrone 

oder asynchrone Codeblöcke enthalten, die in VHDL, Verilog oder wahlweise in einer 

VHDL-ähnlichen, formal vereinfachten Sprachversion verfasst werden können.



Lukas Bauer 

Dissertation 


Kapitel 4.1 

Seite 26 

Bereits in dieser Funktion erleichtert das Programm die Arbeit des Designers ganz außerordentlich. 

Betrachtet man z. B. eine einfache Verbindung zwischen zwei Modulen, so besteht diese nur 

noch aus drei grafischen Elementen: dem Ausgangspin des Quellmoduls, der Leitung und dem 

Eingangspin des Zielmoduls. Bei der Übersetzung werden diese zusammen mit den zugehörigen 

Signaldefinitionen etc. in formal korrektes VHDL oder Verilog übersetzt. Dem steht die manuelle 

Eingabe von nicht weniger als sieben Zeilen VHDL gegenüber, die bei modulweiser Partitionierung 

auf drei VHDL-Dateien verteilt sind. Bei herkömmlicher Arbeitsweise erfordert die Erstellung 

einer solchen Verbindung, die drei Dateien zunächst zu suchen (anhand des Namens, an den 

man sich „so ungefähr“ erinnert), sie in einem Editor zu öffnen, die passenden Stellen für die 

neuen Einträge zu suchen, die Änderungen einzutragen etc. In Speedchart geschieht dies alles in 

einer integrierten grafischen Umgebung, in der die passenden Editoren bereits beim Anklicken 

eines Objekts zum Editieren der richtigen Stelle einer Datei geöffnet werden. Ebenso ist es bei 

syntaktischen Fehlern nicht mehr erforderlich, in einer Datei anhand einer Zeilennummer den 

Fehler zu lokalisieren: Hier reicht ein Anklicken der Fehlermeldung, um zur richtigen Zeile im 

Editor zu springen. 

Ein weiterer signifikanter Vorteil liegt in der zweidimensionalen und hierarchischen Anordnung 

der Module, die sich dem menschlichen Erinnerungs- und Orientierungsvermögen offenbar 

wesentlich leichter erschließt als zeilenbasierte und damit eindimensionale HDL-Texte. Kein 

Mensch kann in zigtausend Zeilen umfassenden Textdateien den Überblick über genaue Positionen, 

geschweige denn Zeilennummern einzelner Elemente behalten. In der zweidimensionalen 

Grafik hingegen bieten Positionen, Größen und Verbindungsmuster zwischen den Zellen gut einprägsame 

Orientierungspunkte, so dass man sich erfahrungsgemäß auch nach Monaten noch in 

einem komplexen Design voll zurechtfindet. 

4.1.2.3 Grafische Eingabe von Zustandsmaschinen 

Während die soeben vorgestellten Browser-Funktionen für VHDL zum Teil sicher auch von 

anderen modernen Editoren und Simulatoren geboten werden, zeichnen sich die grafischen HDL- 

Programme durch die Möglichkeit aus, dass die auf Schaltplanebene platzierten Zellen neben 

VHDL-Texten auch andere, grafische Darstellungsformen von Modulen enthalten können. So ist 

es möglich, Wahrheitstafeln kombinatorischer Logikblöcke zu erstellen, die ebenfalls automatisch 

in VHDL übersetzt werden können. Außerdem können vorhandene oder selbst erstellte 

Symbole auf Schaltplanebene platziert werden, um z. B. Einzelgatter unkompliziert verwenden 

zu können. 

Die mächtigste Funktion besteht aber in 

der direkten grafischen Eingabe von 

State Machines am Bildschirm (vgl. 

Abbildung 4-1). Die zweidimensionale 

Darstellung von Zustandsmaschinen ist 

für den Designer noch immer die übersichtlichste 

Darstellungsform; und während 

in der Vergangenheit Papier und 

Bleistift oder getrennte Zeichenprogramme 

verwendet werden mussten, um 

diese zu entwerfen, kann dies mit grafischen 

HDL-Programmen voll integriert 

geschehen. Es entsteht eine übersichtliche, 

hierarchisch geordnete Beschreibung, 

die von Mensch und Maschine 

D_1 

entry 

C: Clear=’1’ 

A: Wert:="0000"; 

A: Wert:="0000"; 

A: Wert:=Wert+"0001"; 

Diagram Variables: 

Wert(4): logic; 

gleichermaßen verstanden wird und somit optimal zur Spezifikation geeignet ist, dabei aber auf- 

1 

3 

S1 

Count 

0 

2 

Subdiag Actions of 

A: Wert_hi_out:=Wert(3 downto 2); 

C: Start=’1’ 

C: Stop=’1’ 

C: UpNDown=’0’ 

A: Wert:=Wert-"0001"; 

Abbildung 4-1: Eine einfache Zustandsmaschine 

Stop



Lukas Bauer 

Dissertation 


Kapitel 4.1 

Seite 27 

grund der direkten Übersetzbarkeit auch einen direkten Ausgangspunkt für die Logiksynthese 

darstellt. 

Die verwendeten grafischen Grundelemente sind dabei selbst erklärend. So sind Zustände über 

Transitionen miteinander verbunden, wobei jede Transition eine beliebig komplexe Übergangsbedingung 

besitzen kann und beim stets synchronen Zustandsübergang Aktionen („transition 

actions“) ausgeführt werden können. Hat keine den aktuellen Zustand verlassende Transition 

eine erfüllte Bedingung, so verharrt die Maschine in diesem Zustand. Sind mehrere Bedingungen 

erfüllt, so wird aufgrund der vergebenen Prioritäten nur die am höchsten priorisierte Transition 

durchlaufen. 

Für jedes Modul, das Zustandsmaschinen enthält, lässt sich ein Clock-Signal und ein wahlweise 

synchrones oder asynchrones Reset-Signal definieren. Die Zustandsmaschinen starten beim 

Reset im definierten Zustand „entry“. In jedem Modul können interne Signale und Variablen definiert 

werden, wobei Booleans, Vektoren, Integers und Felder erlaubt sind. Diese werden genauso 

wie die Ausgangssignale des Moduls beim Reset auf die Werte zurückgesetzt, die bei der Definition 

evtl. angegeben wurden. Innerhalb eines Moduls können mehrere Zustandsmaschinen in 

nebeneinander liegenden „subdiagrams“ angeordnet werden, die in nebenläufige Prozeduren 

übersetzt werden. Neben den synchronen Zustandsmaschinen können auch asynchrone Anweisungen 

in den „subdiagram actions“ eingegeben werden. 

Zur Vereinfachung dienen außerdem „entry actions“, die synchron beim Betreten eines Zustandes 

ausgeführt werden, „exit actions“, das genaue Gegenstück dazu, und asynchrone „state 

actions“, die ausgeführt werden, solange sich die Zustandsmaschine im zugehörigen Zustand 

befindet. Eine weitere Vereinfachung stellen „drop through states“ dar. Diese durch eine gestrichelte 

Begrenzung gekennzeichneten Zustände können innerhalb eines Taktes betreten und wieder 

verlassen werden, falls eine herausführende Transition eine wahre Bedingung enthält. Dabei 

erfolgt der synchrone Zustandsübergang direkt in den Folgezustand, wobei aber die „transition 

actions“ der herein- und herausführenden Transitionen ausgeführt werden. 

Eine besondere Art der hierarchischen Gliederung von Zustandsmaschinen stellen „hierarchical 

states“ dar. Unter diesen Zuständen, die durch eine doppelte Begrenzungslinie gekennzeichnet 

werden, befindet sich eine weitere hierarchische Ebene, die wiederum mehrere parallel liegende 

Subdiagramme mit Zustandsmaschinen enthalten kann. Beim Betreten des hierarchischen 

Zustandes laufen dabei alle State Machines der unteren Ebene von ihrem „entry“-Zustand aus 

los. Der hierarchische Zustand wird verlassen, wenn alle Zustandsmaschinen der unteren Hierarchieebene 

in einem besonderen „exit“-Zustand angekommen sind oder eine aus dem hierarchischen 

Zustand herausführende Transition eine erfüllte Bedingung besitzt. 

Alle Zuweisungen in „transition actions“, „entry actions“ und „exit actions“ werden dabei synchron 

mit dem spezifizierten Clock-Signal ausgeführt, und bei der Synthese werden für die 

Signale, die Ziel der Zuweisungen sind, entsprechend Flipflops eingesetzt. Asynchrone Aktionen 

hingegen werden ständig ausgeführt und ergeben nach der Synthese rein kombinatorische Logiken. 

Mit diesen wenigen Konventionen ist die Gesamtbeschreibung des ASICs, bestehend aus Schaltplanebenen, 

Codeblöcken und Zustandsmaschinen, auch sofort von jedem Fremden zu verstehen 

und als anschauliche Dokumentation zu verwenden. Gleichzeitig ist der Umgang mit graphischen 

HDL-Programmen wesentlich einfacher zu erlernen als die Programmierung in reinem 

VHDL oder Verilog, da von den HDL-Sprachelementen nur Bedingungsabfragen, Signalzuweisungen 

und -operationen benutzt werden, die jedem Programmierer aus beliebig vielen anderen 

Programmiersprachen bekannt sind. Die speziellen formalen Konstruktionen der Hardwarebeschreibungssprachen 

zur Prozessverwaltung, Entity- und Architecture-Deklaration etc. müssen



Lukas Bauer 

Dissertation 


Kapitel 4.1 

Seite 28 

nicht erlernt werden, sondern werden bei der Beschreibung von den grafischen Elementen abgelöst 

und bei der Übersetzung in korrektes Verilog oder VHDL automatisch erzeugt. 

4.1.2.4 Integrierte Simulationsmöglichkeiten 

Zur Fehlererkennung verfügt Speedchart über einen sehr komfortablen, integrierten Simulator. 

Hierzu können zunächst Testmuster in einer wiederum formal vereinfachten HDL-Version eingegeben 

und bei Bedarf in VHDL oder Verilog übersetzt werden. Die Speedchart-interne Simulation 

kann aber auch ohne Übersetzung sofort gestartet werden. Die Auswahl der darzustellenden 

Signale und Variablen, Ports und Wires kann textuell oder durch Anklicken in der Grafik geschehen. 

Bei der Simulation können die Werte der ausgewählten Objekte gleichzeitig als Liste der 

momentanen Werte und als Kurvenformen dargestellt werden, wobei bei ausgewählten Zustandsmaschinen 

der Name des aktuellen Zustandes angezeigt wird und bei Vektoren und Integers verschiedene 

Zahlenformate gewählt werden können. Als Besonderheit werden während der 

Simulation die gerade aktiven Zustände und die durchlaufenen Transitionen in den Zustandsmaschinen 

grafisch hervorgehoben, so dass eine anschauliche Animation entsteht. 

Während der integrierte Simulator das Design nicht compiliert und daher zwar schnell anläuft, 

aber relativ langsam simuliert, unterstützt Speedchart auch die Anbindung eines externen Simulators 

wie z. B. Verilog-XL oder Modelsim. Hierbei werden Design und Stimuli in die entsprechende 

Hardwarebeschreibungssprache übersetzt und der externe Simulator gestartet. Durch die 

Integration Speedchart-eigener Routinen in das ausführbare Programm des externen Simulators 

ist es dabei weiterhin möglich, den Simulator interaktiv zu steuern und Kurvenformen während 

der Simulation mitlaufen zu lassen. 

Zusätzlich bietet Speedchart die Möglichkeit, in der Darstellung als Kurvenformen die Ergebnisse 

verschiedener Simulationen zu vergleichen und die Unterschiede grafisch hervorzuheben. 

Hierdurch kann z. B. überprüft werden, ob eine Schaltungsänderung unerwünschte Nebeneffekte 

hat, indem mit Testmustern, die die unveränderten Funktionen stimulieren, Simulationen der 

alten und neuen Schaltung durchgeführt und die Ergebnisse verglichen werden. Außerdem 

besteht die Möglichkeit, Simulationsergebnisse von extern durchgeführten Simulationen einzuladen. 

Es kann somit auch eine Cross-Simulation von Verhaltensbeschreibung und synthetisierter 

Netzliste in Speedchart ausgewertet werden. 

4.1.2.5 Klassische Entwurfsmethoden und grafisches VHDL im Vergleich 

Um den immer höher werdenden Grad der Abstraktion und anschließend den Produktivitätsgewinn 

beim Vergleich von Schematics, VHDL-Texten und grafischem HDL quantitativ beurteilen 

zu können, wurden Untersuchungen an zehn Beispielschaltungen durchgeführt. Die Module, die 

in Tabelle 4-1 aufgeführt sind, sind Teilmodule eines ISDN-Controllers [A-17] mit integrierter 

ARM7-RISC-CPU. Sie wurden als typische Teilschaltungen aus dem Controller- und Datenpfadbereich 

ohne große Redundanz und ohne Arithmetik- oder Speichereinheiten ausgewählt. 

Als Vergleichsmaß wurden dabei keine Komplexitätsmaße benutzt, da diese den intellektuellen 

Gehalt einer Schaltung wiedergeben und somit bei unterschiedlichen Repräsentationen der gleichen 

Schaltung stets denselben Wert ergeben hätten, sondern Kennzahlen für den Umfang einer 

Repräsentation, indem für den Vergleich die Anzahl der jeweils die Schaltung vollständig 

beschreibenden Elemente bestimmt wurde:



Lukas Bauer 

Dissertation 


Name der Anzahl graf. Symbole und Textzeilen Anzahl 

Beispielschaltung graf. HDL VHDL Schematic Gatter 

HDLC Controller (Teilmodul) 1036 1307 4805 5362 

General Purpose I/O 290 397 1632 2509 

System Timer 489 604 2914 4110 

Interrupt Controller einer UART 82 165 394 523 

Audio Codec Interface 429 611 2034 2533 

SDRAM Controller 354 648 1065 841 

PCM Highway (Teilmodul) 535 752 2794 3662 

FIFO 8x9Bit 87 171 807 1089 

Glue Logic für ARM7-CPU 151 229 427 508 

Pin Multiplexer 336 429 596 650 

Summe 3789 5313 17468 21787 

Tabelle 4-1: Komplexitäten einiger Module in verschiedenen Darstellungsformen 

Setzt man die Summen der Komplexitäten ins Verhältnis, so ergibt sich, dass im Mittel 

im Schematic pro Symbol oder Leitung 1,25 Gatter, 

im VHDL-Code pro Textzeile in der Synthese 4,10 Gatter, 

in grafischem HDL pro Zustand, Transition oder Textzeile 5,75 Gatter 

Kapitel 4.1 

Seite 29 

beschrieben werden. Bei Schaltungen, die speicherähnliche Strukturen, Multiplizierer, Busse 

großer Breite oder mehrfache Instanziierungen identischer Module enthalten, kann der Gewinn 

im Abstraktionsgrad sogar noch wesentlich höher ausfallen. Dies gilt insbesondere für die 

zukünftige Entwicklung des ASIC-Designs, da die Bitbreite der zu verarbeitenden Daten stetig 

ansteigt. 

Die oben genannten Zahlen für VHDL und Schematic beziehen sich dabei auf die vom grafischen 

HDL-Programm generierte VHDL-Datei und auf die daraus synthetisierte Schaltung. Im Vergleich 

zu manuell erstellten VHDL-Texten und Schematics kommt G. Müller bei ähnlichen 

Untersuchungen [32] zum Ergebnis, dass 

VHDL-Code im Vergleich zum Schematic 3,5 - 4,5 mal kompakter und 

grafisches HDL im Vergleich zum Schematic 15 - 23 mal kompakter 

ist. Der Unterschied zwischen beiden Untersuchungen wird teilweise auf die gewählten Beispiele 

und teilweise darauf zurückzuführen sein, dass beim Schematic Entry im Gegensatz zur Logiksynthese 

keine besonders gut optimierte Struktur erzeugt wird. 

Während diese Zahlen in erster Linie die Kompaktheit der Darstellungsform messen, sind sie 

gleichzeitig auch repräsentativ für den Arbeitsaufwand bei der direkten Eingabe der Schaltungen 

in der jeweiligen Darstellungsform, da die verschiedenen Elemente sich näherungsweise gleich 

schnell erstellen lassen. Dies ist allerdings von der Wahl des Editors abhängig, da sich Editoren 

für die gleiche Darstellungsform in der Geschwindigkeit der Bedienbarkeit deutlich unterscheiden 

können. Hier schneidet Speedchart durch eine Vielzahl von Shortkeys, Maustastenfunktionen 

und die automatische Generierung von Objekten sehr gut ab. 

Nicht berücksichtigt sind die Vorarbeiten, die bei Verwendung der konservativen Eingabeformate 

erforderlich sind. So steht vor der Eingabe eines Schematics in der Regel die Planung der 

zugrunde liegenden Zustandsmaschinen und die Aufstellung der Übergangs- und Ausgangsmatrizen 

auf dem Papier, bevor die entsprechenden Logikgleichungen in Gatter zerlegt und eingegeben 

werden können. Auch die Vorteile der grafischen HDL-Programme in den Simulations- und 

Korrekturphasen sind unberücksichtigt.



Lukas Bauer 

Dissertation 


Kapitel 4.1 

Seite 30 

Nicht zuletzt muss auch der „Spaßfaktor“ eines Eingabewerkzeugs beurteilt werden, da dieser die 

Produktivität eines Designers ganz erheblich beeinflussen kann. Durch die gesteigerte Übersicht 

und den Komfort grafischer HDL-Programme entsteht bei den Programmierern insgesamt der 

nReset 

Clk 

Start 

Stop 

Clear 

UpNDown 

Zaehler 

nReset 

Clk 

Start 

Stop 

Clear 

UpNDown 

FSM 

Wert_hi_out 

Wert_hi_out (2) 

D_1 

entry 

C: Clear=’1’ 

A: Wert:="0000"; 

Jan 29 2001 15:50:49 CELL_Zaehler_fsm_syn.vhd 

Page 1 

¡ ¡ ¢ ¡ ¡ ¡ ¡ ¡ ¡ ¢ ¡ ¡ ¡ ¡ ¡ ¢ ¡ ¡ ¡ ¡ ¡ ¢ ¡ ¡ ¡ ¡ ¡ ¡ ¢ ¡ ¡ ¡ ¡ ¡ ¢ ¡ ¡ ¡ ¡ ¡ ¢ ¡ ¡ ¡ ¡ ¡ ¡ ¢ ¡ ¡ ¡ ¡ ¡ ¢ 

¡ £¢¤¡¥¡¦¨§©¢¡§¡¢¤¡§¥¡¥¡¡§¡¡¥§¡¡¦¡¡¢¦¡¦¡¢ 

¡ 

¢¢¢¡¡¢¡¢¡ 

¡ ¦¢¥¡¦¡§¢¦ ¢©¥¡¡¡ 

¡ ¨¢§¢¨ ¢ ¡¨¢¡¡ 

¡ 

¡ ¡¦¢¢¤¡¢¦¡§¦¢¦¡¦§¡¡ ¡§¢¢¤¢© 

¡ ¦¡¡¤ ¡ 

¡§¢¡ ¤¡¢¤¦ ¨¢§¢¨ ¡ ¡¢¡¡ 

¡ 

¡ ¡ ¢ ¡ ¡ ¡ ¡ ¡ ¡ ¢ ¡ ¡ ¡ ¡ ¡ ¢ ¡ ¡ ¡ ¡ ¡ ¢ ¡ ¡ ¡ ¡ ¡ ¡ ¢ ¡ ¡ ¡ ¡ ¡ ¢ ¡ ¡ ¡ ¡ ¡ ¢ ¡ ¡ ¡ ¡ ¡ ¡ ¢ ¡ ¡ ¡ ¡ ¡ ¢ 

¡ 

¥¡¤¢¢§¡¡¢ ©¦ ¡¢ ¡ ¡ ¡¡¡ §¢¥¢¥ 

¥¡¤¢¢§¡¢ 

¡¢ ¡ ¡ ¢ §¥¡¥ 

©¦ ¢ ¡¡¡¡¢ §¢¥¡¥ 

©¦ 

¡ £¡ ¡ 

¢¢¢¢¢¡¨ 

¡ £¢¡¡¡ ¡ £¡¨¡¡¢¢ ¡ 

¢¡¢¢ ¡¢ 

¡ 

¢¡¡¡¡¢ ¡¢ 

¡ ¢§¡§¢¦¨¡¡¢ §¡¦¥¦¡ ¢¢§¡¤¡ 

¡ 

¤¡¨¤¢¢¦¢¦¡¨¢§¡¢¦ ¡ 

§¡¡¢¢¤¡©¢¡¦¢ ¢ ¡¤¡ 

¡¦ ¡§¢¡¦ ¡¢¦¤¡ ¦¡¢¡ ¢©¡¢ ¡ ¢ 

©¡¡¢¦¤¢ 

§¢¦¥¦¡ ¢ ¢§¢ ¦¡¡¡ 

¢ ¢§¡¤¢ 

¦¡¡¡ §¢¦¥¦¡ ¢ ¢§¢ ¢§¡§¢¦¢¡¡¡§¡¦¥¡¦¡ 

¥¡¤¢¢§¡¡¢ ©¦ ¡¢ ¡ ¡ ¡¡¡ §¢¥¢¥ 

¥¡¤¢¢§¡¢ 

¡¢ ¡ ¡ ¢ §¥¡¥ 

©¦ 

¢ ¡¡¡¡¢ §¢¥¡¥ 

©¦ ¢ ¡¡¡§¡¦¥¡¦¡ ¢ ¢§¡ §¥¡¥ 

©¦ 

¢ ¤¡ ¢¡¢ ¥ ¢ ¢¡ 

¦¢¢¤¡¡¡¡§¡¦¥¡¦¡ 

¢ ¢¡ 

¡¡ ¢ ¢¡ 

¥¦¡§¡ ¢ ¢¡ 

¡¡§¡¡ 

¤ ©¢ ¡ ¡¡ ¢¢ ¢¢¡ ¢¢¡ 

¢¡¢ ¢ ¢¡ 

¡¦¢¦¡ ¢ ¢¡ 

¦¡¡ 

§¢¦¥¦¡ ¢ ¡ ¦¢¤¦¢¢¥§¡¡§¡¤ 

¦¡¡¡ 

¢ §¡¡¢¨¡¡¡§¡¦¥¦¢ ¢ ¤¡ 

§¡¡¢¢¤¡©¢¡¦¡¢¡¡¡¢¤¡ 

¡¤¢¢§¢¥¦¡¡ ¡ ¢¡¢¡¡ ¢¡¡ 

§¡¡¤¡¦¡¡©¢¢¦¨¡¡¡§¡¦¥¡¦¡ 

¡§¢¡¦ ¡¦ 

§¡¡¢¢¤¡©¢¡¦¡¢¡¡¡¨¡¢¡ §¡¦¡¥¦¡ ¢§¡¡§¡¡¡¤¡¦¡¡©¡¦¤¡¢¡ ¢ 

¡¤¢¢§¢¥ 

¡ ¢¢¡¡ ¢¦¤ 

¡¡¡¦¢¡¦¡¡ ¢¦¤ ¦¡¡ ¤ ©¢¨¦¡¡ ¢¡ 

 

 

¡¤¢¡¡¡¦¡ ¦¢¡¦¡ ¢¥ 

¦¢¡¡¡¦¡ 

¢ ¡¢ ¢¡¨¡¢£ ¢ 

¤¢ ¢¦¤ ¢§¢¦ ¤¡ 

¢¡¢¡¦¢©¢¡¦¨¢§¥¡¦ 

¦¡¡¢¡¡¢ ¢¢¦¦¡¢¡¨ 

CELL_Zaehler_fsm_syn.vhd 

A: Wert:="0000"; 

A: Wert:=Wert+"0001"; 

1 

3 

S1 

Count 

0 

2 

Diagram Variables: 

Wert(4): logic; 

Subdiag Actions of 

A: Wert_hi_out:=Wert(3 downto 2); 

C: Start=’1’ 

C: Stop=’1’ 

C: UpNDown=’0’ 

A: Wert:=Wert-"0001"; 

Stop 

Jan 29 2001 15:50:49 CELL_Zaehler_fsm_syn.vhd 

¦¢§¢¦ ¦¡¢§¡¥¦ 

¦¡¤ 

¡ ¢¡¢¡¢¡ ¡ §¢¡¢¢¡©¡¦¦¡ ¤ ¡¦¢¦¡ ¢¢¦ 

¦¤ 

¢¢¦¡©¡¢¨¢ ¤¡ ¡¢¦ 

¢ 

¦¢¥¢¡¤¨¢¥¡¦¡§¡¢¦¡ ¦¡¡¨¡¡¡ 

¢ 

¡¢¦ ¦¢¥¢¡¤¡¡¡¢¨ 

¦¢¥¢¦ ¦¡¡¨¦¡¡ 

¦¡¡¨¦¡¡ 

¢¢¦ ¢¨¢ ¤¡§¡¡¨ ¢¦ 

¦¡¤ 

¢¦ ¤¡ 

¦¢¥¡¡¤¨¥¦¡§¡ ¦¡¡ 

¢¡ 

¦¢¥¡¡¤¢¡¢ ¦¡¡ 

¢¡ 

¢¡ 

¦¡¡ ¢¡ 

¦¢¥¡¦ 

¦¡¤ ¢¢¦¢¢ 

¦¤ 

¡¢¦ ¢ ¤¡ 

¦¡¡¨¡¡¡ ¢ ¡© 

¦¢¥¢¡¤¨¢¥¡¦¡§¡¢¦¡ 

¡¢¦ ¦¡¡¨¦¡¡ ¢ ¡© 

¦¢¥¢¡¤¡¡¡¢¨ 

¦¡¡¨¦¡¡ ¦¢¥¢¦ 

¢ ¡© 

¦¡ 

¦¢¥¡¡¤ ¢¥¨ ¢§¢¥ ¦¦¢¢¦ 

¢§¥¦ 

¢ 

¦¡¢¡¢¡¦¢¡¡¢¤ ¡ ¡¡¢¢¡¢¡ 

¦¤¡ 

§¡¦¥¦¢ ¢ §¡¡ ¡ ¦¢¦¢¡¤¢§¡¡¤¡¦¡ 

¦¡¡¡¡ 

Abbildung 4-2: Eine einfache Zustandsmaschine in verschiedenen Repräsentationsformen (grafisches VHDL, textuelles 

VHDL, synthetisiertes Schematic). Deutlich wird vor allem der Unterschied in der Verständlichkeit für Dritte 

– man versuche zunächst, die Schaltung im Schematic zu verstehen. 

1



Lukas Bauer 

Dissertation 


Kapitel 4.1 

Seite 31 

Eindruck, in grafischem HDL im Vergleich zum Schematic Entry ca. 20-30 mal komplexere 

Schaltungen mit subjektiv gleichem Aufwand und größerem Spaß entwerfen zu können. 

Die Vorteile bei der Verwendung grafischer HDL-Programme gegenüber der reinen Programmierung 

in HDL lassen sich wie folgt zusammenfassen: 

● Grafische HDL-Programme bieten eine Integration von HDL-Browserfunktionen, der 

grafischen Eingabe von Zustandsmaschinen und der Simulation in einem Programm und 

können somit alle anderen derartigen Spezifikationsformen und Entwurfsverfahren 

ersetzen bzw. vereinheitlichen. 

● Grafisches HDL ist einfacher zu erlernen, komfortabler zu bedienen, wesentlich übersichtlicher 

und intuitiver zu verstehen als textuelles HDL und ist wegen der gleichzeitigen 

Übersetzbarkeit in synthetisierbares VHDL oder Verilog eine ideale personen- und 

maschinenlesbare Form der Spezifikation. 

● Durch diese Vorteile und die kompaktere Darstellungsform wird gegenüber reinem 

HDL ein enormer Produktivitätsgewinn erzielt. 

Trotz dieser Vorteile beobachtet man insbesondere bei erfahrenen HDL-Programmierern immer 

wieder eine Reserviertheit gegenüber der grafischen HDL-Programmierung, die sich wie folgt 

begründen lässt: 

● Ein HDL-Programmierer, der seit vielen Jahren erfolgreich nach konservativen Methoden 

arbeitet, sieht ungern ein, dass diese Methoden in Zukunft unzureichend sein werden 

– viele Menschen lernen erst aus negativen Erfahrungen. Er könnte auch befürchten, 

dass er bei einem Umstieg auf grafisches HDL wieder ganz von vorne anfangen müsste 

– was nicht korrekt ist, da sich Erfahrung mit reinem HDL äußerst positiv auf die grafische 

HDL-Programmierung auswirkt. 

● HDL-Programmierer bemängeln den reduzierten HDL-Sprachumfang der grafischen 

Programme – der in Hinblick auf eine problemlose Synthetisierbarkeit aber sicher sinnvoll 

ist. Im Folgenden soll sogar ausgeführt werden, dass weitere, selbst auferlegte 

Restriktionen einen wichtigen Beitrag zu einer deterministischen, technologieunabhängigen 

Synthetisierbarkeit darstellen. 

4.1.2.6 Empfehlenswerte Restriktionen und Konventionen 

Auch wenn sich grafische HDL-Programme und die Hardwarebeschreibungssprachen selbst vielseitig 

einsetzen lassen, kann es doch angebracht sein, sich in der Verwendung der zur Verfügung 

stehenden Sprachelemente zu beschränken. Dabei sollten zum einen solche Konstruktionen vermieden 

werden, die bei der Logiksynthese problematische Schaltungselemente erzeugen, und 

zum anderen sollten die HDL-Formulierungen selbst so verständlich und übersichtlich wie möglich 

gewählt werden. 

Als Schaltungselement sind insbesondere Latches zu vermeiden. Eine synchrone Schaltung ohne 

Latches verhält sich invariant gegenüber statischen und dynamischen Hazards sowie Laufzeitunterschieden 

in der Logik, solange nur die Setup- und Holdbedingungen der Flipflops eingehalten 

werden. Latches hingegen können bei statischen Hazards am Gate-Eingang oder bei Laufzeitunterschieden 

zwischen fast gleichzeitig wechselnden Daten- und Gate-Signalen zu einem unerwünschten 

Verhalten führen. Das Auftreten von Hazards und die Reihenfolge, in der Daten- und 

Gate-Signal wechseln, kann dabei von minimalen Laufzeitdifferenzen entschieden werden, wie 

sie durch Layoutkapazitäten hervorgerufen werden. Ein deterministischer Ausgang der Logiksynthese 

und die Unabhängigkeit der Funktion vom Layout werden bei vollsynchronen Schaltun-



Lukas Bauer 

Dissertation 


Kapitel 4.1 

Seite 32 

gen ohne Latches als selbstverständlich vorausgesetzt, sind bei Verwendung von Latches aber aus 

diesen Gründen nicht immer gewährleistet. 

Zwar können auch Latches so eingesetzt werden, dass ihr Verhalten deterministisch bleibt, indem 

z. B. Daten- und Gate-Signal direkt von einem Flipflop erzeugt werden und gleichzeitig sichergestellt 

wird, dass sich in dem Takt, in dem das Gate-Signal inaktiv wird, das Datensignal nie 

ändert. Doch es erfordert einige Sorgfalt, dies sicherzustellen, und es ist denkbar, dass unbeabsichtigte 

Abweichungen von dieser Regel in einer Simulation nicht erkannt werden, aber nach 

dem Layout auftreten. Da man die Latches in der Regel mit geringerem Aufwand durch Flipflops 

ersetzen kann, besteht in den seltensten Fällen die Notwendigkeit, Latches einzusetzen. Hinzu 

kommt, dass auch in weit verbreiteten Syntheseprogrammen und in FPGA-Software Trivialfehler 

im Umgang mit Latches beobachtet wurden. 

Beim Einsatz von (grafischen) HDL-Programmen besteht aber auch die Gefahr, unbeabsichtigt 

Latches zu beschreiben. Wenn in asynchronen Zuweisungen einem Signal unter bestimmten 

Bedingungen kein neuer Wert zugewiesen wird, setzt das Syntheseprogramm ein Latch ein, um 

den alten Wert zu speichern. Meistens ist dieses Verhalten gar nicht beabsichtigt, sondern es 

wurde nur in einer If-then-else- oder Case-Anweisung die Zuweisung auf das Signal in einem der 

Fälle vergessen. Es sollte daher anhand der Netzliste oder der bei der Synthese ausgegebenen 

Informationen kontrolliert werden, ob nicht beabsichtigte Latches eingesetzt wurden, da diese 

unnötige Logik erzeugen und zu den beschriebenen Problemen führen können. 

Auch Flipflops, die gleichzeitig einen asynchronen Set- und Reset-Eingang besitzen, können 

problematisch sein, da es keine allgemeine Konvention gibt, welcher der Eingänge höher priorisiert 

ist. Sie werden erzeugt, wenn als Reset-Wert eines Signals keine Konstante verwendet wird. 

Auch wenn sichergestellt ist, dass Set- und Reset-Eingang nie gleichzeitig aktiv sind, kann das 

Syntheseprogramm dies nicht erkennen und wird darauf achten, dass das Flipflop im Konfliktfall 

den in HDL spezifizierten Wert annimmt. Falls aber in der verwendeten Library die Priorität von 

Set und Reset anders geregelt ist als in der HDL-Beschreibung (oder gar kein Flipflop mit Set 

und Reset zur Verfügung steht), wird das Syntheseprogramm die Umsetzung des Elements abbrechen. 

Eine technologieunabhängige Synthetisierbarkeit ist daher nicht mehr gewährleistet. 

Auch im Datenpfadbereich sollte darauf geachtet werden, welche Schaltungen aus den HDL-Formulierungen 

erzeugt werden. So sind Multiplizierer zwar äußerst einfach zu beschreiben, ergeben 

aber evtl. sehr große Schaltungen mit langen Laufzeiten. Hier ist zu überlegen, ob eine 

Ausführung in einem Takt überhaupt erforderlich ist, da anderenfalls Pipelinestrukturen eingesetzt 

werden können oder die Multiplikation sogar durch schrittweise Shift-Operationen und 

Additionen ersetzt werden kann. Entsprechend sind auch Speicherstrukturen wie z. B. FIFOs einfach 

zu beschreiben, doch der Einsatz eines RAMs kann eine erhebliche Flächeneinsparung 

gegenüber der vom Syntheseprogramm üblicherweise gewählten Struktur aus Flipflops bringen. 

Durch strukturnahe Beschreibungsformen lassen sich in vielen Bereichen Schaltungsgröße 

und Laufzeiten zum Teil deutlich verringern. Dies bedeutet nicht, dass einzelne Logikgleichungen 

per Hand nach de Morgan auf eine Minimalform gebracht werden müssen – hier findet die 

Logiksynthese besser und schneller ein Optimum –; aber gerade bei arithmetischen Funktionen 

fehlt es der Logiksynthese oft an der nötigen Kreativität für Optimierungen. Die Ausdrücke 

„A>5“ und „A≤4“ werden beispielsweise nicht als komplementäre Bedingungen erkannt, so dass 

es durchaus sinnvoll ist, den zweiten Ausdruck als „not A>5“ zu formulieren und so einen der 

Vergleicher in der Synthese zu sparen. Auch bei einer Addition von mehr als zwei Werten kann 

erheblich gespart werden, hier stellt eine Carry-Save-Struktur das Optimum bezüglich Fläche 

und Laufzeit dar, bei der parallel liegende Volladdierer jeweils drei Summanden zu einem Summen- 

und einem Carry-Wort addieren und nur die Summation der letzten zwei verbleibenden 

Werte mit einem gewöhnlichen Addierer erfolgt.



Lukas Bauer 

Dissertation 


Kapitel 4.1 

Seite 33 

Wie man sieht, lassen sich die Hardwarebeschreibungssprachen bei Kenntnis der Arbeitsweise 

der Syntheseprogramme so einsetzen, dass die Logiksynthese in der Arbeit unterstützt statt 

behindert wird und so ein optimales Ergebnis erzielt wird. Doch auch die Verständlichkeit der 

HDL-Texte für den Menschen kann und muss deutlich erhöht werden, indem einige Konventionen 

und selbst auferlegte Restriktionen eingehalten werden. 

So sollte negative Logik (low-aktive Signale) nur eingesetzt werden, wo Chip-externe Signale 

dies erfordern, da sonst immer „um die Ecke gedacht“ werden muss. Alle low-aktiven Signale 

sollten in ihrem Namen als solche gekennzeichnet werden (z. B. durch Voranstellen eines „n“ 

wie in „nCS_EXTRAM“). 

Auch sollten eindeutige, inhaltlich aussagekräftige Signalnamen und leicht nachvollziehbare 

Formulierungen von Verknüpfungen verwendet werden. So wird die recht kryptisch anmutende 

Bedingung 

nBusy and not nInit 

bei Vermeidung der direkten Bool’schen Verknüpfungen zu 

nBusy = 1 and nInit = 0, 

unter Verwendung positiver Logik zu 

Busy = 0 and Init = 1, 

und schließlich durch die Benutzung selbsterklärender Signalnamen und die Verwendung der 

Logikwerte „true“ und „false“ zu der intuitiv zu verstehenden und flüssig lesbaren Formulierung 

Controller_busy = false and Init_done = true. 

Der Schreibaufwand ist hier zwar geringfügig höher, doch aus der leichteren Verständlichkeit 

und der reduzierten Fehlerwahrscheinlichkeit ergibt sich insgesamt eine Zeitersparnis, so dass 

letzten Endes die Vorteile der längeren, aber eindeutigen Schreibweise überwiegen. 

Ferner sollte darauf geachtet werden, dass die Funktion der Schaltung nach Möglichkeit invariant 

gegenüber der Reihenfolge sein sollte, in der die erzeugten HDL-Befehle stehen. Falls beispielsweise 

einer Variablen in zwei parallel liegenden Subdiagrammen unter verschiedenen, 

einander nicht ausschließenden Bedingungen unterschiedliche Werte zugewiesen werden, wird 

das Verhalten der Schaltung davon abhängen, in welcher Reihenfolge der Simulator bzw. das 

Syntheseprogramm die Anweisungen ausführen. Zwar lässt sich diese Reihenfolge in Speedchart 

über Prioritäten der Subdiagramme festlegen, wenn diese jedoch nicht eingetragen wurden, ist 

die Ausführungsreihenfolge nur davon abhängig, welches Subdiagramm zuerst erstellt wurde. Da 

sich diese jedoch mit einem sorglos ausgeführten Cut-and-paste-Vorgang ändern kann, besteht 

die Gefahr eines scheinbar nicht deterministischen Verhaltens. Das Problem kann durch einen 

sauberen Design-Stil vermieden werden, bei dem Zuweisungen auf eine Variable nur in jeweils 

einem Subdiagramm in einer vollständigen If-then-else-Anweisung erfolgen. 

Ähnliches gilt für die Vorinitialisierung von Variablen. So wird durch die Formulierung 

A := ‘0’; 

if [condition] then 

A := ‘1‘; 

end if; 

zwar eine Zeile gegenüber der vollständigen If-then-else-Konstruktion gespart; dies geht aber zu 

Lasten der Designsicherheit und Lesbarkeit.



Lukas Bauer 

Dissertation 


Kapitel 4.1 

Seite 34 

Eine besondere Aufmerksamkeit muss auch der korrekten Verwendung der VHDL-Begriffe 

„signal“ und „variable“ gewidmet werden, die auch in Speedchart zur Verfügung stehen. Eine 

„variable“ nimmt bei Ausführung der HDL-Zuweisung den neuen Wert sofort an (in Verilog entspricht 

dies der Zuweisung mit „=“), während ein „signal“ den neuen Wert erst einen infinitesimal 

kleinen Zeitschritt später annimmt (so auch in Verilog bei der Zuweisung mit „



Lukas Bauer 

Dissertation 


4.1.3 Logiksynthese als etabliertes Mittel der Produktivitätssteigerung 

4.1.3.1 Vorteile der Logiksynthese 

Kapitel 4.1 

Seite 35 

Logiksynthese, die automatische Schaltungsgenerierung aus einer Spezifikation, hat sich in den 

vergangenen Jahren als die beste Methode etabliert, komplexe Digitalschaltungen systematisch 

und auf Anhieb nahezu fehlerfrei zu entwerfen. Der Ausgangspunkt ist dabei eine funktionale 

Verhaltensbeschreibung der Schaltung in einer Hardwarebeschreibungssprache wie VHDL oder 

Verilog, die auch von einem grafischen HDL-Programm generiert worden sein kann. 

Die Vorteile der Logiksynthese liegen dabei auf der Hand. An die Stelle einer intensiven 

Beschäftigung mit einzelnen Logikgleichungen tritt ein Automatismus, der sowohl den Entwicklungsaufwand 

als auch die Fehlerwahrscheinlichkeit deutlich reduziert. Quantitativ wurde der 

Gewinn durch Verwendung der Logiksynthese bereits in Abschnitt 4.1.2.5 untersucht. 

Gleichzeitig bleibt der HDL-Text technologieunabhängig, ist aber in jede beliebige Technologie 

synthetisierbar, so dass theoretisch noch in letzter Minute vor Abgabe der Netzliste ein Halbleiterhersteller 

ausgewählt bzw. die Technologie gewechselt werden kann. 

4.1.3.2 Ablauf der Logiksynthese 

Bei der Logiksynthese werden in einem ersten Schritt alle zum Design gehörenden HDL-Dateien 

eingelesen und nach einfachen Entwurfsalgorithmen für digitale Schaltungen in eine zunächst 

noch technologieunabhängige Schaltungsrepräsentation umgesetzt. Nur dort, wo evtl. Elemente 

der Zielbibliothek direkt instanziiert wurden, werden diese bereits eingesetzt. Für alle synchron 

zugewiesenen Signale werden in diesem Schritt generische Flipflops der entsprechenden Bit- 

Breite eingesetzt, wobei auch die Zustandsregister von State Machines in der benötigten Breite 

generiert werden und die Zustandscodierung festgelegt wird. 

Die Ansteuergleichungen für die Dateneingänge der Flipflops werden genau wie alle anderen 

kombinatorischen Logikteile aus generischen Grundelementen aufgebaut, wobei der HDL- 

Beschreibung genau gefolgt wird und z. B. Zuweisungen aus If-then-else- und Case-Anweisungen 

zunächst stets über Multiplexer realisiert werden. Bei den generischen Elementen wird dabei 

zunächst keine Rücksicht auf deren Verfügbarkeit in der Zieltechnologie genommen, und es werden 

noch keine Optimierungen durchgeführt. Bei Benutzung arithmetischer Funktionen im HDL- 

Text werden ebenfalls nur generische Addierer etc. eingesetzt, ohne dass bereits eine Architektur 

hierfür festgelegt wird. 

Bevor die so erzeugte, technologieunabhängige Version der Schaltung unter Verwendung geeigneter 

Bibliotheken in eine Schaltung auf Gatterebene in der Zieltechnologie umgesetzt wird, 

empfiehlt es sich, die Clock-Signale und Timing-Anforderungen der Schaltung zu definieren, 

damit bei der Auswahl der Implementationsformen von Addierern etc. die Geschwindigkeitsanforderungen 

von vornherein berücksichtigt werden können. 

In der nun folgenden Mapping-Phase werden die generischen Elemente durch zur Verfügung stehende 

Elemente der Zielbibliothek ersetzt, wobei evtl. bereits eine geringfügig andere Struktur 

verwendet werden muss. Bei arithmetischen Elementen wird zunächst geprüft, ob geeignete, 

schon optimiert vorliegende Makroblöcke in der Zielbibliothek enthalten sind. Anderenfalls werden 

die benötigten Elemente nach Entwurfsalgorithmen und Schaltungsprinzipien, die wiederum 

Bibliotheken entstammen, aus Einzelgattern der gewählten Technologie konstruiert. 

Der nächste Schritt ist die Optimierung der Schaltung unter Berücksichtigung der Vorgaben 

(constraints) für Designgröße, Zeitverhalten etc. Falls keine Constraints angegeben wurden, wird 

nur auf die Schaltungsgröße (max. area) optimiert. So wird unter anderem bei mehrfach instanzi-



Lukas Bauer 

Dissertation 


Kapitel 4.1 

Seite 36 

ierten Elementen geprüft, ob diese wirklich parallel benötigt werden. Anderenfalls können z. B. 

die alternativ auszuführenden Anweisungen „B := A + 2“ und „B := A + 3“ mit einem einzigen 

Addierer realisiert werden, an dessen einen Eingang umschaltbar eine der beiden Konstanten 

angelegt wird. 

Die häufigsten Constraints sind Timing-Vorgaben, die sich auch indirekt aus der Frequenz eines 

definierten Clock-Signals ergeben können. Um sie einzuhalten, wird die Schaltung nach de Morgan 

umstrukturiert, und es werden evtl. schnellere Architekturen der arithmetischen Elemente 

ausgewählt. Vorgaben für Mindestlaufzeiten von Signalen, die sich auch aus einem angenommenen 

Clock Skew für sehr kurze Pfade zwischen Flipflops ergeben können, werden durch Einsatz 

von Verzögerungselementen (buffer) behoben. 

Falls Vorgaben für die maximale Belastung einzelner Gatterausgänge (max. fanout), maximale 

Netzkapazitäten (max. capacitance) oder die maximale Anstiegszeit von Signalflanken (max. 

transition) angegeben wurden oder in den Technologiebibliotheken enthalten sind, werden im 

Bemühen um deren Einhaltung Gatter mit stärkeren Treibern eingesetzt, Buffer eingefügt oder 

Lasten auf mehrere parallele treibende Gatter verteilt. 

Bei der Optimierung auf mehrere verschiedenen Constraints kann oft nur ein Kompromiss gefunden 

werden, da sich z. B. eine kleine Fläche und eine hohe Geschwindigkeit gegeneinander tauschen, 

aber nicht gleichzeitig perfektionieren lassen. Das Syntheseprogramm optimiert daher auf 

ein Minimum einer Kostenfunktion, in die alle Verletzungen von Constraints einfließen, wobei 

der Anwender die Priorisierung verschiedener Arten von Constraints bestimmen kann. Die 

Designgröße wird dabei in der Regel nur optimiert, solange die übrigen Verletzungen dadurch 

nicht erhöht werden. 

Damit die Optimierung nicht vorzeitig in einem lokalen Minimum der Kostenfunktion im Parameterraum 

der möglichen Schaltungsänderungen endet, arbeitet die Optimierung nach Algorithmen 

des Simulated Annealing und wird erst abgebrochen, wenn alle Vorgaben erreicht wurden 

oder der vom Anwender vorgegebene zeitliche Aufwand für die Synthese überschritten wurde. 

4.1.3.3 Fortschritte in den Synthese-Libraries 

In den vergangenen Jahren sind die Syntheseprogramme ganz erheblich weiterentwickelt worden. 

Dies betrifft zum einen die Ausführungsgeschwindigkeiten und die Algorithmen bei der 

Optimierung, die es erlauben, bei ähnlichen Programmlaufzeiten immer komplexere Schaltungen 

zu synthetisieren und die Schaltungen immer besser zu optimieren. Zum anderen betrifft es die 

bei der Synthese verwendeten Bibliotheken, und zwar sowohl diejenigen, die vom Hersteller der 

Syntheseprogramme mitgeliefert werden und z. B. unterschiedliche Architekturpläne von arithmetischen 

Elementen enthalten, als auch die Bibliotheken der Halbleiterhersteller, die längst 

nicht mehr nur Beschreibungen der Grundgatter enthalten. 

In den Libraries der Hersteller der Syntheseprogramme waren dabei zunächst diverse arithmetische 

Elemente wie Addierer, Subtrahierer und Multiplizierer, Vergleicher, Inkrementierer und 

Dekrementierer enthalten, wobei jedes Element in der Bitbreite der Operanden parametrisierbar 

ist. Zusätzlich sind heute viele Elemente in einer immer höher werdenden Zahl besonders schneller 

Architekturen verfügbar; so ist ein Addierer in der DesignWare Library [41] von Synopsys 

heute in den fünf synthetisierbaren Architekturen Ripple Carry, Carry Look-Ahead, Fast Carry 

Look-Ahead, Brent-Kung Architecture und Conditional Sum verfügbar, Multiplizierer als Carry- 

Save Array oder Booth-Coded Wallace Tree. Außerdem wird der Umfang der verfügbaren Elemente 

ständig erweitert, so umfasst die DesignWare Library heute weit über 100 Komponenten 

in über 160 Architekturen, vom Barrel Shifter und Prioritätsencoder über Dividierer und Wurzelfunktionen 

bis hin zu trigonometrischen Funktionen.



Lukas Bauer 

Dissertation 


Kapitel 4.1 

Seite 37 

Doch auch die Halbleiterhersteller bieten immer umfangreichere Bibliotheken an. Während 

deren Umfang in der Anfangszeit der Logiksynthese nur geringfügig über das absolute Minimum 

– ein Flipflop und ein NAND-Gatter – hinausging, enthält heute die Bibliothek STD90 [44] von 

Samsung eine Vielzahl von Komplexgattern und Elemente verschiedener Treiberstärken, insgesamt 

ca. 430 interne Standardzellen. Im I/O-Bereich stehen ca. 400 Padzellen mit unterschiedlichen 

Eingangspegeln, Treiberstärken, Slew Rates und Spannungstoleranzen sowie Variationen 

mit Pullup- bzw. Pulldown-Widerständen, Schmitt-Trigger-Charakteristik, Open-Drain-Varianten 

etc. zur Auswahl. 

Zusätzlich stellen viele Halbleiterhersteller die Modelle von Makros wie z. B. CPU-Cores oder 

RAMs in einem für das Syntheseprogramm lesbaren Format einschließlich der erforderlichen 

Timing-Informationen zur Verfügung, so dass bei der Logiksynthese auch das Timing an den 

Schnittstellen der Makros berücksichtigt werden kann. 

Um das Post-Layout-Timing möglichst genau ermitteln zu können, enthalten die Technologiebibliotheken 

schließlich noch sogenannte Wire Load Models; das sind aus Ergebnissen statistischer 

Untersuchungen gewonnene Formeln, die es erlauben, die Metallisierungskapazitäten im Layout 

in Abhängigkeit von der Blockgröße und der Anzahl der Lasten an jedem Gatterausgang abzuschätzen. 

4.1.3.4 Zusätzliche konstruktive Funktionen der Syntheseprogramme 

Während die bisher beschriebenen Funktionen nur der reinen Logiksynthese dienen, also einer 

Umsetzung einer HDL-Beschreibung in eine Netzliste ohne funktionale Änderungen, bieten 

moderne Syntheseprogramme darüber hinaus noch diverse Möglichkeiten, die Schaltungen auch 

konstruktiv zu verändern und erweitern. 

Dies betrifft zunächst die Auswahl von Pads. Die Entscheidungen darüber, welche Ports der 

Schaltung Pads erhalten sollen und welche Typen von Pads eingesetzt werden sollen, stellen 

zusätzliche Informationen neben der funktionalen Beschreibung der Schaltung dar. Da die Verfügbarkeit 

der exakten Typen von der verwendeten Library abhängt, werden die Angaben zur 

Auswahl der Pads meistens zusammen mit anderen technologiespezifischen Informationen nicht 

über HDL-Attribute beschrieben, sondern als Befehle in einer speziellen Script-Sprache im Synthesescript 

zusammengefasst. 

Noch massiver können moderne Syntheseprogramme beim Einbau von Teststrukturen in die 

Schaltungsstruktur eingreifen. So ist es beispielsweise für den Scan-Path-Betrieb erforderlich, 

alle Flipflops in einem Design zu Schieberegisterketten zu verschalten. Diese Struktur in HDL 

funktional zu beschreiben wäre nicht nur äußerst arbeitsintensiv, sondern würde auch den Vorteil 

der Abstraktion durch die HDL-Programmierung wieder aufheben: Es wäre eine Beschäftigung 

mit den einzelnen Flipflops in Zustandsregistern von Zustandsmaschinen erforderlich, auf die in 

HDL normalerweise verzichtet werden kann. Es ist daher sehr sinnvoll, dass moderne Syntheseprogramme 

einen Scan Path anhand der bei der Synthese entstandenen Schaltungsstruktur mittels 

einfacher Algorithmen in das Design einbauen können. Optionale Steuerinformationen zur 

Anzahl der Pfade, zur Auswahl und Reihenfolge der Flipflops innerhalb der Ketten sowie zu den 

als Kettenein- und -ausgänge zu verwendenen Pins können wiederum im Synthesescript untergebracht 

werden. 

Falls Boundary-Scan-Strukturen (JTAG) nach IEEE1149.1 [27] eingefügt werden sollen, kann 

dies ebenfalls durch das Syntheseprogramm geschehen, das hierfür über spezielle Bibliotheken 

verfügt und sogar den TAP-Controller synthetisieren kann, ohne dass dessen Funktion im Detail 

in HDL spezifiziert werden muss; lediglich einige Parameter wie die Befehlsregisterlänge, die zu 

unterstützenden JTAG-Befehle mit ihrer Codierung, die Typauswahl der jeweiligen Boundary-



Lukas Bauer 

Dissertation 


Kapitel 4.1 

Seite 38 

Scan-Zellen an jedem Port und die Verdrahtungsreihenfolge sind im Synthesescript zu spezifizieren. 

Im Datenpfadbereich ist Synopsys sogar in der Lage, die Verteilung von kombinatorischer Logik 

relativ zu vorhandenen Pipeline-Stufen zu verändern („distribute logic“), um durch eine gleichmäßige 

Logiktiefe zwischen den Pipeline-Stufen eine maximale Taktfrequenz zu erreichen. Dies 

ermöglicht es, die einfache und abstrakte Beschreibung der arithmetischen und logischen Funktionen 

beizubehalten und dennoch eine optimale Pipeline-Struktur zu erreichen. 

Mit speziellen Befehlen im Synthesescript schließlich ist es zusätzlich möglich, die Schaltung 

per Hand zu modifizieren, indem Elemente platziert, gelöscht, umverdrahtet oder anders gruppiert 

werden. So kann eine Umstrukturierung der Schaltungshierarchie durchgeführt werden, um 

die modulare Layouterstellung zu unterstützen, es können weitere technologiespezifische Elemente 

wie beispielsweise Power Pads, Clock-Oszillatoren oder Bus Holder an bidirektionalen 

Bussen eingefügt werden, und beim Einbau von Teststrukturen können die erforderlichen Steuersignale 

und Testmultiplexer korrekt angeschlossen werden. 

Die modifizierenden Funktionen sollten nach Möglichkeit nur dort eingesetzt werden, wo technologiespezifische 

Anpassungen das erfordern, und nicht, um Funktionalitäten dort zu ändern, 

wo das auch in der HDL-Beschreibung möglich wäre. Nur so ist eine klare Trennung der funktionalen 

Spezifikation in HDL und der technologiespezifischen Umsetzung im Synthesescript 

gewährleistet. 

Eine wesentliche Funktion, die Synthese des Clock Trees, wird man bei den Syntheseprogrammen 

allerdings vergeblich suchen, da geringe Werte von Clock Skew und Durchlaufzeit nur 

erreicht werden können, wenn durch kürzestmögliche Verdrahtungslängen im Clock Tree minimale 

und gleichmäßig verteilte Lasten auch im Layout gewährleistet bleiben. Da die Synthese 

das Layout aber nicht kontrollieren kann, sollte der Clock Tree erst im Place-&-Route-Programm 

nach der Positionierung der Flipflops erzeugt werden.



Lukas Bauer 

Dissertation 


4.1.4 Verkürzung von Entwicklungszeiten durch IPs und Design Re-Use 

Kapitel 4.1 

Seite 39 

Der Gedanke, durch die Wiederverwendung bereits entwickelter Schaltungsteile wertvolle Entwicklungszeit 

(im Sinne des Aufwandes und des Zeitplans) einzusparen, drängt sich jedem auf, 

der ähnliche Schaltungsblöcke oder Grundfunktionen zum wiederholten Male einsetzt bzw. 

benötigt. Als integrierte Schaltungen noch per Schematic Entry erstellt wurden, verwendeten die 

Designer daher viel Zeit für die Erstellung ganzer Bibliotheken von Grundelementen für den persönlichen 

Bedarf, in denen z. B. Addierer in verschiedenen Bitbreiten und Architekturen archiviert 

wurden. Seit der Einführung der Logiksynthese sind solche Arbeiten auf dieser Ebene 

jedoch nicht mehr erforderlich, da solche Funktionsgruppen geringer oder mittlerer Komplexität 

voll parametrisiert automatisch aus einer so kurzen HDL-Beschreibung erzeugt werden – oft 

reicht ein einziger Operator –, dass diese ohne zeitlichen Nachteil bei jeder Verwendung neu eingegeben 

werden kann. 

Mit der steigenden Komplexität der ASICs bis hin zum „System on a Chip“ (SoC) ergibt sich 

aber eine neue Struktur, in der oft zehn und mehr umfangreiche, in sich abgeschlossene Module 

zu erkennen sind, die optimal für eine Wiederverwendung geeignet erscheinen. Im Wesentlichen 

handelt es sich dabei um Datenverarbeitungsmodule wie embedded CPUs, digitale Signalprozessoren 

oder Einheiten zur Codeumsetzung, Kryptographie oder Kompression von Daten sowie 

um Schnittstellenmodule, zu denen alle Interfaces zur Außenwelt zu rechnen sind, angefangen 

von General Purpose I/Os über UARTs bis hin zu komplexen Hochgeschwindigkeitsschnittstellen 

wie z. B. Ethernet. 

Neben der Wiederverwendung selbst entwickelter Module, dem Design Re-Use, besteht bei standardisierten 

Modulen auch die Möglichkeit, IPs (Intellectual Properties) eines Dienstleisters 

einzukaufen. Um sein Know-how zu schützen, liefert dieser die Schaltung oft in der Form codierter 

HDL-Dateien oder als Synopsys-DesignWare-Komponente, was eine Synthese in beliebige 

Zieltechnologien ermöglicht, aber keinen Einblick in die Quelldaten erlaubt, oder er liefert eine 

bereits in die Zieltechnologie umgesetzte Netzliste. Falls eine Variation von Schaltungsparametern 

unterstützt wird, können bei der Synthese sogar generische Parameter wie z. B. FIFO-Größen 

und Busbreiten angegeben werden, so dass das IP an die individuellen Anforderungen 

angepasst werden kann. 

Halbleiterhersteller selbst bieten ihre IPs häufig sogar als fertig platzierte und verdrahtete Layoutblöcke 

(Hard Macros) an, von denen der ASIC-Designer ein Simulationsmodell und ggf. ein 

Abstract oder Phantom-Layout erhält, welches für die Layouterstellung des Gesamtchips die 

Größe und die Anschlusspositionen des Macros definiert. Der Vorteil für den Halbleiterhersteller 

liegt dabei im optimalen Know-How-Schutz, für den ASIC-Entwickler im optimierten und wohldefinierten 

Post-Layout-Zeitverhalten des Schaltungsteils. 

Zusätzlich zur Schaltung selbst und ihrer Dokumentation wird mit dem IP im Idealfall noch, falls 

erforderlich, die Treibersoftware mitgeliefert, und zur Simulation kann eine Test Bench zur Verfügung 

gestellt werden. Darüber hinaus hat sich in mehreren Projekten gezeigt, dass der Wert 

eines IPs für den Designer ganz entscheidend davon bestimmt wird, ob der Anbieter in der Lage 

ist, technischen Support für den Designer in Form von möglichst direkten Kontakten zum Entwickler 

des IPs zu leisten und auf Änderungswünsche oder Fehlermeldungen flexibel zu reagieren. 

IPs ohne geeigneten Support erwiesen sich in der Praxis als wertlos. 

Eine wesentliche Voraussetzung für den Einsatz von IPs stellt die Standardisierung der Module 

dar, die es erlaubt, bei einem Höchstmaß an Abstraktion durch bloße Nennung eines Fachbegriffs 

oder durch Verweis auf eine Norm selbst hochkomplexe Datenübertragungs- oder Datenverarbeitungsfunktionen 

präzise zu charakterisieren. Auf diese Kernfunktionen bleibt die Standardisierung 

aber auch beschränkt. So definieren Schnittstellennormen zwar die Protokolle auf den



Lukas Bauer 

Dissertation 


Kapitel 4.1 

Seite 40 

Schnittstellen selbst, nicht aber Details der Realisierung wie die interne Registerbelegung des 

Moduls, die Aufteilung von Funktionen zwischen Hardware und Software oder das Businterface 

zum Mikroprozessor, so dass hier viele Freiheiten verbleiben. Zur Integration eines IPs in das 

eigene System sind daher seitens der Software individuelle Treiber erforderlich, seitens des Businterfaces 

eine Anpassung des Moduls an das System oder die Konstruktion einer entsprechenden 

Umsetzlogik. 

Eine Standardisierung der Prozessorbusse könnte dieses Problem entschärfen, ist aber bis heute 

nicht erfolgreich realisiert worden, da verschiedene Mikroprozessorarchitekturen sowie firmenpolitische 

Entscheidungen eine herstellerübergreifende Normierung erschweren. Außerdem müssen 

bei der Definition eines Bussystems Kompromisse zwischen der Komplexität der 

Busfunktionen wie z. B. DMA- oder Multi-Master-Fähigkeit und der Zugriffsgeschwindigkeit 

eingegangen werden, was ebenfalls für individuell unterschiedliche Konzepte sprechen kann. Ein 

reines „Zusammenstecken“ von Mikroprozessor und IPs wird daher in den seltensten Fällen 

möglich sein. 

Die Vorteile für den ASIC-Designer bei der Wiederverwendung eigener Module sind offensichtlich; 

bei der Verwendung fremder IPs stellt sich jedoch die Frage, ob die Zeitersparnis den Kaufpreis 

rechtfertigt. Bei einer solchen Evaluierung wird der Wert eines IPs oft unterschätzt, indem 

nur die Entwicklungszeit für HDL-Codierung, Simulation und Debugging betrachtet wird und 

die nicht zu unterschätzende Einarbeitungszeit in die Spezifikation bzw. Norm der immer komplexeren 

Schnittstellen und Datenverarbeitungseinheiten vernachlässigt wird. Der Einsatz von 

IPs reduziert gerade die Spezifikationsphase auf ein absolutes Minimum und kann daher enorm 

zu einem sauberen Top-down-Design-Stil beitragen. Darüber hinaus werden die Risiken bei der 

Implementation bisher unbekannter Funktionen oft unterschätzt, die entfallen, wenn ein IP-Lieferant 

über eine Realisierung verfügt, die bereits erfolgreich in anderen ASICs oder Testchips ein- 

ISDN-S0 

S0 

S0 

S0 Interface 

(Switching Buffer) 

GPIO USB 

16 I/Os 

ISDN-S0 

USB V1.1 

2 Clk / 2 FSC / 4 PFS / 8 PCM-Hiway SDI/SDO 

PCMH 

clk + sync 

DTMF 

Decoder 

UART 

RS 232 

PCM 

Hiway 

High Speed Bus 

PCM 

Hiway 

PCM 

Hiway 

Software Switching Unit 

(Switching Buffer) 

Timer IRQ 

PLL 

(*8) 

12.288 MHz, 

48 MHz, Sysclk 

FSC PLL 

Int. Memory 

RAM / ROM 

Ext. Memory 

+ 

SDRAM Ctrl. 

Abbildung 4-3: Blockschaltbild eines Netzwerk- und Telekommunikations-ASICs 

[A-19], dessen Komponenten zu einem großen 

Teil aus zwei zuvor entwickelten ASICs übernommen oder als 

IP eingekauft wurden. Es muss angemerkt werden, dass keines der 

Teilmodule ohne Änderungen wiederverwendet werden konnte; 

im Mittel wurden ca. 20% der Funktionalität überarbeitet, um der 

veränderten Systemarchitektur und den Erweiterungs- und Verbesserungswünschen 

gerecht zu werden. 

3-Lane 

Data 

Switch 

HDLC 

Contr. 

DMA 

Data 

Instr. 

4* MII-Interface (ext. Phy) 

Ethernet 

MAC 

DMA 

(*4) 

(*4) 

DMA Bus („INBUS“) 

Glue 

Logic 

Ethernet 

MAC 

DMA 

ARM9TDMI 

CPU 

ICE Breaker / TAP 

SDRAM + Flash + SRAM Debug 

IP 

Design Re-Use 

Hard Macro 

New



Lukas Bauer 

Dissertation 


Kapitel 4.1 

Seite 41 

gesetzt wurde und deren Normkonformität zertifiziert wurde. Letzteres kann auch bei den 

Verhandlungen über die ASIC-Entwicklung entscheidend dazu beitragen, das Vertrauen des 

potentiellen Auftraggebers zu gewinnen. 

Bei einem massiven Einsatz von IPs und Design Re-Use kann sich das Tätigkeitsbild des ASIC- 

Designers deutlich verändern. Der Designer wird zum Systemintegrator, der als Interface zwischen 

Kunde und Halbleiterhersteller fungiert und dessen Aufgaben kaum noch in der kreativen 

Schaltungsentwicklung, sondern überwiegend in der Systemkonzeption und in der Ablaufsteuerung 

von Logiksynthese, Simulation und Verifikation liegen. 

Angesichts der enormen Komplexität eines modernen „System on a Chip“ liegt in der so erreichbaren 

Risikominimierung und der Verkürzung der Entwicklungszeiten der Schlüssel zur marktgerechten 

Produktentwicklung.



Lukas Bauer 

Dissertation 


4.2 Verifikation durch FPGA-Prototypenboards 

4.2.1 Hardware-Software-Co-Design mit skalierten ASIC-Äquivalenten 

Kapitel 4.2 

Seite 42 

Die stark ansteigenden NRE-Kosten, die in Deep-Submicron-Technologien bereits mehrere 

100.000 US-Dollar betragen können, sowie die in der Gatteranzahl und dem Funktionsumfang 

extrem gesteigerten Schaltungskomplexitäten moderner ASICs begründen den Wunsch nach 

weiteren Kontrollmechanismen, um eine akzeptable Designsicherheit zu erreichen. 

Moderne wiederprogrammierbare Logikbausteine (FPGAs) und der Einsatz der Logiksynthese 

erlauben es, die Schaltungen zur Risikominimierung vor der Umsetzung in ein ASIC zunächst 

automatisch in ein FPGA zu übersetzen und dieses im realen Umfeld zu testen. Ein Evaluation 

Board kann dabei neben einem oder mehreren FPGAs weitere Komponenten der Schaltungsperipherie 

enthalten, die im Idealfall in der Gesamtheit dem später mit dem ASIC zu realisierenden 

System entsprechen (vgl. Abbildung 4-4). 

Heute stehen FPGAs zur Verfügung, die nahezu eine Million nutzbare Gatteräquivalente enthalten 

und es somit ermöglichen, alle wesentlichen Komponenten eines ASICs mit Ausnahme von 

Analogfunktionen und großen Speichern in einem FPGA-Baustein unterzubringen. Ihr Preis von 

über 1000 US-Dollar macht sie zwar für Serienlieferungen unbrauchbar, erlaubt aber durchaus 

den Einsatz auf Prototypenboards. 

Nachteilig ist, dass selbst die modernsten FPGAs stets nur geringere Taktfrequenzen erlauben als 

die entsprechenden ASIC-Technologien. Dies ist auf die erforderliche Konfigurierbarkeit der 

Bausteine zurückzuführen, die realisiert wird, indem Logikblöcke mit programmierbaren Wahrheitstafeln 

eingesetzt werden und programmierbare Verbindungen zu den sehr großzügig auf vielen 

Metallisierungsebenen ausgelegten Signalnetzen hergestellt werden können. Die Laufzeiten 

Netzteil 

3 Phy’s 

10/100 

Ethernet 

HomePNA/ 

Ethernet 

Phy 

ARM7 ARM9 

digitale Logik 

(ASIC-äquivalent) 

LEDs 

RS232 

FPGA 

Flash Flash 

SDRAM 

SDRAM 

SRAM SRAM 

Audio Codecs 

mit SLICs 

(analoge A/B Anschlüsse) 

LEDs 

USB 

ISDN-S0 ISDN-S0 

Abbildung 4-4: Ein modernes Evaluation Board kann neben einem FPGA, das der digitalen Logik des späteren 

ASICs entspricht, noch diverse Peripheriekomponenten enthalten, so hier ein Board für eine Ethernet-fähige Telekommunikationsanlage.



Lukas Bauer 

Dissertation 


Kapitel 4.2 

Seite 43 

durch die programmierbaren Schalter zusammen mit den hohen Kapazitäten der teilweise den 

gesamten Chip umspannenden Signalleiterbahnen führen dazu, dass programmierbare Logik 

historisch schon immer um einen Faktor von ca. 3 langsamer war als Standardzell-Designs. Als 

Abhilfe ist es daher in der Regel erforderlich, die Systeme in der Zeit zu skalieren und das 

FPGA-Board um einen entsprechenden Faktor langsamer zu betreiben als später das ASIC. 

Die Verwendung von Evaluation Boards ist nicht unumstritten. So bemängeln Kritiker unter 

anderem die folgenden Punkte: 

● Entwicklung, Fertigung, Inbetriebnahme und Test des Evaluation Boards bedeuten 

einen erheblichen zeitlichen Aufwand, der bei nicht ausreichender Parallelisierung zu 

Verzögerungen im Terminplan führen kann. 

● Die oft erforderliche Skalierung in der Zeit bereitet Probleme, wenn die Umgebung des 

Systems sich nicht ebenfalls skalieren lässt. Dies kann z. B. bei Bussystemen und 

Schnittstellen mit konstanter Takt- oder Datenrate der Fall sein. 1 

● Der Test am FPGA gibt ein falsches Gefühl der Sicherheit. An die Stelle sorgfältiger 

Kontrollen und Simulationen könnte eine „Bastler-Mentalität“ treten: Da alle Fehler 

beim FPGA nach ihrer Entdeckung noch korrigiert werden können, ist die Motivation 

geringer, Fehler von vornherein durch ausreichende Sorgfalt auszuschließen. Falls die 

Testüberdeckung am Evaluation Board zu gering ist oder die ASIC-Netzliste nicht mehr 

ausreichend verifiziert wird, steht dies dem eigentlichen Ziel, der Risikominimierung, 

entgegen. 

● Die Tests am Evaluation Board befreien nicht davon, für Cross-Simulationen und zur 

Erzeugung von Testvektoren auch Simulationstestmuster zu erstellen und zu simulieren. 

Diese Argumente sind nicht von der Hand zu weisen und mögen in einigen kleinen Designs ausschlaggebend 

sein, auf FPGA Boards zu verzichten. Bei modernen, hochkomplexen ASICs hingegen 

stehen, insbesondere wenn sie eine CPU enthalten, andere Vorteile im Vordergrund, die in 

diesem Kapitel erläutert werden sollen. 

Einer der Hauptvorteile der Evaluierung auf einem FPGA Board ist die Möglichkeit, die in jedem 

System mit integrierter CPU erforderliche Software bereits auf dem Evaluation Board entwickeln 

und testen zu können. Dieses Hardware-Software-Co-Design 2 ermöglicht einen wesentlich 

schnelleren Fortschritt und mehr Design-Sicherheit als die getrennte Entwicklung von Hardware 

und Software: 

● Beim Hardware-Software-Co-Design testen sich Hardware und Software gegenseitig in 

ihrer geplanten Funktion. Hierdurch wird die Testüberdeckung der Hardware gesteigert, 

und Unzulänglichkeiten in der Spezifikation fallen bei der Softwareerprobung auf. Wenn 

im Ergebnis des Co-Designs das Evaluation Board die Anforderungen an das Endprodukt 

erfüllt, ist sichergestellt, dass das ASIC die im Produkt benötigten Teile der Spezifikation 

erfüllt und diese sinnvoll spezifiziert sind, wobei letzteres nicht trivial ist. 

1. Das Problem der Skalierung kann bei Schnittstellen mir geringer Datenrate gelöst werden, indem die 

Frequenzteiler zur Erzeugung des Bittaktes etc. programmierbar gehalten werden und so die Original- 

Datenrate erreicht wird. Bei höherfrequenten Schnittstellen kann stattdessen der Datenaustausch zwischen 

zwei skaliert laufenden Evaluation Boards getestet werden. 

2. Der Begriff Hardware-Software-Co-Design wird hier im Sinne von Co = concurrent (nebenläufig) verwendet 

und bezeichnet die parallele, gleichzeitige Entwicklung von Hardware und Software und nicht, 

wie sonst üblich, den gemeinsamen Entwurf von Hardware und Software in einer einheitlichen 

Beschreibungssprache.



Lukas Bauer 

Dissertation 


Kapitel 4.2 

Seite 44 

● Der gemeinsame Test von Hardware und Software kann am Evaluation Board um viele 

Größenordnungen schneller erfolgen als in einer digitalen Simulation. Das FPGA dient 

als Hardware-Emulator. 

● Test und Inbetriebnahme der Software können parallel zur Entwicklungs- und Produktionszeit 

des ASICs erfolgen, was einen erheblichen Vorteil im Zeitplan bedeutet. 

Sofern die zuvor genannten Risiken beachtet werden, können Evaluation Boards daher eine 

Schlüsselrolle bei der Risikominimierung und der Verkürzung von Entwicklungszeiten komplexer 

SoCs einnehmen. 

4.2.2 Tests im realen Umfeld statt Simulationen mit unpräzisen Modellen 

Neben der Vereinfachung des Hardware-Software-Co-Designs erlauben FPGA-Prototypenboards 

wesentlich schnellere, intensivere und realistischere Tests der Hardware als reine Digitalsimulationen. 

Dies ist darauf zurückzuführen, dass Versuche im real existierenden Umfeld des zu entwickelnden 

Systems durchgeführt werden können, während bei einer Simulation die gegebenen 

Restriktionen der Modelle in Hinblick auf deren Verfügbarkeit, Korrektheit, Genauigkeit und 

Umfang nur eingeschränkte Aussagen erlauben. Im Folgenden soll dies anhand einiger Beispiele 

erläutert und weiter ausgeführt werden. 

Das erste ASIC, bei dessen Entwicklung der Verfasser positive Erfahrungen mit einem FPGA- 

Prototypen sammeln konnte, war ein TV-Bildmustergenerator [A-5], der als Testgerät für Satellitenempfangsanlagen 

verschiedene Testbilder erzeugen und als BAS-Fernsehsignal mit Graustufen 

ausgeben konnte, indem zwei Widerstände als 2-Bit-D/A-Wandler eingesetzt wurden. 

Vor der Realisierung des ASICs in einer 0,8μ-CMOS-Technologie von AMS wurde der Digitalteil 

der Schaltung in einem Xilinx FPGA getestet. Dies war erforderlich, da eine Software-Simulation 

nur beschränkt möglich und aussagekräftig war: Die Simulationszeiten wären bei 320.000 

Pixeln pro Vollbild, acht Testbildern und zwei Interlaced-Modi äußerst lang gewesen. Eine Hardware-Emulation 

hingegen war in Echtzeit möglich. Bei der Simulation hätten die sequentiell ausgegebenen 

Bildmusterdaten außerdem in eine zweidimensionale Darstellungsform umgewandelt 

werden müssen, um die Korrektheit prüfen zu können. Der Hardware-Emulator hingegen konnte 

die erzeugten Bilder direkt auf einem TV-Monitor darstellen. Dabei konnte auch überprüft werden, 

ob die Synchronisations-Signale im Interlaced-Mode und im Non-Interlaced-Mode korrekt 

erkannt wurden. Die Lage des Bildes und der nicht dargestellten Randbereiche konnte überprüft 

und das Bild daraufhin leicht verschoben werden, und es konnte ermittelt werden, bei welcher 

Pixelfrequenz quadratische Pixel entstehen. Diese Informationen waren der gängigen Literatur 

nicht zu entnehmen und hätten in Messungen ermittelt werden müssen. 

Zusätzlich konnten subjektive Eindrücke des Betrachters direkt getestet werden. So wurde neben 

dem Eindruck der Testbilder auch geprüft, ob die Blinkfrequenzen und Puls-Pausen-Verhältnisse 

einer angeschlossenen Leuchtdiode zur Indikation der Batteriespannung als angenehm empfunden 

wurden. Die Werte wurden daraufhin verändert, um optimale Ergebnisse zu erzielen. 

Darüber hinaus fiel ein Konzeptionsfehler auf: Die Pixelfrequenz war zunächst willkürlich auf 

11,0592 MHz festgelegt worden, da gerade ein solcher Quarzoszillator zur Hand war. Bei Pixelfolgen, 

bei denen sich weiße und schwarze Pixel abwechseln, entstand daher am Videoausgang 

ein Rechtecksignal mit 5,53 MHz. Da beim PAL-System die Bandbreite des Luminanz-Signals 

deutlich geringer ist und bei 5,50 MHz die durch eine Bandsperre stark unterdrückte Tonträgerfrequenz 

liegt, wurde dieser spektrale Anteil fast auf null gedämpft und anstelle der alternieren-



Lukas Bauer 

Dissertation 


Kapitel 4.2 

Seite 45 

den Pixelfolge ein einheitlicher Grauwert dargestellt. Die Pixelfrequenz wurde daher auf 8 MHz 

reduziert. Ob dieser Effekt ohne den Test am Monitor bemerkt worden wäre, muss bezweifelt 

werden. 

Ein anderer Hardware-Test an einem FPGA-Board, der ebenfalls wertvolle Fehlerhinweise lieferte, 

wurde in der Verantwortung von G. Müller bei der Entwicklung eines ASICs zur Anbindung 

beliebiger Drucker an eine Ethernet-Schnittstelle durchgeführt. Zur Realisierung dieser 

Schnittstelle wurde auf dem Evaluation Board wie bei dem zu entwickelnden ASIC ein externer 

Baustein („Phy“) eingesetzt, um die unterste physikalische Ebene der Ethernet-Datenübertragung 

einschließlich der analogen Signalaufbereitung und der Takt- und Bitgewinnung zu übernehmen. 

Die höheren Ebenen („MAC-Layer“ bis zur MII-Schnittstelle) wurden in Hardware und Software 

auf dem ASIC bzw. FPGA integriert. Dies erlaubte es, bereits mit dem Evaluation Board ausführliche, 

direkt auf das ASIC übertragbare Tests durchzuführen, was zum Teil beim Ethernet-Konsortium 

der University of New Hampshire [37] geschah. Bei den Tests reagierte das Evaluation 

Board im Falle von Kollisionen auf dem Ethernet-Bus einwandfrei, wenn es sich um Kollisionen 

mit einer zweiten Einheit handelte. Es war jedoch beim Entwurf nicht beachtet worden, dass auch 

beim Verkehr zwischen einer zweiten und dritten Einheit untereinander Kollisionen auftreten 

können, was dazu führt, dass Fragmente von Datenpaketen auf dem Bus sichtbar sind. Derartige 

unvollständige Pakete sollten ignoriert werden, führten aber bei der ersten Implementation der 

Schaltung zu Systemabstürzen. Nach einer entsprechenden Änderung bescheinigte das Ethernet- 

Konsortium die Korrektheit des Evaluation Boards, und auch das anschließend gefertigte ASIC 

verhielt sich dementsprechend einwandfrei. 

Dieses Beispiel zeigt eindrucksvoll, dass auch eine detaillierte Spezifikation, wie sie für die 

Ethernet-Schnittstelle gegeben war, alles andere als eine Konstruktionsanleitung für die entsprechende 

Hardwarelösung darstellt und dass der „Faktor Mensch“ bei der Umsetzung stets Risiken 

birgt, die durch Tests in Hardware im realen Umfeld minimiert werden können. 

Auch bei der Entwicklung eines ASICs zur Steuerung einer ISDN-Telekommunikationsanlage 

[A-17] mit USB-Anschluss konnten die USB-Schnittstelle und der ISDN-S0-Anschluss bereits 

auf einem Evaluation Board getestet und die Normkonformität zertifiziert werden. 

Zusammenfassend kann man feststellen, dass Simulationsmodelle bisweilen fehlerhaft oder 

unpräzise sind, oft nicht das gesamte Umfeld des geplanten Systems abdecken und zum Teil 

schlicht nicht zu beschaffen sind – man versuche einmal, das Verhalten eines Peripheriegeräts an 

einem Windows-PC einschließlich dessen Treibersoftware zu simulieren oder Modelle der tatsächlich 

verwendeten (und deutschlandweit nicht einheitlichen) Datenprotokolle auf dem ISDN- 

Netz der Telekom zu erhalten! 

An Evaluation Boards hingegen können auch komplexe Abläufe und Interaktionen mit realen 

Hardwarekomponenten und Softwarepaketen auf einfache Weise getestet werden. Falls Analogmakros 

integriert werden sollen, können diese, wenn der Halbleiterhersteller gehäuste Muster 

(„Bondouts“) zur Verfügung stellt, ebenfalls auf dem Evaluation Board untergebracht und mit 

erprobt werden. Dies war z. B. bei Audio-Codecs der Fall, die auf dem ASIC für die ISDN-Telekommunikationsanlage 

integriert wurden. Erst durch Tests an den real vorliegenden Codecs 

konnte festgestellt werden, dass die von Samsung entwickelten Codecs bei der Ansteuerung mit 

„A-law“-codierten Daten in Abweichung von der Norm G711 und in Abweichung vom gelieferten 

Datenblatt die ungeraden Datenbits und nicht die geraden Datenbits invertierten, was zu 

einem kompletten Ausfall der Baugruppen geführt hätte, wenn es nicht bemerkt und korrigiert 

worden wäre. 

Die möglichen Rückschlüsse aus den Hardware-Tests reichen dabei sogar so weit, dass mit Hilfe 

der Evaluation Boards Systeme realisiert werden können, die fehlertolerant gegenüber Normver-



Lukas Bauer 

Dissertation 


Kapitel 4.2 

Seite 46 

letzungen bei angeschlossenen Rechnern oder Peripheriegeräten sind. Diese Eigenschaft ist nicht 

zu unterschätzen, da ein diesbezüglich nicht fehlertolerantes System, auch wenn es selbst seine 

Spezifikation und alle Normen erfüllt, dennoch als inkompatibel zu bestimmten Geräten bezeichnet 

werden würde und daher nur eingeschränkt geeignet wäre, sich auf dem Markt durchzusetzen. 

Die real beobachteten Normverletzungen betreffen in der Regel technische Details und Sonderfälle, 

die in vielen Anwendungen unbemerkt bleiben, und sind darauf zurückzuführen, dass 

moderne Schnittstellen und Protokolle immer komplexer und die Kombinationsmöglichkeiten 

von Hardware- und Softwarekomponenten immer vielfältiger werden. 

Im Falle der USB-Schnittstelle scheint die Fachwelt vor diesem Problem bereits kapituliert zu 

haben: Wer für ein USB-Device oder für ein System mit USB-Schnittstelle eine Zulassung beim 

USB Implementers Forum beantragt, erlebt dort keinen wohldefinierten Konformitätstest an 

einem eigens dafür entwickelten Testgerät bzw. dafür programmierten IC-Tester, sondern muss 

die Zeremonie eines „USB Plug Festival“ über sich ergehen lassen, bei dem sein Gerät an ca. 30 

Stationen die Kompatibilität zu anderen USB-Geräten im Praxistest nachweisen muss und sich 

„USB Certified“ nennen darf, wenn ca. 85% der Tests erfolgreich absolviert wurden. Während 

das Zusammenspiel mit den dabei auftretenden Kombinationen von Hardware und Software im 

Normalfall erst am fertiggestellten Gerät getestet werden kann, erlauben Evaluation Boards 

natürlich auch hier einen vorgezogenen Test.



Lukas Bauer 

Dissertation 


4.3 Layouterstellung und Zeitverhalten hochkomplexer ASICs 

4.3.1 Wachsender Einfluss von Metallisierungskapazitäten 

Als etwa 1980 die ersten Place-&-Route-Programme für 

digitale integrierte Schaltungen auf den Markt kamen, 

war für den ASIC-Designer im Bereich der Layouterstellung 

die Welt in Ordnung. Die mühsame manuelle 

Verdrahtung, deren Zeitaufwand mit der Komplexität 

der Schaltungen unangenehm angestiegen war, wurde 

durch den Einsatz automatischer Programme abgelöst, 

die unter Verwendung relativ einfacher Algorithmen in 

der Lage waren, digitale Standardzellen gemäß einer 

vorgegebenen Netzliste zu platzieren und nahezu fehlerfrei 

zu verbinden. Da in der Regel zwei Metallisierungsebenen 

zur Verfügung standen, wurden die 

Standardzellen in Reihen zwischen Versorgungsspan- 

Kapitel 4.3 

Seite 47 

nungsleitungen platziert, die horizontalen Verbindungen in Kanälen zwischen diesen Reihen ausgeführt 

und die Querverbindungen auf der zweiten Metallebene erstellt (vgl. Abbildung 4-5). 

Da die Place-&-Route-Programme algorithmisch und programmtechnisch in kleinen Schritten 

immer weiter verbessert wurden, um bei schnellerer Arbeitsweise immer bessere Ergebnisse zu 

erzielen, und gleichzeitig die Rechenleistung der eingesetzten Computer anstieg, konnten im 

Laufe der Zeit immer komplexere Layouts in der gleichen Zeit generiert werden. So galt die Layouterzeugung 

über 15 Jahre lang als gelöste Aufgabe. 

Die Aufgabe was deshalb beherrschbar, weil für die noch relativ geringen Schaltungskomplexitäten 

von einigen zehntausend Gattern und die damaligen Technologien mit zwei Metallisierungsebenen 

und Strukturbreiten von mindestens 0,8μm noch einfache Gesetze galten. Dies betrifft 

vor allem die zur Länge proportionalen Kapazitäten der zur Verdrahtung eingesetzten Leiterbahnen 

und die daraus resultierenden Verzögerungszeiten der treibenden Gatter. Für diese gilt im 

linear angenäherten Modell 

tdelay = tintrinsic + k( Σ Cinputs + Cwire ), (GL 4-1) 

wobei in den damals zur Verfügung stehenden Technologien die intrinsische Verzögerungszeit 

der Gatter tintrinsic und die sich aus den Kapazitäten der angeschlossenen Gattereingänge ergebende 

Verzögerungszeit kΣ Cinputs deutlich größer waren als der Anteil, der aus den Metallisierungskapazitäten 

Cwire resultierte. Somit war schon bei der Synthese der größte Teil der 

Laufzeiten genau bekannt und der Einfluss des Layouts gering. 

Gleichzeitig konnten die 

Kapazitäten als alleinige 

Kapazitäten nach Masse 

betrachtet werden. Das kapazitive 

Übersprechen zwischen 

benachbarten Leitungen 

konnte vernachlässigt werden, 

da die Höhe der Leiterbahnen 

(vgl. Abbildung 4-6) klein 

gegenüber ihrer Breite und 

der Abstand zur nächsten Leiterbahn 

groß gegenüber der 

1μ 

Abbildung 4-5: Standardzell-Layout mit 

zwei Metallisierungsebenen 

5μ Technologie 0,25μ Technologie 

5μ 

0.4μ 0.4μ 

5μ 

Metal2 1μ 

1μ 

Metal1 

1μ 

Substrat 

Abbildung 4-6: In modernen Technologien wird 

durch veränderte Leiterbahngeometrien (Querschnitte) 

das kapazitive Übersprechen zwischen 

benachbarten Signalleitungen immer stärker. 

0.32μ 

Substrat 

0.32μ



Lukas Bauer 

Dissertation 


Kapitel 4.3 

Seite 48 

Oxiddicke zwischen den Metallisierungslagen bzw. dem Substrat war. Da in den beiden Metallisierungsebenen 

unterschiedliche Vorzugsrichtungen (horizontal/vertikal) vorherrschten, kam es 

praktisch nie vor, dass zwei Signalbahnen kapazitiv eng gekoppelt auf verschiedenen Lagen 

übereinander über längere Strecken parallel liefen, lediglich an Kreuzungsstellen war der 

Abstand gering, die Fläche der Überdeckung konnte aber wiederum vernachlässigt werden. Auch 

ein Kreuzen vieler anderer Signale konnte aufgrund des im Mittel konstanten Gegenpotentials 

wie das Kreuzen von Masseflächen behandelt werden. Ein nennenswertes Übersprechen zwischen 

Signalen trat daher nicht auf. 

Wenn die Metallisierungskapazitäten in dieser Zeit doch einmal zu Verletzungen der Timing-Vorgaben 

führten, so betraf dies, wenn die Vorgaben nicht insgesamt zu streng waren, in der Regel 

nur wenige statistische Ausreißer, deren Beseitigung mit wenigen Iterationen möglich war, 

indem die mit zu langen Leitungen verbundenen Gatter durch manuelle Eingriffe enger beieinander 

platziert wurden oder durch eine bis zur Logiksynthese zurückführende Iteration die Schaltung 

im kritischen Pfad umstrukturiert wurde. Solange die Nebenwirkungen derartiger 

Änderungen auf alle anderen Pfade gering waren, konnte so in überschaubarer Zeit eine Gesamtlösung 

aller Timing-Vorgaben erreicht werden. 

Die in diesem Zeitraum geltenden Gesetze für die Layouterstellung lassen sich wie folgt zusammenfassen: 

● Die Verdrahtung erfolgte durch „Channel Router“ auf zwei Metallisierungsebenen. 

● Die Metallisierungskapazitäten konnten als reine Kapazitäten nach Masse betrachtet 

werden. Ihr Beitrag zu den Gesamtverzögerungszeiten war gering. 

● Falls in der Metallisierung lange Leitungen zu Verletzungen der Timing-Vorgaben führten, 

konnten diese durch Schaltungs- und Platzierungsänderungen in wenigen Iterationen 

beseitigt werden. 

In der zweiten Hälfte der 90er Jahre, als die Schaltungskomplexitäten 100.000 Gatter deutlich 

überschritten und die Strukturbreiten ca. 0,5μm erreichten, stellte man in der Branche nach und 

nach fest, dass die Layouterstellung und die Einhaltung der Post-Layout-Timingvorgaben 

immer mühsamer geworden waren, ohne aber die Ursachen klar zu erkennen. ASIC-Projekte, 

deren Zeitplan allein in der Phase der Layouterstellung und Timing-Kontrolle um sechs bis zwölf 

Monate überschritten wurde, waren durchaus keine Seltenheit. Der saubere Top Down Design 

Flow, der durch die Logiksynthese und die automatischen Place-&-Route-Programme möglich 

geworden war, führte nur noch bei solchen Designs zum Erfolg, die vom Timing her äußerst 

unkritisch waren oder deren strenge Partitionierung eine Einzelbehandlung mehrerer Blöcke 

geringer Komplexität nach den alten Regeln erlaubte. 

In komplexen Designs hingegen nahm der Anteil der Routingfläche beim Channel Routing mit 

steigender Gatteranzahl überproportional zu und dominierte bald die Chipfläche. Gleichzeitig 

explodierten auch die relativen Leiterbahnlängen bzw. -kapazitäten, wodurch die lastbedingten 

Verzögerungszeiten kC wire die Laufzeiten t intrinsic der Gatter überstiegen (vgl. Abbildung 4-7 auf 

Seite 49). Da bei der Logiksynthese auf der Grundlage statistischer Wire Load Models für alle 

Leitungen nur der durchschnittlich zu erwartende Wert der Lastkapazität angenommen werden 

kann, führten unvermeidbare statistische Ausreißer bei den Kapazitäten im Layout unweigerlich 

zu Unterschieden zwischen Pre-Layout- und Post-Layout-Timing. Da solche statistischen Ausreißer 

aufgrund der Schaltungskomplexität immer gehäufter auftraten und der Anteil der layoutbedingten, 

bei der Logiksynthese noch nicht vorhersagbaren Verzögerungszeiten an den 

Gesamtpfaden enorm anstieg, wurden die Timingvorgaben bei der Layouterstellung so oft und so 

gravierend verletzt, dass die Probleme weder durch eine akzeptable Anzahl von Iterationen mit



Lukas Bauer 

Dissertation 


Kapitel 4.3 

Seite 49 

inkrementellen Änderungen noch durch Einplanung vertretbarer Reserven im Pre-Layout-Timing 

gelöst werden konnten. 

Um den wachsenden Routingflächen 

und den statistischen Ausreißern bei 

den Metallisierungskapazitäten entgegenzuwirken, 

wurden in einem ersten 

Lösungsansatz von den Herstellern 

der Place-&-Route-Programme die 

Bemühungen intensiviert, die Optimierung 

der Zellplatzierung noch 

weiter zu verbessern. Es zeigte sich 

jedoch, dass bei komplexen Designs 

mit einer großen Zahl von Ausreißern 

ab einem gewissen Punkt jede weitere 

Optimierung der kritischen Pfade 

neue kritische Pfade erzeugte und die 

Anzahl der erforderlichen Iterationen 

ins Unermessliche stieg, da eine Platzierungsänderung 

zur Verringerung 

Abbildung 4-7: Anteilige Verzögerungszeiten durch Gatter und 

Metallisierungskapazitäten in Submikron-Technologien, dargestellt 

für konstante Leitungslängen (Bild: SIA [3]). 

Die unrealistische Skalierung der Y-Achse (vgl. Abbildung 3-10 

auf Seite 18) wurde hier unverändert aus der Quelle übernommen. 

des Abstandes zweier Zellen diese in der Regel zur Mitte des Blockes hin verschiebt, wodurch 

die Abstände zwischen anderen Zellen steigen. Bei einer Beschränkung auf zwei Metallisierungsebenen 

erlaubt die Technologie keine kompakte und kapazitätsarme Verdrahtung komplexer 

Layouts, was nicht auf Mängel der eingesetzten Software, sondern auf physikalische 

Restriktionen zurückzuführen ist. 

Ein anderer Ansatz bestand darin, sich in Iterationen zwischen dem Syntheseprogramm und dem 

Layoutprogramm einer Lösung anzunähern, wobei die nach Layouterstellung bekannten Metallisierungskapazitäten 

in einer sdf-Datei gespeichert und vom Syntheseprogramm eingelesen wurden 

(„Back-Annotation“). Dieses war nun in der Lage, auf der Grundlage exakter Daten die 

Schaltung an den kritischen Stellen umzustrukturieren, wozu z. B. (vgl. Abschnitt 4.1.3) Buffer 

eingefügt, Lasten auf mehrere parallele Treiber aufgeteilt oder Logikpfade dadurch verkürzt werden 

können, dass redundante Logik parallel aufgebaut wird, um die Logiktiefe zu reduzieren. Bei 

arithmetischen Elementen kann entsprechend eine günstigere Architektur gewählt werden. 

Neben der Notwendigkeit, Iterationsvorgänge zwischen zwei Programmen manuell auszuführen, 

bestand der Hauptnachteil dieser Vorgehensweise darin, dass die Umstrukturierungen stets 

Nebenwirkungen haben, die das Zeitverhalten wiederum unberechenbar machen: Jedes neu eingefügte 

Gatter und jede geänderte Verbindung unterliegt wieder den Unwägbarkeiten der Pre- 

Layout-Analyse, und da die zu bekämpfenden kritischen Pfade durch unerwartet große Entfernungen 

im Layout entstanden sind, wäre es illusorisch anzunehmen, dass sich bei der Umstrukturierung 

derselben Pfade die neuen Gatter und Verbindungen kapazitätsarm verdrahten lassen. 

Eine akzeptable Lösung stellten somit auch diese Iterationen nicht dar. 

Die entscheidende Hilfe kam schließlich in der Form zusätzlicher Metallisierungsebenen von 

den Technologen: Es gelang ihnen, geeignete mechanische Verfahren zu entwickeln, um die 

Waferoberfläche nach jedem Oxidationsvorgang plan zu schleifen. Dies erlaubte erstmals eine 

fast unbegrenzte Anzahl von Metallisierungsebenen, was ohne die Planarisierung nicht möglich 

gewesen war: Die über den Leiterbahnen aufwachsenden Profile hätten in den höheren Ebenen zu 

einem Abreißen an solchen Kanten geführt, die sich aus übereinanderliegenden Leiterbahnrändern 

ergeben hätten. In einer modernen 0,25μ-Technologie stehen heute bis zu fünf Metallisierungsebenen 

zur Verfügung, für 2003 plant TSMC eine 0,1μ-Technologie mit neun Ebenen.



Lukas Bauer 

Dissertation 


Kapitel 4.3 

Seite 50 

Zusätzlich wurden Verfahren zum Auffüllen der Durchkontaktierungslöcher entwickelt, die ein 

Stapeln von Durchkontaktierungen erlauben, während zuvor zwischen zwei Durchkontaktierungen 

ein oft unnötiges Stück Leiterbahn einzufügen war. Hierdurch wurden einfachere Geometrien 

beim Lagenwechsel ermöglicht. 

In der Summe der Maßnahmen und durch den immer geringer werdenden Metal Pitch konnten 

die Routing-Ressourcen ganz erheblich gesteigert werden. Die Motivation der Halbleiterhersteller 

war dabei in erster Linie die Kosteneinsparung durch geringere Siliziumflächen. Während 

jede zusätzliche Metallisierungsebene nur zwei Masken benötigt und somit in vergleichsweise 

geringem Maße in die Kosten eingeht, kann die kompaktere Verdrahtung die Chipfläche in ganz 

entscheidendem Maße verkleinern. 

Mit der erhöhten Lagenanzahl führten die Anbieter der CAE-Programme wenig später auch neue 

Routingverfahren ein. Es war nicht mehr erforderlich, sich bei der Verdrahtung auf Routingkanäle 

zwischen den Standardzellreihen zu konzentrieren, sondern es wurde nun die gesamte Fläche 

über den Standardzellen zur Verdrahtung genutzt. Hierzu wurde eine neue Generation von 

Standardzellen entwickelt, deren interne Verdrahtung möglichst ausschließlich in der untersten 

Metallisierungsebene erfolgte, um in den höheren Ebenen maximale Freiheiten zu erlauben. Im 

Extremfall konnten die Standardzellen nun dicht gepackt platziert werden, wobei jede zweite 

Reihe an ihrer Längsachse gespiegelt wurde, um selbst die Versorgungsspannungsschienen lükkenlos 

aneinander fügen zu können. Die Signalverdrahtung erfolgte nun mittels Area Routing in 

den Metallisierungsebenen von Ebene zwei aufwärts. 

Während das Problem der explodierenden Routingflächen durch die Mehrebenenverdrahtung zur 

vollen Zufriedenheit gelöst worden war, wurde das Timing der Schaltungen durch diese Maßnahmen 

zwar ebenfalls verbessert, da die geringeren Distanzen zu reduzierten Leiterbahnkapazitäten 

führten, das Hauptproblem der statistischen Ausreißer und der resultierenden Unterschiede zwischen 

Pre-Layout- und Post-Layout-Timing bestand aber weiterhin. Auch die Einführung von 

Isolatoren, die eine niedrigere Dielektrizitätskonstante als SiO 2 (ε r = 4,1) aufweisen, wie z. B. 

FSG (Fluorinated Silicon Glass, ε r = 3,5), trug zwar dazu bei, die Metallisierungskapazitäten zu 

senken, löste aber weder das genannte Problem, noch wurden die Kapazitäten ausreichend reduziert, 

um mit den bisherigen iterativen Verfahren das Post-Layout-Timing beherrschen zu können. 

Ansätze zur systematischen Lösung des Problems sollen daher im folgenden Abschnitt 

vorgestellt werden. 

4.3.2 Systematische Ansätze zur Beherrschung des Post-Layout-Timings 

In Deep-Submicron-Technologien dominieren die Metallisierungskapazitäten immer mehr das 

Zeitverhalten einer integrierten Schaltung. Ihre Beherrschung entscheidet darüber, ob ein sauberer 

Top Down Design Flow weiterhin aufrecht erhalten werden kann, oder ob die Unterschiede 

zwischen den statistisch modellierten Wireload-Annahmen des Syntheseprogramms und den realen 

Metallisierungskapazitäten des Layouts dazu führen, dass die Anzahl an aufwändigen, vom 

Place & Route Tool zum Syntheseprogramms zurückführenden Iterationen ins Unermessliche 

steigt. Im Folgenden soll daher noch einmal etwas detaillierter aufgeschlüsselt werden, von welchen 

Parametern die Lastkapazitäten abhängig sind und welche Ansätze für eine Reduktion der 

Kapazitäten sich aus den einzelnen Parametern in einer modernen Submikron-Technologie ergeben 

können:



Lukas Bauer 

Dissertation 


Kapitel 4.3 

Seite 51 

Die Eingangskapazitäten der zu treibenden Gatter stehen mit Auswahl der Technologie und der 

Standardzellbibliothek mit ihren spezifischen Transistorgeometrien (W/L) fest. Auch die mittlere 

Anzahl der Lasten pro Gatterausgang wird größtenteils von den Gattern der Bibliothek bestimmt: 

Sie entspricht dem Verhältnis aller Eingangs- und Ausgangspins der verwendeten Gatter. In der 

Praxis liegt der Wert bei den meisten Libraries zwischen 2,8 und 3,4. Die statistische Verteilung 

der Lasten ist von Details der Schaltungsarchitektur abhängig, und lediglich der Maximalwert 

kann bei der Logiksynthese durch entsprechende Constraints begrenzt werden. 

Die Blockgröße (in Gattern) beeinflusst den mittleren Abstand der miteinander zu verbindenden 

Gatter und somit die Länge und Kapazität der Signalleiterbahnen. Eine Reduktion der Blockgröße 

wäre durch eine Partitionierung der Gesamtschaltung in kleinere Einheiten möglich, dies 

bereitet jedoch neue Probleme an den Schnittstellen und bedeutet einen hohen Arbeitsaufwand; 

in manchen Systemen ist eine Partitionierung auch nicht ohne Änderungen der Architektur zu 

erreichen. Der Ansatz ist daher nur ergiebig, insoweit die Schaltung von vornherein eine Partitionierung 

erlaubt. Generell kann man beobachten, dass die ASIC-Designer aus Zeit- und Komfortgründen 

nach Programmen verlangen, mit denen immer komplexere Blöcke möglichst in einem 

Stück beherrscht werden können. Auf keinen Fall darf die Anzahl der Blöcke in dem Maße 

ansteigen wie die Komplexität der Gesamtschaltung. 

Auch die Dichte der Zellen beeinflusst die Leiterbahnlängen. Sie hängt von den Abmessungen 

der Standardzellen sowie von deren Abstand ab. Da in modernen Technologien die Zellen lükkenlos 

aneinandergefügt und in den höheren Metallisierungsebenen verdrahtet werden können, 

ist die Dichte der Zellen von der Platzierung unabhängig geworden. Die Zellgrößen werden in 

der Regel vom Halbleiterhersteller bzw. vom Anbieter der Bibliothek stark optimiert. So kann 

zwar evtl. die dichteste von mehreren zur Verfügung stehenden Bibliotheken gewählt werden, 

darüber hinaus hat der Designer aber keinen Einfluss mehr auf die Dichte der Zellen. 

Die Leiterbahnlängen hängen stark von der relativen Positionierung der miteinander zu verbindenden 

Gatter ab. Die stets stattfindende Optimierung der Platzierung ist aber sehr rechenzeitintensiv 

und nähert sich nur sehr langsam asymptotisch einem Optimum, da jede Iteration neue 

kritische Pfade erzeugt (vgl. Abschnitt 4.3.1). Das Zeitlimit für die Optimierung übermäßig zu 

erhöhen ist daher kaum sinnvoll; die komplexen irregulären Verbindungsmuster typischer Controllerschaltungen 

entsprechen einfach nicht der Struktur der zweidimensionalen Zellmatrix im 

Layout. 

Im Datenpfadbereich hingegen liegen teilweise zweidimensional strukturierte Schaltungen vor, 

wenn z. B. Daten unter Beibehaltung ihrer Bitbreite sequentiell durch eine Vielzahl arithmetischer 

oder logischer Elemente und Registerstufen laufen. Hier wäre es in jedem Fall sinnvoll, die 

Informationen über die Bitnummern (Zeilen) und die Zugehörigkeit der Einzelelemente zu den 

vektorisierten Funktionsgruppen (Spalten) aus der Synthese an das Layoutprogramm zu übergeben, 

damit die zweidimensionale Struktur der Schaltung nicht mühsam aus der Netzliste rückgewonnen 

werden muss, sondern direkt beibehalten werden kann. Durch die dann mögliche 

weitgehende Gleichbehandlung der Teilschaltungen für jedes Bit der Operanden werden statistische 

Ausreißer bei den Leiterbahnlängen vermieden und so sehr schnelle Schaltungen erzeugt. 

Außerdem bietet sich die Möglichkeit, bei der Optimierung der Platzierung ganze Spalten mit 

allen Bits gleichzeitig gegen andere Spalten zu tauschen, so dass nur noch das geringere Problem 

der Vertauschung in einer Dimension zu lösen ist und sich daher nach extrem verkürzter Rechenzeit 

eine optimale Platzierung ergibt. 

Nachdem sich aus Blockgröße, Gatterdichte und Platzierung die Abstände der zu verbindenden 

Knoten ergeben haben, ist noch die Leiterbahnführung für deren Länge entscheidend. In 

modernen Technologien stehen heute mit den vielen Metallisierungsebenen so große Routing- 

Ressourcen zur Verfügung, dass als Leiterbahnlänge überwiegend die Manhatten-Distanz, defi-



Lukas Bauer 

Dissertation 


Kapitel 4.3 

Seite 52 

niert als Summe aus X- und Y-Abstand, erreicht wird, also rechtwinklig ohne Umwege verdrahtet 

werden kann. Die Länge der Verbindung ist dabei maximal um den Faktor 2 

größer als der 

Abstand. Lediglich durch 45°−Routing oder in der Theorie durch Zulassen beliebiger Winkel 

kann die Länge und damit die Kapazität noch reduziert werden. 

Da die wesentlichen Technologieparameter wie die minimale Leiterbahnbreite oder die Dielektrizitätskonstante 

des Isolators feststehen, ergibt sich aus der Länge der Leiterbahn ihre Kapazität. 

Einen wesentlichen Einfluss auf die längenbezogene spezifische Kapazität haben dabei aber die 

Abstände zu den Nachbarleitungen. Diese könnten in kritischen Pfaden erhöht werden, indem 

zeitkritische Signale auf den höheren Metallisierungsebenen mit der dort geringeren längenspezifischen 

Kapazität zum Substrat verlegt werden und ihre direkte Umgebung frei von anderen 

Metallisierungen gehalten wird. Dieses Verfahren wird derzeit noch wenig eingesetzt, bietet aber 

ein nicht zu unterschätzendes Potential für gezielte Verringerungen von Metallisierungskapazitäten 

einzelner Netze. 

Insgesamt bieten sich also in den ausgereizten modernen Technologien eher geringe Möglichkeiten, 

die Leiterbahnkapazitäten weiter zu verringern. Da nach Gleichung 4-1 der (heute dominierende) 

lastabhängige Teil der Verzögerungszeiten aber auch linear vom Ausgangswiderstand 

(bzw. dem Faktor k) des treibenden Gatters abhängig ist, bietet sich hier ein praktikabler Ansatz 

zur Beherrschung des Timings im Layoutprogramm: Die nicht mehr vermeidbaren statistischen 

Ausreißer bei den Metallisierungskapazitäten werden toleriert, aber in kritischen Pfaden dadurch 

kompensiert, dass die jeweiligen Treiber durch äquivalente Gatter mit größerer Treiberstärke 

ersetzt werden. Man spricht vom Timing Driven Buffer Sizing (TDBS). Falls ein entsprechendes 

Gatter nicht zur Verfügung steht, können Buffer eingefügt werden (Buffer Insertion), und im 

umgekehrten Fall, dass aufgrund unerwartet kleiner Metallisierungskapazitäten ein vorhandener 

Buffer mehr Delay erzeugt, als durch seine Treiberstärke gewonnen wird, kann dieser entfernt 

werden (Buffer Deletion). 

Diese Lösung ist insofern geeignet, die aufwändigen, zur Logiksynthese zurückführenden Iterationszyklen 

zu vermeiden, als die beschriebenen Maßnahmen der Umstrukturierung lokal im Layoutprogramm 

durchgeführt werden können und die Nebenwirkungen auf andere Pfade gering 

sind: Zum einem kommt es in geringem Maße zu einer Vergrößerung des Layouts und somit zu 

einer Änderung der Verdrahtungslängen anderer Pfade, wenn die eingesetzte Zelle mit höherer 

Treiberstärke auch flächenmäßig größer ist als die Originalzelle; dies kann aber vermieden werden, 

indem die Zellen zunächst mit geringen Lücken platziert werden. Zum anderen hat die Vergrößerung 

des Treibers eine Rückwirkung auf die Eingangskapazität des Gatters und somit auf 

das Netz, das den Eingang treibt; aufgrund des Umsetzungsfaktors des verstärkenden Gatters und 

der Dominanz der Metallisierungskapazitäten gegenüber den Eingangskapazitäten kann dies 

jedoch vernachlässigt werden. 

Eine wesentliche Voraussetzung für die Anwendbarkeit des Timing Driven Buffer Sizing ist die 

Fähigkeit des Layoutprogramms, den Erfolg der Maßnahmen sofort selbst beurteilen zu können, 

damit die lokalen Iterationen zum Erfolg führen. Hierzu sind Post-Layout-Simulationen keinesfalls 

geeignet, da sie zu extrem aufwändigen Designzyklen führen würden, in denen Timing Violations 

manuell abgelesen werden müssten. Außerdem können Post-Layout-Simulationen zwar 

stochastisch Timing-Fehler aufdecken, sie erlauben aber keine systematische Analyse aller 

Pfade. 

Eine systematische Lösung hingegen erlaubt eine im Layoutprogramm integriert durchgeführte 

Statische Timing-Analyse (STA), bei der nach Definition der Clock-Signale mit ihren Phasen 

und Taktperioden und weiteren Timing-Anforderungen die Laufzeiten aller Pfade zwischen 

Flipflops sowie von und zu Ein- und Ausgängen der Schaltung gleichzeitig berechnet und mit 

den Vorgaben verglichen werden. Im günstigsten Fall berücksichtigt der Timing Analyser sogar



Lukas Bauer 

Dissertation 


Kapitel 4.3 

Seite 53 

den individuellen Clock Skew für Quell- und Zielregister jedes Pfades und addiert ihn vorzeichenbehaftet 

zur zulässigen Signallaufzeit. Dadurch eröffnet sich dem Designer sogar die Möglichkeit, 

kritische Pfade durch eine künstliche Verzögerung des Taktes am Zielregister zu 

entschärfen und so dem Clock Skew eine völlig neue Bedeutung zu geben. 

Während früher bei der Layouterstellung auf geringste Flächen und Verdrahtungslängen optimiert 

wurde, ist dies in Deep-Submicron-Technologien nicht mehr sinnvoll. Eine lückenlose Platzierung 

der Standardzellen macht die Flächenoptimierung hinfällig, und eine konstante 

Limitierung aller einzelnen Lastkapazitäten ohne Berücksichtigung der zulässigen Laufzeiten der 

jeweiligen Gesamtpfade ist ebenfalls nur vordergründig sinnvoll. Die statische Timing-Analyse 

ermöglicht heute einen Wandel zu laufzeitgesteuerten Optimierungen unter Berücksichtigung der 

Gesamtpfade, die sich wie folgt zusammenfassen lassen: 

● Beim Timing Driven Placement wird als Kostenfunktion bei der Optimierung der Platzierung 

nicht wie früher üblich die Gesamtmetallisierungslänge verwendet, sondern 

eine Bewertung der kritischen Pfade im Design. Außerdem können im Datenpfadbereich 

Elemente gleicher Bitbreite zu regulären, dichten Matrizen gruppiert werden. Es 

ergeben sich gleiche Leitungslängen für jedes Bit, wodurch statistische Ausreißer und 

somit kritische Pfade größtenteils von vornherein vermieden werden können. Gleichzeitig 

wird dadurch eine timinggesteuerte Optimierung der Platzierung ganzer Spalten von 

Elementen ermöglicht, die als Optimierung in nur einer Dimension schneller zum Erfolg 

führt. 

● Durch Timing Driven Buffer Sizing einschließlich Buffer Insertion und Buffer Deletion, 

also durch einfache lokale Eingriffe in die Schaltungsstruktur, werden die negativen 

Auswirkungen der Metallisierungskapazitäten des Layouts durch eine Anpassung 

von Treiberstärken an die Lastkapazitäten kompensiert. 

● Beim Timing Driven Routing wird die Verdrahtung nicht nur auf kürzestem Wege 

durchgeführt, sondern es kann auch darauf geachtet werden, dass in kritischen Pfaden 

größere Abstände zu Nachbarleiterbahnen eingehalten werden und kritische Signale in 

den höheren Metallisierungsebenen mit der dort geringeren längenspezifischen Kapazität 

zum Substrat verlegt werden. 

Insbesondere durch das Timing Driven Buffer Sizing wird es dabei möglich, das Post-Layout- 

Timing komplexer Blöcke ohne Partitionierung beim Layout zu beherrschen und ASICs in Technologien 

bis ca. 0,25μ ohne große Iterationen in einem sauberen Top Down Design Flow zu entwerfen. 

In Technologien von 0,18μ Strukturbreite und darunter wird aber der Einfluss der Metallisierungskapazitäten 

(vgl. Abbildung 4-7 auf Seite 49) so groß, dass trotz Einsatz der genannten 

timinggesteuerten Algorithmen bei der Layouterstellung unangenehm viele Iterationen entstehen, 

die innerhalb des Place-&-Route-Programms oft nicht mehr zum Erfolg führen. Die Ursache 

liegt wiederum in den statistischen Wireload-Modellen, die der Logiksynthese zugrundeliegen. 

In Very-Deep-Submicron-Technologien beobachtet man, dass der Anteil und die Streubreite der 

realen metallisierungsbedingten Verzögerungszeiten so extrem werden, dass auch bei wiederholden 

Platzierungsänderungen immer wieder derart kritische Pfade entstehen, dass auch durch 

Timing Driven Buffer Sizing die Zeitvorgaben nicht erreicht werden können. 

Langfristig müssen daher Logiksynthese und Layouterzeugung zu einer gemeinsamen Aufgabe 

verschmelzen, die von einem einzigen Programm ausgeführt wird, welches so bei exakter 

Kenntnis der realen Verdrahtungskapazitäten erstmals in der Lage ist, Strukturänderungen durchzuführen, 

die nicht auf die bloße Anpassung von Treiberstärken beschränkt sind.



Lukas Bauer 

Dissertation 


Kapitel 4.3 

Seite 54 

Einen ersten Schritt in diese Richtung hat der Softwarehersteller Cadence mit seinem Ansatz der 

„Physically Knowledgeable Synthesis Technology“ (PKS) gemacht, bei dem vom Syntheseprogramm 

auch die Platzierung und eine grobe Verdrahtung durchgeführt werden. Dies ermöglicht 

es, die logische Struktur der Schaltung und die physikalische Anordnung der Zellen im Layout 

gleichzeitig zu optimieren. Mit Kenntnis der Platzierung können bei der die Optimierung begleitenden 

Timing-Analyse die Metallisierungskapazitäten ganz erheblich genauer abgeschätzt werden 

als beim konservativen Ansatz über Wireload Models. Cadence gibt an [43], die 

Abschätzungen seien auf 5% genau. 

Nach der Synthese wird die Netzliste zusammen mit den Platzierungsvorgaben an ein Layoutprogramm 

übergeben, das die Clock Tree Synthese, die endgültige Verdrahtung und eine exakte 

Timing-Analyse, ggf. mit Korrekturen über Timing Driven Buffer Sizing, durchführt. Geringe 

Abweichungen von der vorgegebenen Platzierung und von den Timingabschätzungen der Logiksynthese 

können vor allem bei Schaltungsteilen mit sehr dichter Verdrahtung entstehen, wenn 

diese ein Auflockern der Platzierungsdichte oder eine Umwegverdrahtung erfordert. 

Mit Sicherheit ist die PKS-Technologie der reinen Timing-gesteuerten Layouterzeugung weit 

überlegen und mit leichten Abstrichen dazu geeignet, auch moderne ASICs höchster Komplexität 

top-down zu entwerfen. Für die Zukunft ist zwar damit zu rechnen, dass die Ungenauigkeiten der 

PKS-Technologie mit dem weiter wachsenden Einfluss der Metallisierung zunehmen werden, 

man kann jedoch erwarten, dass dafür die Softwareentwicklung bis hin zur vollständigen Verschmelzung 

von Synthese und Layouterzeugung perfektioniert werden wird und daher in absehbarer 

Zeit keine unüberwindbaren Hindernisse im Bereich der Layouterstellung auftreten 

werden. 

4.3.3 Neue Aufgaben der Place & Route Tools im Submikron-Bereich 

Das Vordringen in den Deep-Submicron-Bereich stellt bei der Layouterstellung höchste Anforderungen 

an die eingesetzte Software. Die Programme müssen dabei nicht nur mit den exponentiell 

wachsenden Schaltungskomplexitäten ohne nennenswerte Zunahme der Rechenzeiten mithalten 

können, was andere Algorithmen erfordert, sondern sie müssen darüber hinaus immer mehr neue 

Aufgaben bewältigen, die sich aus den modifizierten Herstellungsverfahren und veränderten physikalischen 

Gesetzen ergeben. Eine Vielzahl physikalischer Effekte spielte in den Technologien 

bis zu 1μm nur eine untergeordnete Rolle, muss aber in Deep-Submicron-Technologien bei der 

Layouterzeugung und der Parasitic Extraction berücksichtigt werden, da anderenfalls fertigungstechnische 

Probleme zu einer sehr geringen Ausbeute führen könnten oder aufgrund von ungenauen 

Timing-Analysen ein generelles Fehlverhalten der ASICs auftreten könnte. Da sowohl die 

geforderten Programmfunktionen als auch die zu entflechtenden Schaltungen immer komplexer 

werden, wird eine völlig neue Generation von Place & Route Tools benötigt. 

Dies betrifft zum einen den Grad der Automatisierung. Um zu verhindern, dass mit der Komplexität 

auch die Anzahl der erforderlichen Bedienungsschritte exponentiell ansteigt, muss für den 

Anwender der Layoutaufwand pro Gatter entsprechend reduziert werden. An die Stelle einer 

Computerunterstützung (CAD/CAE) muss die weitgehende Automatisierung des IC-Designs 

(Integrated Circuit Design Automation, ICDA) treten.



Lukas Bauer 

Dissertation 


Kapitel 4.3 

Seite 55 

Zum anderen drohen die Rechenzeiten der Programme unzumutbar zu werden, da die Anzahl der 

auszuführenden Operationen beim Placement und Routing mit einer Potenz der Leitungsanzahl 

zunimmt, die Rechenleistung der eingesetzten Workstations aber nicht im gleichen Maße steigt. 

Dieses Problem kann nur durch effizientere, nur linear wachsende Algorithmen gelöst werden. 

Einen wesentlichen Beitrag zur Automatisierung und zur Verkürzung der Programmlaufzeiten 

pro Gatter stellt das in Abschnitt 4.3.2 vorgestellte Timing Driven Buffer Sizing dar, da hierdurch 

die Anzahl der Iterationen bei der Optimierung der Platzierung verringert werden kann und große 

bis zur Logiksynthese zurückführende Designzyklen wegfallen. Das erste Programm, das diesen 

Ansatz verfolgte, war 1996 „Epoch“ von Cascade Design Automation, das bei der Entwicklung 

eines 3D-Grafikprozessors mit 5 Millionen Transistoren [A-10] eingesetzt wurde. 

Neben timinggesteuerten Platzierungs- und Verdrahtungsfunktionen umfasst Epoch außerdem 

Memory- und Standardzellgeneratoren. Bei Verwendung einer technologieübergreifenden 

Bibliothek ist die Software in der Lage, die in der gewählten Technologie benötigten Zellen 

anhand von Technologieparametern als Layout zu erzeugen und ihr Zeitverhalten zu analysieren. 

Dies ermöglicht einen schnellen Technologiewechsel ohne Adaption der Library und stellt für 

das Timing Driven Buffer Sizing unabhängig von den Bibliotheken der Hersteller alle Zellen in 

ausreichend vielen Treiberstärken zur Verfügung. 

Besonders vorteilhaft ist ein solches technologieübergreifendes Library-Konzept bei Speichern 

und Pad-Zellen, da wegen der einheitlichen Zell- und Signalnamen die technologiespezifische 

Sonderbehandlung entfallen kann. Gleichzeitig wird ein Höchstmaß an Flexibilität und Automatisierung 

erreicht: Bei Speichern genügt die Auswahl des Speichertyps und die Angabe der Parameter 

wie Adresslänge und Wortbreite; das Layout des Speichers wird daraufhin automatisch 

generiert und eingesetzt. 

Für den I/O-Bereich können sogar in Abhängigkeit von Pad-Anzahl und Core-Fläche automatisch 

Pad-Zellen mit beliebigem Aspect Ratio (Kantenlängenverhältnis) erzeugt werden. Ohne 

diese Funktion ist die Auswahl in der Regel auf höchstens zwei Pad-Geometrien beschränkt, so 

dass sich bei Schaltungen mit sehr wenigen I/Os (Core Limited Designs) Lücken zwischen den 

Pad-Zellen und bei sehr hochpoligen ASICs (Pad Limited Designs) Freiflächen im Core-Bereich 

ergeben. In beiden Fällen kann durch die optimale Anpassung der Padgeometrien Chipfläche eingespart 

werden. 

Bemerkenswert war für die damalige Zeit auch der Grad der Automatisierung von Epoch bei der 

gesamten Layouterstellung. Zumindest theoretisch konnte ein komplettes Design, bestehend aus 

Standardzellgruppen, Datenpfaden, Multiplizierern, Speichern und Pad-Zellen, von der Netzliste 

ausgehend in einem Durchgang automatisch in ein vollständiges Layout unter Einhaltung der 

Timing-Vorgaben umgesetzt werden. Ungünstigerweise blieb die Qualität der programmtechnischen 

Umsetzung von Epoch weit hinter der algorithmischen Konzeption zurück. Diverse Einschränkungen, 

Programmabstürze und teilweise gravierende Fehler in der Timing-Analyse 

führten dazu, dass sich das Programm am Markt nicht durchsetzten konnte. 

So war auch die Layouterstellung des 3D-Grafikprozessors nur möglich, indem teilweise durch 

Manipulationen der internen Datenbasis von Epoch und teilweise sogar durch Modifikationen der 

ausführbaren Programme selbst Unzulänglichkeiten ausgeglichen wurden, so z. B. Fehler bei 

der parametrisierten Erzeugung von Addierern und eine Beschränkung des Pad Pitch auf minimal 

100μm. Auch beim Power-Routing musste eine eigene Lösung entwickelt werden, da Epoch 

nicht in der Lage war, die Leiterbahnbreite an die jeweilige Strombelastung anzupassen und so 

die Einhaltung der zulässigen Stromdichte zu gewährleisten. Da Epoch beim Routing nur drei 

Metallisierungsebenen unterstützte, der verwendete 0,35μ-CMOS-Prozess von TSMC aber vier



Lukas Bauer 

Dissertation 


Kapitel 4.3 

Seite 56 

Layer erlaubte, bot es sich an, Ebene vier für die Versorgungsspannungsverdrahtung zu verwenden. 

Dazu wurde unter Epoch auf den Ebenen eins bis drei eine Power-Verdrahtung mit einer Leiterbahnbreite 

von ca. 10μm erstellt, die ausreichend war, um jeden Layout-Block für sich mit Strom 

zu versorgen, die aber nicht dazu ausgelegt war, den aufsummierten Gesamtströmen standzuhalten 

– die Stromaufnahme des ASICs betrug drei Ampere, woraus sich eine erforderliche Gesamtleiterbahnbreite 

von 3000μm ergibt. Um diese zu erreichen, wurden auf Ebene vier großzügig 

dimensionierte Versorgungsspannungsbahnen als diagonales Streifenmuster von abwechselnden 

V CC - und Massebahnen verlegt, wobei die Streifen im Padbereich an die umlaufenden Versorgungsspannungsringe 

angeschlossen wurden (vgl Abbildung 4-8). 

Um die Verbindungen zwischen dem 

Power-Routing der unteren Ebenen 

und den Streifen auf der vierten Ebene 

nicht manuell erstellen zu müssen, 

wurde das Verifikationsprogramm 

„Vampire“ von Cadence entgegen dessen 

eigentlicher Konzeption mit Erfolg 

dazu eingesetzt, diese Verbindungen 

automatisch zu generieren, indem 

überall dort Durchkontaktierungen und 

gegebenenfalls Metallpads eingefügt 

wurden, wo Versorgungsspannungsleiterbahnen 

gleicher Polarität übereinander 

verliefen und ein Einfügen der 

Verbindungen möglich war, ohne 

Kurzschlüsse zu anderen Leiterbahnen 

zu erzeugen oder Design Rules zu verletzen. 

Metal 4, führt Ground 

Anschluss 

der Power- 

Streifen an 

den Padring 

Metal 4, führt Power 

Vias zu darunter liegenden 

Ground- (bzw. Power-) Leitungen 

Abbildung 4-8: Powerverdrahtung als diagonales Streifenmuster 

auf der obersten Metallisierungsebene (Bild nach [38]) 

Die beschriebene Notlösung mag ungewöhnlich erscheinen, ist aber keinesfalls untypisch für die 

Layouterstellung hochkomplexer ASICs. Im Grenzbereich der handhabbaren Komplexitäten, zu 

dem der entworfene Grafikprozessor mit fünf Millionen Transistoren 1998 durchaus gerechnet 

werden konnte, ist es in der Regel nicht möglich, mit nur einem Layoutprogramm den gesamten 

Umfang der erforderlichen Arbeiten abzudecken. In finanzstarken Unternehmen wird daher ein 

extremes „Tool Picking“ betrieben, indem für jede Aufgabe das jeweils beste verfügbare Programm 

eingekauft wird und für Spezialaufgaben und Konvertierungsfunktionen gegebenenfalls 

eigene Programme geschrieben werden. Da der Zwang zur Benutzung der besten Tools im High- 

End-Bereich aber mit enormen Softwarekosten einhergeht, müssen im universitären Bereich und 

in kleineren Unternehmen stattdessen die beschriebenen Behelfslösungen erlaubt sein, zumal aus 

der Not heraus gelegentlich Konzepte entstehen, die algorithmisch angenehm einfach und doch 

universell einsetzbar sind. 

An physikalischen Effekten, die erstmals in Deep-Submicron-Technologien berücksichtigt werden 

müssen, sind zunächst solche zu nennen, die die Integrität der Logikpegel gefährden. Im 

I/O-Bereich ist hier vor allem der Ground Bounce problematisch. Dieser Effekt tritt auf, wenn 

viele Ausgangspins einer integrierten Schaltung gleichzeitig schalten und die Umladeströme in 

den Masseleitungen, Bonddrähten etc. zu einem so hohen Spannungsabfall führen, dass sich der 

Massepegel des ICs gegenüber dem des Systems im Augenblick des Schaltens deutlich verschiebt 

und eine logische 0 an Ausgängen des ICs vom System nicht mehr als 0 erkannt wird. 

Der Effekt wird durch eine hohe Pinzahl und durch hohe Schaltgeschwindigkeiten begünstigt



Lukas Bauer 

Dissertation 


Kapitel 4.3 

Seite 57 

und tritt daher bei modernen ASICs verstärkt auf. Abhilfe schaffen kann eine vergrößerte Anzahl 

von Masseanschlüssen, der Einsatz von Gehäusen mit niedriger Impedanz oder ggf. eine zeitlich 

leicht versetzte Ansteuerung der Ausgangstreiber von Bussen. 

Doch auch im Core-Bereich eines ASICs können in Deep-Submicron-Technologien Logikpegel 

verfälscht werden. Mit dem immer geringer werdenden Metal Pitch steigen die Ohm’schen 

Widerstände der Leiterbahnen und die Kopplungskapazitäten zu benachbarten Bahnen. Wenn 

zwei Leiterbahnen über eine längere Strecke parallel geführt werden, kann es daher in immer 

stärkerem Maße zu einem Übersprechen der Signale kommen, insbesondere dann, wenn die 

eine Leitung von einem schwachen Treiber konstant gehalten werden soll und die Nachbarleitung 

mit hoher Flankensteilheit schaltet. Falls der resultierende kurzzeitige Spannungseinbruch größer 

als der Störabstand zur Schaltschwelle ist und daher nachfolgende Gatter unerwünscht schalten, 

kann es zu einem Fehlverhalten der Schaltung kommen. Ausschlaggebend dafür ist, ob die 

gesamte resultierende Schaltaktivität bis zur nächsten aktiven Taktflanke zur Ruhe gekommen ist. 

Damit derartige Untersuchungen nicht erforderlich werden, muss das Übersprechen vom Layoutprogramm 

generell bekämpft werden. Der übliche Ansatz besteht darin, Leiterbahnen nicht über 

beliebig lange Distanzen parallel zu führen, sondern ab einer bestimmten Streckenlänge die 

Anordnung der Bahnen zu variieren. Dabei wird in der Regel eine feste Grenzlänge zugrundegelegt, 

um keine aufwändigen Berechnungen anhand der Treiberstärke, Flankensteilheit und Kopplungskapazität 

der beteiligten Bahnen durchführen zu müssen. Falls es der Platz erlaubt, können 

auch Massebahnen zwischen den Signalbahnen angeordnet werden, die eine abschirmende Wirkung 

haben (Signal Shielding). 

Ein Problem stellt in Deep-Submicron-Technologien auch die maximal zulässige Stromdichte 

in Leiterbahnen dar. Bezüglich der Versorgungsspannungsnetze beherrschen moderne Layoutprogramme 

die Berechnung der Stromaufnahme der einzelnen Blöcke und sind in der Lage, die 

Metallisierungsbreite entsprechend den jeweils fließenden Teilströmen zu variieren. Bei Signalleiterbahnen 

hingegen würde eine Anpassung der Breiten an den tatsächlichen Bedarf einen 

unverhältnismäßig hohen Aufwand bedeuten, zumal der durchschnittlich fließende Strom von der 

Schaltrate (Switching Factor) der einzelnen Netze abhängt, die nicht ohne funktionale Simulationen 

ermittelt werden kann. Signalnetze sind daher schon immer einheitlich mit der Minimalbreite 

verdrahtet worden. Da in modernen Technologien aber bei näherungsweise unveränderten Umladeströmen 

der Leiterbahnquerschnitt sehr gering geworden ist, wird heute die maximale Stromdichte 

in Signalleiterbahnen immer öfter überschritten, wenn keine Gegenmaßnahmen getroffen 

werden, was die Zuverlässigkeit und Langzeitstabilität des ICs beeinträchtigen kann. Abhilfe 

wird üblicherweise dadurch geschaffen, dass die Anzahl der Lasten pro Gatterausgang (Fanout) 

bei der Logiksynthese beschränkt wird. 

Ein weiteres Problem tritt bereits bei der Fertigung der integrierten Schaltungen auf. Da in Deep- 

Submicron-Technologien die Leiterbahnbreiten und -abstände geringer sind als ihre Dicke, müssen 

bei der Fertigung nahezu senkrechte Wände erzeugt werden. Dies ist aufgrund der Unterätzung 

beim Nassätzen nicht mehr zu gewährleisten, so dass in modernen Prozessen mit Plasma 

geätzt wird. Beim Plasmaätzen werden die reaktiven Teilchen von einem elektrischen Feld senkrecht 

zur Waferoberfläche bewegt, wodurch das gewünschte, stark anisotrope Ätzverhalten und 

damit nahezu senkrechte Profile erreicht werden. Die entgegengesetzten Ladungen von Wafer 

und Plasma können jedoch dazu führen, dass sich auf den gerade freigelegten Leiterbahnen 

Ladungsträger sammeln („Antenna Effect“) und die sich aufbauende Spannung das dünne Gate- 

Oxid von angeschlossenen Transistoren zerstört. Dies geschieht vorwiegend dann, wenn eine 

lange Leiterbahn an das Gate eines kleinen Transistors angeschlossen ist und die Verbindung 

zum Treiber des Signals (also zu Drain-Gebieten) noch fehlt, weil diese über höhere, noch nicht 

gefertigte Metallisierungsebenen verläuft. Zur Vermeidung dieses Effekts kann die Leiterbahn in 

der Nähe des Gate-Anschlusses kurz über eine höhere Ebene umgeleitet werden. Beim Ätzen der



Lukas Bauer 

Dissertation 


Kapitel 4.3 

Seite 58 

unteren Ebene ist die lange Bahn aus diese Weise vom Gate isoliert, und das Leiterbahnstück auf 

der oberen Ebene ist so kurz, dass sich darauf beim Ätzen der oberen Ebene kaum Ladung 

ansammelt. In Technologien bis ca. 0,5μ war das zulässige Verhältnis von Leiterbahnlänge zu 

Gate-Größe noch so groß, dass es nur sehr selten zum beschriebenen Effekt kam und selbst ohne 

Kontrollen noch eine akzeptable Ausbeute bei der Fertigung erreicht werden konnte. In 0,35μ− 

Technologien wurde meist beim abschließenden DRC auf Verstöße gegen die Antenna Rules 

geprüft, um die dargestellten Änderungen dann per Hand vorzunehmen. In Very-Deep-Submicron-Technologien 

schließlich häufen sich die Regelverstöße derart, dass automatische Korrekturverfahren 

unverzichtbar werden. Im Idealfall berücksichtigt das Layoutprogramm bereits 

beim Routing die entsprechenden Regeln durch geeignete Konstruktionsprinzipien. 

Während die bisher beschriebenen 

Effekte neue Anforderungen 

an die Place-&-Route- 

Programme bei der Verdrahtung 

stellen, muss auch die 

Timinganalyse aufgrund der 

neuen physikalischen Effekte 

um zusätzliche Funktionen 

und modifizierte Algorithmen 

erweitert werden. So war 

es bei der Extraktion der 

parasitären Kapazitäten in 

5μ Technologie, 2D-Extraktion 0,25μ, 3D-Extraktion 

Substrat Substrat 

Abbildung 4-9: Veränderte Leiterbahngeometrien erfordern in Deep-Submicron-Technologien 

eine 3D-Extraktion parasitärer Kapazitäten. Eine 2D- 

Extraktion würde im rechten Bild keine Kapazitäten erkennen. 

älteren Technologien durchaus ausreichend, sich auf die vertikalen Kapazitäten aller sich überlappender 

Leiterbahnen zu beschränken (2D-Extraktion). Mit den veränderten Leiterbahngeometrien 

(vgl. Abbildung 4-9) ist dies in Deep-Submicron-Technologien aber nicht mehr möglich, da 

die horizontalen Kapazitäten zwischen benachbarten Leiterbahnen die vertikalen bereits überstiegen 

haben. Es ist daher eine 3D-Extraktion unter Berücksichtigung der räumlichen Anordnung 

der Leiterbahnen erforderlich. Außerdem spielt der Ohm’sche Widerstand der immer schmaler 

werdenden Bahnen eine immer größere Rolle. Während er in älteren Technologien gegenüber 

dem Bahnwiderstand der treibenden Transistoren zu vernachlässigen war, übersteigt er diesen 

heute bei langen Leitungen. Um die resultierenden Verzögerungszeiten mit hinreichender Genauigkeit 

zu berechnen, muss daher eine RC-Delay-Analyse durchgeführt werden, bei der lange Leiterbahnen 

in Abschnitte zerlegt werden, Widerstand und Kapazität jedes Segments ermittelt 

werden und hieraus zusammen mit dem Ausgangswiderstand des Treibers die Signallaufzeiten 

nach Formeln für RC-Ketten berechnet werden. 

Auch das kapazitive Übersprechen zwischen den Signalnetzen kann einen Einfluss auf die Verzögerungszeiten 

haben, wenn zwei benachbarte Leitungen gleichzeitig schalten. Während für das 

Umladen der Kapazität bei der Timinganalyse der Spannungshub ΔU entsprechend der Versorgungsspannung 

angesetzt wird, kann dieser sich verdoppeln, falls das Nachbarsignal invers zur 

betrachteten Leiterbahn schaltet, oder sich auf null reduzieren, falls beide Leiterbahnen die gleiche 

Spannungstransition durchlaufen. Die anteilige Verzögerungszeit ändert sich entsprechend. 

Da eine Analyse der Schaltvorgänge zustandsabhängig und damit extrem komplex wäre, 

beschränkt man sich derzeit darauf, lange Parallelführungen von Leiterbahnen wie beschrieben 

zu vermeiden. 

Neben der Layouterstellung und Timingkontrolle muss bei jedem ASIC-Design eine geometrische 

und logische Schaltungsverifikation (DRC, LVS) durchgeführt werden. Mit Ausnahme der 

neu eingeführten Antenna Rules sind die Regelsätze seit Jahren nahezu unverändert geblieben, 

doch wachsen die Programmlaufzeiten gerade hier unangenehm schnell an. Eine Lösung stellen 

seit einigen Jahren hierarchische Verifikationsprogramme dar. Während das Layout beim klas-



Lukas Bauer 

Dissertation 


Kapitel 4.3 

Seite 59 

sischen Ansatz „flach“ untersucht wird, d. h. alle Strukturen unabhängig von ihrer Block- oder 

Zellzugehörigkeit gleichberechtigt behandelt werden, beginnen diese Programme wie z. B. „Dracula“ 

und „Vampire“ von Cadence bei den untersten Zellen der hierarchischen Gliederung, z. B. 

den Standardzellen, um zunächst dort die Layoutgeometrien auf Regelverstöße zu überprüfen 

(DRC) bzw. die Teillayouts mit den korrespondierenden Schematics zu vergleichen (LVS). In 

den höheren Ebenen müssen dann nur noch die Verbindungen zwischen den Zellen, ihre 

Abstände etc. untersucht werden. Angesichts der Tatsache, dass in modernen ASICs oft Tausende 

von Flipflops oder Logikgattern einer Sorte verwendet werden, die auf diese Weise nur noch je 

ein einziges Mal verifiziert werden müssen, ist sofort einsichtig, dass sich die Rechenzeiten so 

um mehr als eine Größenordnung reduzieren. Insbesondere bei Speicherblöcken ist die hierarchische 

Verifikation vorteilhaft, da ein- und zweidimensionale Matrizen gleicher Elemente erkannt 

und gesondert behandelt werden, um auch den Aufwand für die Verifikation der Verbindungen 

zwischen den Zellen zu minimieren. Die genannten hierarchischen Verifikationsprogramme wurden 

bei der Entwicklung eines 3D-Grafikprozessors [A-10] erfolgreich eingesetzt, auch wenn die 

hierarchische Vorgehensweise es erforderte, spezielle Extract Rules zu schreiben, um auch Verbindungen 

zwischen benachbarten Zellen erkennen zu können, die vom Layoutprogramm über 

überlappende Wannen hergestellt wurden. Die Programmlaufzeiten betrugen bei 5 Millionen 

Transistoren ca. 24 Stunden, eine Verifikation mit klassischen Programmen wäre hier kaum 

durchführbar gewesen.



Lukas Bauer 

4.4 Design Flow und Verifikation 

Dissertation 


4.4.1 Ein vollständiger, moderner Design Flow 

Kapitel 4.4 

Seite 60 

Während bisher Lösungen einzelner Aufgaben im Entwurfsprozess betrachtet wurden, soll nun 

der gesamte Ablauf einer ASIC-Entwicklung einschließlich der Schnittstellen zwischen den 

Umsetzungsprozessen beleuchtet werden. Abbildung 4-10 zeigt exemplarisch einen empfehlenswerten 

Design Flow bei Verwendung eines grafischen HDL-Programms. 

Grobspezifikation: 

● teilweise verbal 

● z. T. ungenau und unvollständig 

● evtl. Beschreibung der Ziele und 

nicht der Lösungen 

● evtl. Beschreibung des Umfeldes 

und nicht des ASICs (indirekte 

Spezifikation des ASICs), z. B. bei 

externen Speichern 

grafische HDL-Spezifikation: 

● takt- und bitgenau 

● strukturorientiert auch in Verhaltensbeschreibungen 

● personen- und maschinenlesbar 

textuelle HDL-Spezifikation: 

● technologieunabhängig 

● synthetisierbar 

Synthese-Script 

(Ablauf, Timing-Constraints etc.) 

Synthese-Bibliotheken 

(arithmetische u. log. Funktionen) 

Technologie-Bibliotheken 

(Gatter, Flipflops, Pads, Speicher) 

Steuerung 

KonstruktionsprinzipienKonstruktions- 

elemente 

Schaltung in der Zieltechnologie: 

● incl. Teststrukturen 

● Einhaltung der Timing-Vorgaben 

Erprobung am 

Evaluation 

Board, 

Korrekturen 

Blockschaltbilder 

verbale Spezifikation 

if a



Lukas Bauer 

Dissertation 


Kapitel 4.4 

Seite 61 

Ausgegangen wird dabei von einer Grobspezifikation, die gemischt in verschiedenen Formaten 

wie umgangssprachlichen Beschreibungen, Blockschaltbildern oder Timing-Diagrammen vorliegen 

kann und die in der Regel weder vollständig noch präzise ist. Zwar erlaubt es die Standardisierung 

von Modulen und Schnittstellen, große Schaltungsteile durch einen bloßen Verweis auf 

die entsprechenden Normen zu spezifizieren; doch diese Abstraktion kann dazu führen, dass 

weder die Anbindung der Module an das Gesamtsystem noch ihre wesentlichen Parameter wie 

z. B. der Datendurchsatz genau spezifiziert bzw. die Erfordernisse hinreichend abgeschätzt werden. 

Nach einer detaillierten Abstimmung der Anforderungen an das ASIC beginnt der ASIC-Designer 

dann, Lösungen zu den umrissenen Aufgaben zu finden, die sich in Hardware mit vertretbarem 

Aufwand realisieren lassen, und diese in grafischem HDL in Form von Schematics, 

Zustandsmaschinen und textuellem HDL einzugeben. Es entsteht eine vollständige, takt- und bitgenaue 

Spezifikation der Hardwarelösung mit den in Abschnitt 4.1.2 ausgeführten Vorteilen. 

Zur Kontrolle kann die Beschreibung innerhalb des grafischen HDL-Programms simuliert und 

daraufhin ggf. korrigiert werden. An diesen kreativen Teil des Entwurfsprozesses schließt sich 

die heute weitgehend automatisierte Umsetzung in die Zieltechnologie an. Dazu wird die grafische 

HDL-Beschreibung vom Programm in textuelles VHDL oder Verilog übersetzt, wobei nur 

eine Untermenge der zulässigen HDL-Sprachkonstruktionen verwendet wird, um die Synthetisierbarkeit 

sicherzustellen. Die Simulations-Testmuster werden gleichfalls übersetzt, so dass eine 

erste Cross-Simulation auf HDL-Ebene möglich ist, deren Ergebnisse mit denen aus dem grafischen 

HDL-Programm verglichen werden können. 

Bei der Logiksynthese wird die Verhaltensbeschreibung unter Verwendung von Synthese- und 

Technologiebibliotheken, durch ein Synthesescript gesteuert, in eine Netzliste in der Zieltechnologie 

umgesetzt, wobei auch Teststrukturen eingefügt werden können und Timing-Vorgaben 

berücksichtigt werden. 

Die Netzliste kann in VHDL oder Verilog aus dem Syntheseprogramm exportiert werden. Eine 

Edif-Netzliste wäre als Schnittstelle zum nachfolgend eingesetzten Place-&-Route-Programm 

ebenfalls möglich, erlaubt aber keine Cross-Simulation auf Ebene der synthetisierten Schaltung. 

Zur Verifikation kann die Netzliste zunächst, wie in Abschnitt 4.2 erläutert, in eine Verbindungsliste 

für ein FPGA umgesetzt werden, um die Schaltung auf einem Prototypen-Board im realen 

Umfeld in Echtzeit testen und evtl. das Zusammenspiel mit der parallel entwickelten Software 

erproben zu können. 

Für die Fertigung des ASICs wird die Netzliste von einem Place-&-Route-Programm in ein Layout 

umgesetzt, dessen Korrektheit durch DRC und LVS überprüft werden sollte. Weitere Cross- 

Simulationen auf Ebene der Netzliste und des Layouts dienen dabei nicht nur der funktionalen 

Verifikation, sondern (parallel zur statischen Timing-Analyse) auch der Kontrolle des Zeitverhaltens 

der Schaltung. Um dieses simulieren zu können, werden von Syntheseprogramm statistische 

Abschätzungen des Zeitverhaltens bzw. vom Place-&-Route-Programm die anhand der Metallisierungskapazitäten 

des Layouts berechneten exakten Signallaufzeiten in Form einer sdf-Datei 

zusammen mit der Netzliste an den Simulator übergeben. 

Die Erzeugung der Testvektoren für den Produktionstest der ASICs kann auf Basis der Simulationen 

auf Netzlisten-Ebene geschehen, wobei die oft funktional orientierten Testmuster der 

Cross-Simulation um strukturorientierte Tests wie z. B. Speichertests und Simulationen des Scan 

Path ergänzt werden sollten. Die Testvektoren müssen für den Produktionstest in ein tabellarisches 

Format gebracht werden, in dem pro Zeitschritt die an jeden Eingang des ASICs anzulegenden 

Werte und die Erwartungswerte jedes Ausgangs aufgelistet sind. Bei bidirektionalen Pins 

muss zusätzlich die Richtung (Ein- oder Ausgang) ersichtlich sein.



Lukas Bauer 

Dissertation 


Kapitel 4.4 

Seite 62 

Zu beachten ist dabei die Einschränkung der IC-Tester, die es erlauben, für jeden Pin nur einen 

innerhalb jedes Zeitschritts identischen Offset einzustellen, zu dem Eingangssignale angelegt 

werden, bzw. einen Zeitpunkt oder ein Zeitfenster, in dem die Ausgangssignale abgefragt und mit 

den Sollwerten verglichen werden. Bereits bei der Erstellung der Stimuli sollte auf derartige einheitliche 

Zeitpunkte geachtet werden. 

Der Halbleiterhersteller Samsung unterstützt 

den Designer bei der Umsetzung der 

Testvektoren durch Beistellung eines Programmpakets 

(„satest2“, [42]), welches 

gemäß Abbildung 4-11 diverse Konvertierungs- 

und Kontrollfunktionen umfasst. In 

einem Control File definiert der Designer 

dazu die Offsets und Abtastzeitpunkte aller 

Pins, die internen Signale zur Richtungssteuerung 

der bidirektionalen Pins sowie 

weitere für den Tester relevante Informationen 

wie Taktperiode, Pinbelegung, Eingangspegel 

und Ausgangslasten. 

Anhand des Control Files wird zunächst 

eine Steuerdatei erzeugt, welche den eingesetzten 

Simulator Verilog-XL bei der Simulation 

veranlasst, sämtliche Ein- und 

Ausgangssignale sowie die benötigten 

internen Kontrollsignale bidirektionaler 

Pins in eine vcd-Datei zu schreiben, die die 

Signalverläufe exakt protokolliert. 

Stimuli 

Verilog 

Simulation 

Verilog-XL 

Waveforms 

vcd-Format 

Testvektoren 

tabellarisch 

Stimuli 

Verilog 

sdf-Datei 

Netzliste 

Verilog 

Simulation 

Verilog-XL 

Waveforms 

vcd-Format 

Testvektoren 

worst case 

Simulation 

Verilog-XL 

Waveforms 

vcd-Format 

Testvektoren 

best case 

Nach einer automatischen Kontrolle, ob die im Control File definierten Offsets der Eingangssignale 

in jedem Takt eingehalten werden und sich somit des Zeitverhalten der Simulation vom 

Tester korrekt nachbilden lässt, erfolgt die Umsetzung in eines von mehreren tabellarischen Formaten 

der Tester. Zusätzlich wird kontrolliert, ob alle Ausgangssignale innerhalb der definierten 

Zeitfenster der Abtastung konstant sind. 

Damit keine Unterschiede zwischen der Simulation und dem physikalischen Test auftreten können, 

muss zusätzlich sichergestellt werden, dass diese Konstanz auch bei allen Streuungen der 

Prozess- und Betriebsparameter gewährleistet bleibt. Um dies zu überprüfen, werden die Eingangssignale 

aus der Testvektordatei wieder ins Verilog-Format rückübersetzt und für zwei 

erneute Simulationen verwendet, bei denen einmal die schnellsten und einmal die langsamsten 

Parametersätze für das Zeitverhalten eingestellt werden. Die Ergebnisse dieser Simulationen 

werden dann gemäß Abbildung 4-11 mit denen der ersten Simulation verglichen. 

Mit der Rückübersetzung und Resimulation der an das Testhaus abzugebenden Testvektordatei 

wird gleichzeitig auch die Konvertierung der Testvektoren in diese Datei verifiziert, und der 

Design Flow an dieser Stelle erscheint perfekt. Bei näherer Überlegung fällt jedoch auf, dass 

bezüglich der erwarteten Ausgangswerte ein Fehler in der Umsetzung vom vcd-Format in die 

Testvektordatei evtl. bei jedem der drei Umsetzungsvorgänge zu den gleichen Unterschieden führen 

und daher nicht bemerkt werden könnte. Dies erscheint zunächst harmlos, da ein Fehler die 

Funktionsfähigkeit des ASICs nicht beeinträchtigen würde; er könnte aber aufgrund des nicht 

erfolgreich durchzuführenden Produktionstests Verzögerungen und somit finanzielle Folgeschäden 

nach sich ziehen. Viel gravierender waren sogar die Auswirkungen eines konkret beobachteten 

Fehlers bei der Umsetzung in das Testvektorformat: Die Ausgangswerte bidirektionaler 

Rückübersetzung 

Abgabe 

an das Testhaus 

worst 

case 

Ergebnisvergleich 

best 

case 

Abbildung 4-11: Nach der Konvertierung der Testvektoren 

für den Funktionstest werden diese für Kontrollsimulationen 

wieder in eine Stimuli-Datei rückübersetzt.



Lukas Bauer 

Dissertation 


Kapitel 4.4 

Seite 63 

Signale wurden vom eingesetzten Programm in allen Takten mit einem Richtungswechsel der 

bidirektionalen Pins völlig unnötig ausmaskiert und somit vom Tester nicht mit den Sollwerten 

verglichen. Das Ergebnis war, dass bei einem ISDN-Controller-ASIC [A-17] die Ausgangswerte 

eines Speichertests komplett ausmaskiert und in der Folge ASICs mit defektem RAM nicht aussortiert, 

sondern zusammen mit den funktionsfähigen ASICs ausgeliefert wurden. Das Auslöten 

und Ersetzten der defekten ASICs verursachte enorme Kosten. Dieses Ereignis zeigt eindrucksvoll, 

wie wichtig eine gewissenhafte Verifikation wirklich aller Schritte im Entwurfsprozess eines 

ASICs ist, auch wenn in diesem Fall das unübersichtliche tabellarische Testvektorformat eine 

visuelle Prüfung stark erschwerte. 

4.4.2 Die Lücke im Verifikationsablauf als Damoklesschwert 

4.4.2.1 Die Notwendigkeit einer lückenlosen Verifikation 

„Der ASIC-Designer“, so ein ehemaliger Kommilitone [50] des Verfassers, „fürchtet zwei Dinge 

im Leben: dass ihm der Himmel auf den Kopf fällt und dass der Chip nicht funktioniert.“ 

So trivial die Aussage „der Chip muss funktionieren“ auch sein mag, ist sie doch die wichtigste 

Grundeinstellung des ASIC-Designers. Nur wer die Forderung so weit verinnerlicht hat, dass er 

den Fehlerfall der Apokalypse gleichsetzt, kann im ASIC-Geschäft die notwendige Sorgfalt 

durchhalten, alle Teile des Designs und alle Schritte der Umsetzung bis zur Abgabe des Layouts 

hinreichend genau zu kontrollieren und zu verifizieren, so dass die verbleibende Fehlerwahrscheinlichkeit 

zu vernachlässigen ist. 

Dabei wird im Laufe der Zeit zum einen der Druck immer größer, einen Entwurf „first time 

right“ zu bewältigen, da die Kosten für ein Redesign explodieren – und zwar sowohl die NRE- 

Kosten moderner Technologien als auch die aus der zeitlichen Verzögerung eines Redesigns 

resultierenden Marktverluste der immer höhervolumigen Projekte. Zum anderen erfordern die 

exponentiell wachsenden Schaltungskomplexitäten eine immer perfektere Verifikation aller Einzelteile. 

Zur Erinnerung: Entwirft ein Designer eine Schaltung mit einer Fehlerwahrscheinlichkeit von 

10%, so wird er fünf Jahre später ein aus 10 derartigen Teilen zusammengesetztes Design entwerfen 

wollen, das noch mit p = 0,9 10 , also 35% Wahrscheinlichkeit funktioniert. Nur weitere 

fünf Jahre später muss er einen aus 100 derartigen Teilen bestehenden Chip konstruieren, der bei 

gleichen Einzelwahrscheinlichkeiten nur noch mit p = 0,9 100 funktionieren wird, was der unvorstellbar 

geringen Wahrscheinlichkeit von 0,003% entspricht. Mögliche Fehler in den Verbindungen 

der Einzelteile sind dabei noch nicht einmal berücksichtigt. Zwar kann die Sicherheit im 

Entwurf durch die vorgestellten modernen Methoden deutlich gesteigert werden, dies kompensiert 

aber nicht ganz das Wachstum der Komplexität, so dass eine erheblich gesteigerte Sorgfalt 

in der Verifikation unerlässlich ist. 

Außerdem bedeutet jede Anwendung von Automatismen wie z. B. der Logiksynthese, dass der 

Faktor Mensch zwar bei der Ausführung dieser Umsetzungsvorgänge herausfällt, doch es ist zu 

bedenken, dass bei der Programmierung der Tools oder bei der Erstellung der Bibliotheken Fehler 

unterlaufen sein können, die eine fehlerhafte Umsetzung zur Folge haben können. Eine lükkenlose 

Kontrolle der Ergebnisse aller Programmläufe ist daher unverzichtbar. 

Automatische Kontrollmechanismen müssen dabei von der HDL-Beschreibung bis zur GDSII- 

Datei des Layouts den gesamten Design Flow begleiten. Sie sollen sicherstellen, dass auf dem 

Wege dieser Umsetzung die Funktionalität unverändert geblieben ist. Dies ist aber nur gewährleistet, 

wenn die Kontrollmechanismen sowohl in der Breite die gesamte Schaltung (jedes Gatter) 

erfassen als auch in der Tiefe den gesamten Design Flow abdecken. Da ein funktionaler Vergleich



Lukas Bauer 

Dissertation 


Kapitel 4.4 

Seite 64 

einer HDL-Beschreibung mit einer GDSII-Datei nicht durchführbar ist, muss hierbei eine lükkenlose 

Kette einzelner Vergleichsschritte wie z. B. Cross-Simulationen und LVS aufrecht erhalten 

werden. Neben der Funktionalität müssen darüber hinaus noch die Design Rules, die Timing- 

Anforderungen, die Anforderungen an die Testbarkeit und bei Analogschaltungen deren geforderte 

Eigenschaften über den gesamten Streubereich aller Parameter eingehalten werden. 

Beim Design Entry, also der Erstellung der HDL-Beschreibung ausgehend von der Spezifikation, 

sind solche Vergleichsmethoden nicht einsetzbar, da die Spezifikation eines ASICs in der Regel 

teils verbal, teils über Blockschaltbilder erfolgt. Diese Darstellungsformen können nicht für 

einen automatischen Vergleich verwendet werden. Auch ergibt sich die Spezifikation im Detail 

oft nur dadurch, dass im Blockdiagramm eine externe Komponente wie z. B. ein Speicher dargestellt 

wird, auf die vom ASIC aus zugegriffen werden soll. Das Datenblatt des Speichers spezifiziert 

hierbei nur indirekt die Schnittstelle des ASICs. An die Stelle eines Vergleichs kann in 

dieser Phase daher nur eine Simulation treten, deren möglichst vollständige Überdeckung des 

Funktionsumfanges entscheidend für die verbleibende Fehlerwahrscheinlichkeit ist. Zusätzliche 

Sicherheit können hier die in Abschnitt 4.2 vorgestellten FPGA-Prototypenboards bieten. 

Doch dass der Chip funktioniert, d. h. dass das ASIC in der Anwendung seine vorgesehene Funktion 

fehlerfrei erfüllt, ist durch einen solchen Ablauf noch keineswegs gewährleistet. Auch auf 

dem Weg bis hin zur Spezifikation und noch bei der Abgabe der GDSII-Datei zur Fertigung des 

ASICs ist der Verifikationsablauf aufrecht zu erhalten. 

Die Erstellung eines ASICs lässt sich dabei in vier Phasen gliedern. Zu jedem der Punkte sollen 

im Folgenden anhand von Beispielen aus konkret realisierten Projekten die vorhandenen Risiken 

aufgezeigt werden und soweit gegeben geeignete Methoden einer lückenlosen Verifikation vorgestellt 

werden. Die vier Phasen sind 

1. die Konzeptions- und Spezifikationsphase bis hin zur verbalen Spezifikation, 

2. die manuelle Design Entry Phase bis hin zur – evtl. graphischen – HDL-Beschreibung, 

3. die Synthese der Netzliste einschließlich Teststrukturen unter Einhaltung der Timingvorgaben 

und 

4. die Layouterzeugung, 

und darüber hinaus ist eine Verifikation 

5. der Datenübergabe an allen Schnittstellen zwischen den eingesetzten Programmen 

erforderlich. 

4.4.2.2 Sorgfalt in der Konzeptions- und Spezifikationsphase 

Die Spezifikation eines ASICs unterliegt in der Regel der Verantwortung des Kunden, das Design 

Entry und die Synthese dem Designer. Die Layouterzeugung kann vom Designer oder bei Netzlistenabgabe 

vom Halbleiterhersteller, allerdings immer in enger Interaktion mit dem Designer, 

durchgeführt werden. 

Dennoch darf sich der ASIC-Designer nicht auf „seinen“ Teil der Arbeiten zurückziehen. Zwar 

mag er mit der Auftragserteilung juristisch nur dazu verpflichtet sein, ein ASIC zu entwerfen, das 

die Spezifikation erfüllt, doch de facto muss er den Kunden bereits in der Konzeptions- und Spezifikationsphase 

bei der Hand nehmen, um zu einer Lösung zu kommen, die den Anforderungen 

an das mit dem ASIC zu realisierende Produkt gerecht wird. 

Dies bedeutet nicht nur, dass der Designer jedes Detail der Spezifikation äußerst sorgfältig auf 

Korrektheit überprüfen muss, sondern dass er sogar die gesamte Konzeption hinterfragen muss.



Lukas Bauer 

Dissertation 


Kapitel 4.4 

Seite 65 

Welche Systemfunktionen sich mit welchem Entwicklungsaufwand realisieren lassen und zu 

welchen Mehrkosten an Siliziumfläche sie führen oder ob die Aufteilung der auszuführenden 

Systemfunktionen zwischen Hardware und Software sinnvoll gewählt ist, sind Fragen, die vom 

Kunden oft nicht alleine beantwortet werden, da ihm das genaue Verständnis der technischen 

Möglichkeiten meistens fehlt. Die endgültige Systemkonzeption entsteht daher in der Regel während 

der technischen Vorverhandlungen zwischen Kunde und Designer. 

Anschließend wird die Spezifikation immer detaillierter ausgearbeitet. Spätestens dann, wenn es 

darum geht, z. B. die exakte Funktion einzelner Steuerbits zu definieren, ist aber meist der ASIC- 

Designer gefragt, da nur dieser die genaue Anzahl und Bedeutung der zur Steuerung der einzelnen 

Funktionen benötigten Registerbits etc. kennt bzw. da diese Details von der von ihm zu findenden 

Hardwarelösung abhängig sind. Es ergibt sich somit ein fließender Übergang zwischen der 

Spezifikationsphase und der Design-Entry-Phase. Dies gilt insbesondere bei der Verwendung 

grafischer HDL-Programme, da bei diesen nicht mehr alle Details verbal, sondern vielfach direkt 

in HDL spezifiziert werden. 

4.4.2.3 Kontrolle statt ausschließlicher Simulation in der Design-Entry-Phase 

Die Design-Entry-Phase ist die kreativste Phase eines ASIC-Designs. Ausgehend von der 

Systemkonzeption bzw. der verbalen Spezifikation wird eine geeignete Lösung entworfen und als 

Schematic, in Form einer HDL-Datei oder mittels grafischem HDL, also stets in computerlesbarer 

Form, eingegeben. Da sich dieser Schritt aufgrund der nicht computerlesbaren Zielvorgaben 

einer automatischen Verifikation entzieht, ist der Designer in dieser Phase am stärksten gefordert, 

die Korrektheit der eingegebenen Lösungsansätze zu überprüfen. 

Das klassische Prüfverfahren stellt hierbei die Simulation der Schaltung dar, bei der Testmuster 

erzeugt werden und die Reaktion der Schaltung anhand von grafischen Signalverläufen visuell 

begutachtet wird. Da letzteres bei Änderungen und Erweiterungen der Schaltung wiederholt 

erforderlich ist (und evtl. mit nachlassender Sorgfalt geschieht), erscheint es vorteilhafter, die 

erwarteten Reaktionen der Schaltung als Abfragen in der Simulationsdatei zu formulieren und so 

ggf. automatisch Fehlermeldungen zu erhalten. Bei Designs mit integrierter CPU kann dies sogar 

in Form von Programmen geschehen, die von der CPU ausgeführt werden. So wurden z. B. die 

UARTs in einem universellen Microcontroller simuliert, indem die zwei UARTs in der Simulationsdatei 

Chip-extern miteinander verbunden wurden und programmgesteuert Daten zwischen 

ihnen übertragen und ausgewertet wurden. Optional können dabei in der Testumgebung künstlich 

Übertragungsfehler generiert werden. An die Stelle der wiederholten visuellen Begutachtung von 

Kurvenformen tritt so die einmalige (und nicht zu unterschätzende) Prüfung, ob das ausgeführte 

Microcontrollerprogramm alle Fehler korrekt melden würde. Gleichzeitig ist menschliches Versagen 

bei der Interpretation der Simulationsergebnisse ausgeschlossen. 

Jede Simulation ist aber nur so gut, wie sie den Funktionsumfang der Schaltung überdeckt. Hier 

wird immer wieder übersehen, dass neben den erwünschten Schaltungsfunktionen auch getestet 

werden muss, ob unerwünschte Nebeneffekte auftreten. Soll beispielsweise ein Controller mehrere 

komplexe Startbedingungen überprüfen, so reicht es nicht aus, nur diese zu simulieren, da 

damit nicht sichergestellt ist, dass der Controller nicht auch startet, wenn eine Startbedingung 

unvollständig erfüllt ist. Auch bei Registern wird zwar meist kontrolliert, ob sich ein Register an 

der spezifizierten Adresse schreiben und lesen lässt, es wird aber oft darauf verzichtet zu prüfen, 

ob es z. B. bei Schreibzugriffen auf falsche Adressen unverändert bleibt. 

Um all dies zu simulieren, wäre ein extrem hoher Simulationsaufwand erforderlich. Mit FPGA- 

Prototypenboards lässt sich bei solchen Details zwar die zeitraubende Simulation durch Tests in 

(evtl. skalierter) Echtzeit ersetzen, es bleibt aber der Aufwand für die Durchführung der einzel-



Lukas Bauer 

Dissertation 


Kapitel 4.4 

Seite 66 

nen Testfälle und das Risiko, Testfälle nicht bedacht zu haben. Neben den Tests und Simulationen 

müssen daher sorgfältige Kontrollen der eingegebenen Designs durchgeführt werden. 

Chr. v. Reventlow [31] empfiehlt hierzu, jedes erstellte Dokument von einer unabhängigen Person 

kontrollieren zu lassen, indem bei Schaltungen deren Funktion im Detail anhand des Entwurfes 

nachvollzogen wird. Ihm zufolge werden so neun von zehn Fehlern durch derartige 

Kontrollen gefunden und nur ein Fehler durch Simulation. Grafisches HDL eignet sich besonders 

gut für diese Vorgehensweise, da die Designs für andere Personen intuitiv zu verstehen sind. 

Darüber hinaus empfiehlt er, alle in den Entwürfen gefundenen Fehler genau zu protokollieren. 

Wenn in einem Schaltungsteil (von zwei bis vier Wochen Aufwand) deutlich weniger als fünf 

Fehler gefunden wurden, sei die Wahrscheinlichkeit hoch, dass nach deren Beseitigung die 

Schaltung ordnungsgemäß funktioniere. Waren aber ursprünglich wesentlich mehr als fünf Fehler 

enthalten, sei das Risiko zu hoch, den Schaltungsteil weiter zu korrigieren. Es sei sinnvoller, 

das Modul neu zu entwerfen, da nach seinen Beobachtungen ca. fünf gefundene Fehler einen 

weiteren Fehler verdecken. 

4.4.2.4 Automatische Verifikation in der Synthese-Phase 

Da die Synthese der Netzliste einen automatischen Umsetzungsvorgang darstellt, bietet sich hier 

eine Verifikation durch Computerprogramme an, wobei Kontrollmechanismen für die Funktion, 

die Testbarkeit und das Timing der Schaltung erforderlich sind. 

Die funktionale Übereinstimmung von HDL-Beschreibung und Netzliste lässt sich theoretisch 

nach den Regeln der Bool’schen Algebra beweisen. Die meisten Syntheseprogramme enthalten 

dazu bereits eine Verify-Option. Da aber anzunehmen ist, dass die integrierte Verifikation 

nach den gleichen Algorithmen arbeitet wie die Synthese, ist die Aussagekraft des Ergebnisses 

eher zweifelhaft, so dass ein unabhängiges Verifikationsprogramm eines anderen Anbieters vorteilhafter 

erscheint. In der Praxis hat der Verfasser es aber noch nie erlebt, dass ein Syntheseprogramm 

– korrekte Bibliotheken vorausgesetzt – funktional falsch synthetisiert hätte. Natürlich 

soll diese Aussage in keiner Weise davon befreien, die Übereinstimmung genau zu prüfen. 

Die geeignete, evtl. parallel einzusetzende Alternative besteht in einer Cross-Simulation, bei der 

die Ergebnisse der Simulationen von HDL-Beschreibung und Netzliste takt- und bitgenau verglichen 

werden. Die Sicherheit des Vergleichs ist dabei aber nur so gut wie die funktionale Überdeckung 

der Schaltung durch die verwendeten Testmuster. 

Bei allen Prüfverfahren ist zu bedenken, dass Synthesescripte häufig modifizierend in die Schaltung 

eingreifen, um an einigen Stellen technologieabhängige Änderungen zu implementieren. Es 

ist sicherzustellen, dass dies den Vergleich nicht beeinflusst. 

Die Testbarkeit der Schaltung kann überprüft werden, indem mit einem Fehlersimulator wie 

z. B. Verifault die tatsächlichen Testmuster simuliert werden, wobei die Testüberdeckung ermittelt 

wird. Fehler beispielsweise bei der Implementation eines Scan Path würden hierbei sofort 

auffallen. Erfreulicherweise gilt für diese Teststrukturen, dass sie beliebig „falsch“ implementiert 

sein dürfen, solange sie die Normalfunktion der Schaltung nicht beeinträchtigen und eine ausreichende 

Testüberdeckung gegeben ist. 

Andere Teststrukturen wie der Einbau von Boundary-Scan-Strukturen (JTAG) zielen nicht allein 

auf die Testbarkeit des ASICs, sondern bieten zusätzlich Diagnosemöglichkeiten und können 

zum Test der Leiterplatte verwendet werden. Daher reicht hier eine Fehlersimulation nicht aus, 

sondern es ist auch die funktionale Korrektheit zu prüfen. 

Integrierte Speicher, insbesondere RAMs, stellen bezüglich der Testbarkeit einen Sonderfall dar. 

In der Regel unterstützen die RAM-Modelle keine Fehlersimulation, da das hierbei meist



Lukas Bauer 

Dissertation 


Kapitel 4.4 

Seite 67 

zugrunde liegende Haftfehlermodell für RAMs ohnehin nur eingeschränkt anwendbar ist. Bei 

RAMs beobachtet man neben statischen Haftfehlern (stuck at), die ca. 50% der Fehler ausmachen, 

auch dynamische Fehler der Art, dass eine Zelle z. B. auf 1 gesetzt, aber nicht gelöscht 

werden kann (transition fault). Des weiteren kann der Zellinhalt mit der Zeit verlorengehen (data 

rentention fault), und man beobachtet die gegenseitige Beeinflussung benachbarter Zellen (coupling 

fault). Im Extremfall von kombinierter statischer und dynamischer Beeinflussung von Speicherzellen 

verliert eine Zelle nur dann ihren Inhalt, wenn mehrere Nachbarzellen auf einer Seite 

durch einen Schreibvorgang umkippen und gleichzeitig die anderen Zellen in direkter Umgebung 

bestimmte statische Werte enthalten (neighborhood pattern sensitivity fault). 

Die statistische Verteilung der auftretenden Fehlerklassen ist von der Technologie und den Konstruktionsprinzipien 

der Speicher abhängig und wird von den meisten Halbleiterherstellern ständig 

überwacht und analysiert. Außerdem wird seit vielen Jahren an Algorithmen zum 

Speichertest geforscht, so dass heute Standardalgorithmen wie z. B. „March-C“ [24] bekannt 

sind, die bei akzeptablen Testzeiten alle statistisch relevanten Fehler detektieren. Die Implementation 

dieser Algorithmen in Hardware (BIST, built in self test) ist relativ einfach, erfordert aber 

Multiplexer vor den Adress- und Dateineingangsleitungen der RAMs, um diese im Testmodus 

kontrollieren zu können. Als Alternative zum Selbsttest kann in einem SoC auch die integrierte 

CPU den Speicher testen, was in Abschnitt 5.1.2 ausführlich erläutert wird. 

Zu beachten ist bei jedem Verfahren eines Speichertests, dass die Simulation den Speicher stets 

als fehlerfrei melden wird. Es sollte daher unbedingt auch eine Simulation mit einem künstlich 

fehlerhaften RAM-Modell durchgeführt werden, um zu prüfen, ob der Speichertest korrekt 

implementiert wurde. Falls ein solches Modell nicht zur Verfügung steht, können stattdessen sporadisch 

Speicherstellen während der Laufzeit der Simulation umbesetzt werden, was durch einen 

direkten Zugriff auf die der Speichermatrix zugrunde liegende Datenstruktur möglich sein sollte. 

Bei allen Belangen der Testbarkeit sollte schon parallel zur Synthesephase die korrekte Implementation 

kontrolliert und simuliert werden, um Verzögerungen im Zeitplan der Layouterstellung 

durch zu spät entdeckte Fehler zu vermeiden. 

Die Einhaltung der Timingvorgaben schließlich sollte, wie bereits in Abschnitt 4.3.2 erläutert 

wurde, nicht allein durch Simulationen überprüft werden, da diese zwar stochastisch Timing- 

Fehler aufdecken können, aber keine systematische Überprüfung aller Timing-Pfade erlauben. Es 

sollte daher zusätzlich eine statische Timing-Analyse durchgeführt werden. 

So weit wird wohl jedem erfahrenen Designer der Ablauf der Verifikationsprozesse auf Netzlistenebene 

vertraut sein. Die Funktionsfähigkeit des ASICs ist damit aber noch lange nicht garantiert, 

da stillschweigend Annahmen gemacht werden, die durchaus nicht immer zutreffen 

müssen. Dies betrifft insbesondere 

● die Korrektheit der verwendeten Libraries und Modelle, 

● die Korrektheit der Verifikationsprogramme und deren richtige Anwendung, 

● die korrekte und vollständige Formulierung von Timing-Vorgaben für Synthese und statische 

Timing-Analyse sowie 

● die vollständige funktionale Überdeckung der Schaltungsfunktionen durch die Testmuster 

der Cross-Simulation. 

Die genannten Punkte sollen im Folgenden im Detail erläutert und zum Teil anhand von konkret 

beobachteten Beispielen belegt werden. 

Bei fehlerhaften Libraries ist zu unterscheiden, ob das Simulationsmodell oder die Synthesebibliothek 

fehlerhaft ist. Im ersten Fall, wie es beim Verilog-Modell eines XOR-Gatters mit drei



Lukas Bauer 

Dissertation 


Kapitel 4.4 

Seite 68 

Eingängen in einer Cascade-Library beobachtet wurde, zeigt die korrekt synthetisierte Schaltung 

in der Simulation evtl. ein fehlerhaftes Verhalten, dies birgt aber keine Risiken, da es beliebig 

unwahrscheinlich ist, dass sich ein Fehler im Entwurf und ein Fehler im Simulationsmodell kompensieren. 

Im zweiten Fall, der z. B. bei einem Synopsys-Modell eines Flipflops mit Set und 

Reset in einer Bibliothek von AMS auftrat, wurde die Schaltung falsch synthetisiert. Glücklicherweise 

(oder dank ausreichender Sorgfalt) wurde der Fehler anhand des korrekten Verilog- 

Modells in der Simulation bemerkt und korrigiert. Ebenso führte bei der Synthese einer Boundary-Scan-Struktur 

ein fehlerhaftes Modell einer Boundary-Scan-Zelle in einer Synopsys-internen 

Library zu einer Verletzung des IEEE-1149.1-Standards, der nur aufgrund einer sorgfältigen 

Simulation detektiert wurde. In beiden Fällen hätte der Chip anderenfalls nicht ordnungsgemäß 

funktioniert. 

Fatal kann es allerdings sein, wenn alle zur Verfügung stehenden Modelle einen identischen Fehler 

enthalten. Gleichzeitige Fehler im Synthese- und Simulationsmodell wurden zwar bisher 

nicht bemerkt, es ist aber schon vorgekommen, dass nur ein einziges (fehlerhaftes) Modell existierte. 

So stellten sich beim Verilog-Modell eines ARM7 RISC CPU Cores von Samsung funktionale 

Unterschiede zum realen Silizium heraus, wobei das Synopsys-Modell nur Timing- 

Informationen enthielt. Günstigerweise betrafen die Abweichungen nur die Reset-Phase, so dass 

der Chip [A-14] zwar auf dem Tester die Testvektoren nicht passierte (die entsprechende Meldung 

des koreanischen Testhauses ohne Detailinformationen sorgte für erhebliche Aufregung), 

der Chip aber korrekt eingesetzt werden konnte. 

Weniger erfreulich waren die Folgen eines ungenau modellierten Dualport-RAMs von Cascade. 

Eine falsch berechnete Hold Time führte zu einer Hold Violation und damit zur Fehlfunktion 

eines 3D-Grafikprozessors mit fünf Millionen Transistoren [A-10], dessen Fertigungskosten in 

einer 0,35μ-CMOS-Technologie von TSMC sich allein auf $100.000 beliefen. Da hierbei die 

Berechnung der Timingwerte aus den Layoutdaten im Programm Cascade integriert geschah, 

hätte der Fehler nur bemerkt werden können, wenn zur unabhängigen Kontrolle mit einem externen 

Programm aus GDSII-Daten und Spice-Parametern das Zeitverhalten des RAMs extrahiert 

worden wäre – was einen extrem aufwändigen Arbeitsgang dargestellt hätte, der bei Abdeckung 

aller Teile des Gesamtchips untragbar lange Programmlaufzeiten bedeutet hätte. Pflege und Verkauf 

des Programms Cascade wurden wenig später eingestellt. 

Neben den Bibliotheken können auch die eingesetzten Verifikationsprogramme und Scripte 

fehlerhaft sein oder falsch angewendet werden. Nichts ist gefährlicher, als der Meldung einer 

erfolgreichen Verifikation blind zu vertrauen. So führte z. B. ein Kunde eine Cross-Simulation 

zwischen einem c-Programm und einer funktionalen Verilog-Beschreibung durch und benutzte 

zum Vergleich den Operator „!=“. Da in der Verilog-Beschreibung ein Fehler enthalten war, der 

zu komplett undefinierten Ausgangssignalen führte, wurde kein Fehler gemeldet, denn in Verilog 

liefert beim Vergleich mit einem undefinierten Signal bizarrerweise keiner der Vergleichsoperatoren 

„==“ und „!=“ einen wahren Wert, stattdessen sind „===“ bzw. „!==“ zu verwenden. 

Grundsätzlich sollte bei allen Vergleichsmechanismen zur Kontrolle einmal ein künstlicher Fehler 

eingebaut werden, um zu prüfen, ob dieser bemerkt wird. 

Zuweilen können aber auch Unterschiede zwischen der HDL-Beschreibung und der Netzliste 

gemeldet werden, die rein simulationstechnisch bedingt sind. Dies gilt insbesondere für die 

Reset-Phase, solange noch nicht alle Signale initialisiert sind. Hier kann eine Logikfunktion, die 

unabhängig von einem (undefinierten) Eingangssignal sein sollte, als synthetisierte Schaltung 

undefinierte Werte liefern, obwohl alle relevanten Eingangssignale definiert sind. Ein Beispiel ist 

der Ausdruck 

(A xor B) xor B,



Lukas Bauer 

Dissertation 


Kapitel 4.4 

Seite 69 

der als Ansteuergleichung innerhalb einer synchronen Schaltung unabhängig von B stets den 

Wert A liefern sollte, der aber in der Simulation undefiniert wird, wenn B nicht initialisiert wurde 

(vgl. auch Abbildung 4-12). Ein anderes Beispiel ist ein Multiplexer, an dessen Dateneingängen 

identische Werte anliegen, dessen Steuereingänge aber undefiniert sind. Derartige simulationstechnische 

Probleme sollten gelöst werden, indem konsequent alle Flipflops innerhalb der Schaltung 

einen asynchronen Reset erhalten. Eine Überprüfung kann anhand der in der Netzliste 

verwendeten Flipflop-Typen oder anhand der bei der Synthese ausgegebenen Informationen 

erfolgen. 

Was die Timing-Vorgaben für die 

Synthese und die statische Timing- 

Analyse betrifft, muss zum einen 

geprüft werden, ob diese vollständig 

sind. Dies geschieht am besten, indem 

das Syntheseprogramm benutzt wird, 

um alle Pfade zwischen Flipflops bzw. 

von und zu den Ein- und Ausgängen 

des Chips anzuzeigen, die keine Constraints 

für minimale und maximale 

Laufzeit besitzen. Zum anderen muss 

die Korrektheit der vorgegebenen Werte sichergestellt werden, wofür sich eine Kontrolle durch 

einen unabhängigen Designer anbietet. 

Besondere Aufmerksamkeit gebührt dabei dem Timing der Ein- und Ausgangssignale, da dieses 

von Chip-externen Kapazitäten abhängig ist, die z. B. mit dem Ausbau von angeschlossenen 

Speicherbänken variieren können. Hier ist genau zu überlegen, welche Lastverteilung den jeweils 

ungünstigsten Fall darstellt. Optimal wäre es, wenn die Syntheseprogramme es in Zukunft unterstützen 

würden, bei Angabe von Kapazitätsbereichen automatisch eine Fallunterscheidung 

durchzuführen. Bis dahin müssen evtl. mehrere Timing-Analysen mit verschiedenen Kapazitätsverteilungen 

durchgeführt werden. 

Was die vollständige funktionale Überdeckung der Schaltungsfunktionen durch die Testmuster 

der Cross-Simulation angeht, kann eine Fehlersimulation dabei helfen, unter Verwendung 

der Testmuster aus der Cross-Simulation ungetestete Bereiche aufzudecken. Sie erlaubt aber 

nicht die Beantwortung der Frage, ob wirklich alle Funktionen getestet wurden. So ist z. B. leicht 

denkbar, dass in einer Zustandsmaschine zwar alle Flipflops des Zustandsregisters jeweils beide 

möglichen Werte im Laufe der Simulation annehmen, dass in ihrer Kombination aber trotz vollständiger 

Testüberdeckung ein bestimmter Zustand beim Test nie erreicht wird und daher die 

Abdeckung der Funktionalität nicht optimal ist. 

Bevorzugt sollten daher Programme eingesetzt werden, die auf HDL-Ebene analysieren, welche 

Zustände und Transitionen durchlaufen werden, um so eine bessere Aussage über die funktionale 

Überdeckung zu erhalten. Speedchart bietet derartige Funktionen in einfacher Form ebenfalls an. 

4.4.2.5 Verifikation des Layouts 

nReset 

clk 

D Q 

Abbildung 4-12: Beispielschaltung, in der Flipflop B mit synchronem 

Reset (NAND-Gatter) nur in der Simulation stets undefiniert 

bleibt 

Das Ergebnis der Layouterstellung ist üblicherweise eine Datei im GDSII-Format, deren vollständige 

Verifikation mittels automatischer Programme geschehen kann. Diese sollte die im Folgenden 

erläuterten Punkte umfassen: 

Beim Design Rule Check (DRC) wird überprüft, ob das Layout den Anforderungen des Halbleiterherstellers 

an Leiterbahnbreiten, -abstände und ähnliche Geometrien entspricht. Eine Verletzung 

könnte zu einer niedrigeren Ausbeute bei der Produktion oder zu Ausfällen im Betrieb des 

A 

a 

0 

0 

x 

x 

x 

B 

D Q 

x



Lukas Bauer 

Dissertation 


Kapitel 4.4 

Seite 70 

ASICs führen. Bei der Überprüfung der Geometrien sind die Grundalgorithmen seit vielen Jahren 

bekannt und in letzter Zeit nur um Funktionen zur hierarchischen Verifikation (vgl. 

Abschnitt 4.3.3) erweitert worden. Wenn ein Hersteller von Verifikationsprogrammen in diesen 

Algorithmen seine Kernkompetenz sieht, kann man auch damit rechnen, dass er alles für eine 

korrekte programmtechnische Umsetzung tun wird. Desgleichen ist davon auszugehen, dass die 

Halbleiterhersteller die Design Rule Files mit äußerster Sorgfalt erstellen. Das Risiko nicht 

detektierter DRC-Fehler erscheint daher gering, solange die an den Halbleiterhersteller abgegebene 

GDSII-Datei und nicht nur die interne Datenbasis des Layout-Programms verifiziert wird 

(vgl. Abschnitt 4.4.2.6). Es sollte aber beachtet werden, dass Halbleiterhersteller zur Optimierung 

der Ausbeute oder bei geringfügigen Prozessänderungen oft noch nachträglich die Design 

Rules anpassen, so dass vor Abschluss eines Projekts noch einmal kontrolliert werden sollte, ob 

die verwendeten Design Rules noch aktuell sind. 

Beim LVS (Layout Versus Schematic) werden aus den Layout-Geometrien die Transistoren 

sowie evtl. andere Bauelemente mit ihren Anschlüssen und Verbindungen extrahiert und die 

dabei entstehende Netzliste mit einer Spice-Netzliste des Schematics verglichen. Wie schon beim 

DRC können auch hier die eingesetzten Algorithmen und Programme als hinreichend erprobt 

angesehen werden. Allerdings sollte hier nicht nur sichergestellt werden, dass die Layout-Netzliste 

aus der tatsächlich abgegebenen GDSII-Datei extrahiert wird, sondern auch, dass die Spice- 

Netzliste aus einer Repräsentationsform der Schaltung generiert wurde, die gleichzeitig Grundlage 

einer Cross-Simulation war (vgl. Abschnitt 4.4.2.6). 

Auf einen Electrical Rules Check (ERC) wird oft zu Unrecht verzichtet, er kann jedoch z. B. 

offene Eingänge und Netze mit weniger als zwei Anschlüssen detektieren und so zum einen bei 

erfolgreichem LVS noch Rückschlüsse auf fehlerhafte Netzlisten ermöglichen, zum anderen können 

durch einen ERC vor dem LVS Trivialfehler in der Verdrahtung nach wesentlich kürzeren 

Programmlaufzeiten gefunden werden als beim vollständigen Vergleich mit dem Schematic. 

Ein Hersteller von Place-&-Route-Programmen, „Avant!“, wirbt für seine Programme mit der 

Aussage, die generierten Layouts seien aufgrund spezieller Algorithmen von vornherein frei von 

DRC- und LVS-Fehlern („Correct by Construction“). Hiervon sollte sich der Designer jedoch 

nicht blenden lassen. Jedes ernsthafte Place-&-Route-Programm dürfte mit der Intention 

geschrieben worden sein, dass fehlerfreie Layouts erzeugt werden, und falls dennoch Fehler im 

Layout auftreten, sind diese auf Programmierfehler zurückzuführen. Der Term „Correct by Construction“ 

ist damit nur ein Schlagwort, das die eher zweifelhafte Behauptung untermauern soll, 

die Software sei frei von Fehlern. 

Neben DRC, ERC und LVS sollte im Layout auch überprüft werden, ob die Leiterbahnbreiten, 

die beim DRC nur mit einer Minimalbreite verglichen werden, den Anforderungen aufgrund der 

maximal zulässigen Stromdichte genügen. Die erforderliche Breite ist dabei proportional zur 

Summe der Ströme, die durch den jeweiligen Leiterbahnabschnitt fließt. Kurzfristige Stromspitzen 

können bei dieser Betrachtung vernachlässigt werden, da die Ausbildung der zerstörend wirkenden 

Elektromigration vom durchschnittlichen Strom abhängig ist. In Signalnetzen ist in der 

Regel der Strom so gering, dass die Minimalbreite ausreicht, allerdings wurden hier auch Ausnahmen 

z. B. in hochkapazitiven Clock-Netzen mit Superbuffer und sogar im unzureichenden 

Layout einer solchen Buffer-Zelle selbst beobachtet. 

Für die Versorgungsspannungsnetze ergeben sich die Einzelströme jedes Gatters zu 

I = fs ⋅ CL ⋅ UB , wobei die Lastkapazität CL und die Betriebsspannung UB bekannt sind, die 

Schaltfrequenz fS des Gatters aber vom Aktivitätsgrad der Schaltung abhängig ist. Dieser kann 

nur grob abgeschätzt werden oder aufgrund einer Simulation durch speziell eingefügte Funktionen 

des Simulators ermittelt werden; deren Ergebnis ist aber auch nur eingeschränkt aussagekräf-



Lukas Bauer 

Dissertation 


Kapitel 4.4 

Seite 71 

tig, da im normalen Betrieb des ASICs völlig andere Bedingungen als im für die Simulation 

gewählten Fall auftreten können. 

So schwierig wie die genaue Abschätzung des Aktivitätsgrades und somit des jeweils fließenden 

Stromes ist auch die Überprüfung der Einhaltung der erforderlichen Leiterbahnbreite. Abschätzungen 

der diesbezüglichen Anforderungen können zwar im Place-&-Route-Programm gewonnen 

und beim Routing als Zielvorgaben berücksichtigt werden, die Verifikation der Einhaltung 

aber ist nicht allein anhand der zu prüfenden GDSII-Datei möglich, da die Informationen über 

die Erfordernisse in dieser nicht mehr enthalten sind. Wenn das Layout-Programm die eigenen 

Vorgaben an die Leiterbahnbreite aufgrund eines Programmfehlers nicht einhält oder sie falsch 

berechnet oder wenn bei manuellen Korrekturen versehentlich eine zu schmale Leiterbahnstelle 

entsteht, können solche Verletzungen der zulässigen Stromdichte nicht mehr erkannt werden. 

Eine zufrieden stellende automatische Lösung des Problems ist derzeit nicht bekannt, so dass nur 

eine optische Kontrolle der zum Glück meist sehr regelmäßigen Power-Verdrahtung möglich 

erscheint. 

Zur Verifikation des Post-Layout-Timings schließlich sollte für die Post-Layout-Simulation und 

die statische Timing-Analyse (vgl. Abschnitt 4.3.2) eine Extraktion parasitärer Kapazitäten 

und Widerstände (Parasitic Extraction) durchgeführt werden, wobei ein immer höherer Aufwand 

erforderlich wird, um die dominierenden Verzögerungszeiten durch die Metallisierung exakt zu 

berechnen. Da in Deep-Submikron-Technologien mit dem Gewicht der beschriebenen neuen 

Effekte wie Übersprechen und der erforderlichen dreidimensionalen Extraktion von Kapazitäten 

auch die Gefahr wächst, dass durch eine ungenaue Modellierung Timing-Verletzungen entstehen, 

ist dringend zu empfehlen, genug Reserve im Timing einzustellen, was bei Short Pathes erfahrungsgemäß 

nur einen geringen Overhead an Gattern aufgrund der einzufügenden Verzögerungselemente 

produziert. 

4.4.2.6 Verifikation an den Schnittstellen 

Wie in den vorigen Abschnitten ausgeführt wurde, ist ein direkter Vergleich der Spezifikation 

oder der HDL-Beschreibung mit dem Layout nicht durchführbar. An seine Stelle muss eine lükkenlose 

Kette einzelner Vergleichs- und Verifikationsschritte treten. Eine wesentliche Voraussetzung 

ist dabei, dass an allen Schnittstellen, an denen Daten von einem Programm zum nächsten 

oder zum Halbleiterhersteller übergeben werden, genau unterschieden wird zwischen der internen 

Datenbasis eines Programms und der Datei, über die die Daten ausgetauscht werden. Ein 

Beispiel soll verdeutlichen, welche Auswirkungen anderenfalls Fehler in den Export- und 

Importfunktionen der Programme haben können: Bei der Entwicklung eines Testbildgenerator- 

ASICs für Satelliten-TV-Empfänger [A-5] wurde als Netzliste für die Cross-Simulation eine 

Verilog-Netzliste verwendet, als Schnittstelle zum Place-&-Route-Programm aber eine Edif- 

Netzliste, da die Verilog-Importfunktion wegen fehlerhafter Libraries nicht korrekt arbeitete. 

Beide Netzlisten wurden vom Syntheseprogramm generiert und waren inhaltlich identisch, sie 

unterschieden sich jedoch in der Behandlung von konstanten Eingängen: In Verilog wurden die 

konstanten Netze von speziellen Zellen (logic1/logic0) getrieben, in Edif wurden die Netze lediglich 

speziell benannt (vdd!/gnd!). Die Verilog-Simulation arbeitete daher einwandfrei, beim Einlesen 

der Edif-Netzliste in das Place-&-Route-Programm hingegen entstanden lokale und somit 

offene Netze „vdd!“ und „gnd!“, obwohl beim Importieren ausgegeben wurde, es würden entsprechende 

globale Netze erzeugt. Das Ergebnis war ein nicht funktionsfähiges ASIC. 

Die Cross-Simulation sollte daher im Design Flow wesentlich weiter als nur bis zur internen 

Datenbasis des Syntheseprogramms reichen. Im Idealfall könnten aus der GDSII-Datei des Layouts 

eine Verilog-Netzliste und die parasitären Kapazitäten und Widerstände in Form einer sdf- 

Datei extrahiert werden, um somit die Cross-Simulation so weit wie möglich ausdehnen zu kön-



Lukas Bauer 

Dissertation 


Kapitel 4.4 

Seite 72 

nen. In der Praxis ist dies aber nur möglich, solange die Standardzellen im Layout als Hierarchiestufe 

erhalten bleiben, und bis heute scheitert eine solche Extraktion noch an den erforderlichen 

Programmen. Der letzte Ansatzpunkt einer Cross-Simulation ist derzeit die Datenbasis des Place- 

&-Route-Programms; eine Garantie für die Übereinstimmung der von dort exportierten Verilogund 

Spice-Netzliste gibt es im üblichen Design Flow aber nicht. 

Als Lösung dieses Problems wurden 

bereits in mehreren Projekten erfolgreich 

die Spice-Netzlisten aller Standardzellen, 

sofern nicht direkt 

verfügbar, aus der gesamten Netzliste 

des ASICs extrahiert, um in der wieder 

eingelesenen letzten Verilog-Netzliste 

die dort vorhandenen Standardzellen 

mit den Spice-Zellen unterlegen zu 

können. So entstanden aus den Verilog-Netzlisten 

Spice-Netzlisten für 

den LVS (Weg (2) in Abbildung 4-13), 

so dass sichergestellt war, dass die 

Cross-Simulation und der LVS auf 

Grundlage der identischen Schaltung 

durchgeführt wurden, ohne dass ein 

Risiko wegen unterschiedlicher 

Exportwege der Netzlisten bestanden 

hätte. 

Für die Verifikation des Layouts sollten 

DRC und LVS entsprechend auf 

Basis derjenigen GDSII-Datei durchgeführt 

werden, die an den Halbleiterhersteller 

abgegeben wird. Falls 

Verifikationsprogramme eingesetzt 

Spice (1) 

Netzliste 

Datenbasis 

P&R Progr. 

GDSII 

Layout 

Cross- 

Simulation 

Verilog 

Netzliste 

Spice (2) 

Netzliste 

Layout 

LVS (1) LVS (2) 

Netzliste 

Abbildung 4-13: Falls im Place-&-Route-Programm die interne 

(und als Verilog-Datei exportierte) Netzliste falsch in Layout und 

Spice-Netzliste umgesetzt wird, kann der Fehler trotz Cross- 

Simulation und LVS (1) unbemerkt bleiben. 

Alternativ sollte die Verilog-Netzliste mit Spice-Modellen der 

Standardzellen unterlegt werden und der LVS (2) auf der Basis 

der so entstehenden Spice-Netzliste durchgeführt werden. 

werden, die nicht auf GDSII-Daten, sondern nur auf einer internen Datenbasis eines Layout-Programms 

arbeiten können, reicht es nicht aus, dies vor der Erzeugung der GDSII-Datei zu tun. 

Stattdessen sollte die GDSII-Datei wieder in eine leere Library des Layout-Programms eingelesen 

werden, um dann diese zu verifizieren. Doch selbst hierbei trügt der Schein der absoluten 

Sicherheit. So wurde auf einem bei AMS gefertigten ASIC ein Logo als Zelle im Layout in 

einem von 1 verschiedenen Maßstab platziert. Das Wiedereinlesen der GDSII-Datei zeigte das 

Logo in seiner korrekten Größe, doch auf den Masken wurde es im Maßstab 1 einbelichtet, da die 

Software des Halbleiterherstellers skalierte Zellen in GDSII nicht unterstützte. Glücklicherweise 

resultierte hieraus keine Vergrößerung, sondern eine Verkleinerung, und da der Ursprung des 

Logos innerhalb von dessen Fläche lag, wurde es nicht verschoben. Anderenfalls hätte das in der 

Metallisierungsebene liegende Logo Kurzschlüsse produzieren können.



Lukas Bauer 

Dissertation 


4.4.2.7 Der Zeitplan des Designs als größter Feind der sorgfältigen Verifikation 

Kapitel 4.4 

Seite 73 

Die vorangegangenen Ausführungen zum Zeitplan einer ASIC-Entwicklung und zur erforderlichen 

Sorgfalt der Verifikation lassen sich in den folgenden Zusammenhang bringen, der eine prekäre 

Situation verdeutlicht: 

● Ein ASIC-Design darf nur 6 Monate beanspruchen. 

● Das ASIC muss daher im ersten Versuch fehlerfrei funktionieren. 

● Um dies zu erreichen, ist jeder Arbeitsschritt 100%ig zu verifizieren. 

● Eine 100%ige Verifikation dauert unendlich lange. 

Zur Erläuterung: Die Entwicklungszeit eines ASICs darf ca. sechs Monate nur unwesentlich 

überschreiben, da sonst die technische Entwicklung das geplante Produkt überholt und die 

Gefahr besteht, dass ein Konkurrent ein vergleichbares Produkt schneller fertigstellt und so einen 

erheblichen Wettbewerbsvorteil erhält. Ein Redesign eines ASICs einschließlich der erforderlichen 

vollständigen Fehleranalyse und der Fertigung der neuen Muster beansprucht aber etwa 

weitere zwei bis vier Monate, was den genannten Zeitrahmen sprengen würde. Daher sowie aufgrund 

der Kosten durch Marktverluste und Redesign muss ein ASIC „first time right“ funktionieren. 

Da Murphy’s Gesetz [51], demzufolge alles schiefgeht, was schiefgehen kann, sich im 

ASIC-Geschäft allzu oft bewahrheitet (bzw. hier, bedingt durch die extremen Komplexitäten, 

alles schiefgeht, was nicht kontrolliert und simuliert wird), kann die Funktionsfähigkeit aber nur 

gewährleistet werden, wenn alle Schritte der Entwicklung und Umsetzung 100%ig verifiziert 

werden. 

Teil einer wirklich 100%igen Verifikation müsste z. B. eine Extraktion parasitärer Kapazitäten 

zwischen jedem Leiterbahnabschnitt und jedem anderen Leiterbahnabschnitt sein, gefolgt von 

einer vollständigen Spice-Simulation von extremer Genauigkeit, die alle Betriebszustände 

abdeckt. Diese Verifikation ließe sich nur eingeschränkt parallelisieren und würde als Analogsimulation 

eines komplexen digitalen ASICs Millionen Jahre dauern, womit sich im Widerspruch 

zum ersten Punkt der Kreis schließt; eine wirtschaftliche ASIC-Entwicklung scheint bei perfekter 

Verifikation unmöglich und ohne diese ein Glücksspiel zu sein. 

Beim Aufwand für die Verifikation muss daher ein Kompromiss gefunden werden, um in überschaubarer 

Zeit alle wesentlichen Schritte des Designprozesses hinreichend genau abzudecken. 

Eine zu intensive Verifikation würde den zeitlichen Rahmen sprengen, im Fall unverrückbar 

zugesicherter Liefertermine des ASICs ergeben sich sogar (wie auch bei MPW-Runs) feste 

Abgabetermine, an denen evtl. zwangsweise mit etwas Mut zum Risiko das Design abgegeben 

werden muss, ohne dass alle geplanten Verifikationsschritte durchgeführt werden konnten. Es ist 

daher dringend zu empfehlen, von vornherein genug Zeit für die Verifikation einzuplanen und 

Probeläufe aller wichtigen Schritte durchzuführen, um die Gefahr unerwarteter Probleme zu 

minimieren und die Programmlaufzeiten zu ermitteln. 

Die bisherigen Ausführungen über die Verifikation sollten die ASIC-Designer unter den Lesern 

zumindest etwas dafür sensibilisiert haben, wo überall im Design Flow eine Verifikation erforderlich 

ist und wie diese erfolgen kann, an welchen Stellen hingegen die Hoffnung begründet sein 

kann, sich auf die Korrektheit fundamentaler Daten und Algorithmen verlassen zu können. Der 

Gewinner im „Glücksspiel ASIC-Design“ ist dabei der, der die Herausforderung der exponentiell 

wachsenden Komplexitäten annimmt und dem es aufgrund seiner Erfahrung zumindest in den 

meisten Fällen gelingt, ein ASIC im ersten Versuch fehlerfrei zu entwerfen.



Lukas Bauer 

5. Kapitel 

Dissertation 



5.1 Testkonzepte komplexer Systeme 

5.1.1 Strukturtests mit modifizierten Scan-Path-Verfahren 

Kapitel 5 

Seite 74 

Einen wesentlichen Aspekt beim Entwurf integrierter Schaltungen, auf den bisher nur kurz eingegangen 

wurde, stellt die Testbarkeit der Schaltung dar. Da produktionstechnisch bedingt stets 

Ausfälle von Teilbereichen eines ASICs, in der Regel Defekte einzelner Gatter, möglich sind und 

selbst ein Defekt eines einzelnen Gatters zu einer Fehlfunktion der Gesamtschaltung führen 

kann, ist ein möglichst vollständiger Produktionstest jedes gefertigten ICs unumgänglich. 

Ein reiner Funktionstest kann dabei heutzutage in angemessener Zeit nur noch einen Bruchteil 

aller Gatterfunktionen abdecken. Problematisch ist z. B. ein Test von Schnittstellen mit niedriger 

Datenrate oder die Verifikation von Zählern, die seltene Ereignisse zählen. Durch den gezielten 

Einbau von Teststrukturen an derartigen Stellen können beispielsweise Vorteiler von Zählern 

beim Test überbrückt werden, was einen beschleunigten funktionsnahen Test ermöglicht. Bei 

hochkomplexen Systemen ist der Arbeitsaufwand hierfür aber sehr hoch und der Effekt nicht ausreichend. 

Ein Produktionstest wird deshalb üblicherweise als reiner Strukturtest durchgeführt, bei dem 

ohne Bezug zur Normalfunktion der Schaltung versucht wird, die Funktion aller Einzelgatter zu 

prüfen. Zu diesem Zweck können, z. B. im Verlauf der Logiksynthese, automatisch Teststrukturen 

in die Schaltung eingebaut werden, die es erlauben, die interne Logik von außen zu kontrollieren 

und zu observieren. In der Regel geschieht das durch Einbau eines Scan Path, indem alle 

Flipflops der Schaltung in einem Testmodus zu Schieberegisterketten verschaltet werden. So 

können beliebige Werte seriell in alle Flipflops geschoben und so an die Eingänge der kombinatorischen 

Logikblöcke angelegt werden, und die Ausgangswerte der Logik können in die 

Flipflops übernommen, seriell herausgeschoben und an den Ausgängen der Schiebeketten mit 

Sollwerten verglichen werden. 

Das Verfahren erlaubt einen vollständigen Funktionstest aller Gatter, erfordert aber eine hohe 

Testzeit, da für jeden Nutztakt im Parallelbetrieb der Flipflops, in dem die Logik getestet wird, 

ein serieller Schiebevorgang erforderlich ist, dessen Taktanzahl von der Anzahl der Flipflops in 

der längsten Kette bestimmt wird. Zur Erzeugung der Testvektoren sollte sinnvollerweise ein 

automatischer Testpattern-Generator (ATPG) eingesetzt werden, um einen möglichst kurzen 

Satz von Eingangsvektoren zu ermitteln, mit denen die kombinatorische Logik zwischen den 

Registern optimal getestet werden kann. 

Falls kein ATPG-Programm zur Verfügung steht, können behelfsweise auf Kosten der Testüberdeckung 

Zufallswerte verwendet werden, um die Logik zu stimulieren. In diesem Fall hat sich 

gezeigt, dass sich durch eine modifizierte Vorgehensweise beim Scan Test ein deutlich besseres 

Verhältnis von Testzeit zu Testüberdeckung erreichen lässt. Dazu kann zum einen anstelle eines 

einzigen Paralleltaktes zwischen zwei Schiebevorgängen eine zufällige Anzahl von Paralleltakten 

durchgeführt werden, wobei die Ausgangsdaten der Logik als Ergebnis des ersten Taktes zu Eingangsdaten 

im nächsten Takt werden. Des weiteren hat es sich bewährt, nicht immer die kompletten 

Schieberegisterinhalte seriell herauszuschieben und durch neue Zufallsdaten zu ersetzen, 

sondern eine geringere, ebenfalls stochastisch variierte Anzahl von Schiebetakten durchzuführen,



Lukas Bauer 

Dissertation 


Kapitel 5.1 

Seite 75 

so dass Ausgangswerte in den Ketten verbleiben und nur etwas weiter transportiert werden. 

Beide Modifikationen sollten jedoch nicht übertrieben werden, da die Gefahr besteht, dass die 

statistische Verteilung der zum weiteren Test verwendeten Ausgangswerte deutlich schlechter 

wird, als dies bei reinen Zufallswerten beim normalen Scan-Test der Fall ist. Durch eine Variation 

beider Parameter konnte in der Praxis eine Verkürzung der Testzeit bei gleicher Testüberdeckung 

um Faktoren zwischen drei und zehn erzielt werden. 

Ein anderes Verfahren des Strukturtests mittels Zufallswerten basiert auf der Verwendung linear 

rückgekoppelter Schieberegister (Linear Feedback Shift Register, LFSR). Wird in ein Schieberegister 

eine XOR-Verknüpfung geeigneter Abgriffe aus der Kette zurückgekoppelt, kann dieses 

als Pseudo-Zufallszahlengenerator eingesetzt werden [29]. In einer anderen Betriebsart können 

zusätzlich Eingangswerte per XOR-Funktion eingebracht werden, womit das LFSR zum Signaturregister 

wird: Jede Änderung eines beliebigen Eingangswertes führt zu einer abweichenden 

Signatur. Es ist möglich, normale Flipflops mit einer umschaltbaren Logik zu umgeben, die wahlweise 

Betriebsarten als Zufallsgenerator, Signaturregister, Schieberegister oder als normale 

Flipflops erlaubt; man spricht vom BILBO (Built In Logic Block Observer). 

Ersetzt man in einer Schaltung alle Flipflops durch 

BILBOs, so kann die kombinatorische Logik zwischen 

ihnen automatisch mittels der generierten Zufallswerte 

stimuliert und gleichzeitig eine Signatur über die Ausgangswerte 

gebildet werden (Built In Self Test, 

BIST). Ein Auslesen der Signatur und ein Vergleich 

mit einem Sollwert liefern das Testergebnis. 

Der Vorteil des Verfahrens liegt in der erhöhten Testgeschwindigkeit, 

da serielle Schiebetakte im Gegensatz 

zum Scan-Test nur einmalig am Ende des Tests erfolgen 

müssen. Die Nachteile liegen im Mehraufwand an 

Scan path 

BILBO 

Teilnetzwerk 

BILBO 

Eingänge 

Ausgänge 

BILBO 

Teilnetzwerk 

BILBO 

Abbildung 5-1: Selbsttest mittels linear rückgekoppelter 

Schieberegister (nach [38]) 

Logik und darin, dass übliche Syntheseprogramme einen automatischen Einbau derartiger Teststrukturen 

nicht unterstützen. 

Eine interessante Variante des Tests mit BILBOs wurde bei der Entwicklung eines 3D-Grafikprozessors 

gewählt. Das ganz überwiegend aus Datenpfaden bestehende 1,3-Millionen-Gatter- 

Design [A-10] wurde vom Auftraggeber direkt in Verilog spezifiziert und sollte um Teststrukturen 

ergänzt und unter Einhaltung der Timing-Vorgaben in ein Layout umgesetzt werden. Die 

Datenpfade enthielten dabei vektorisierte Elemente wie Addierer, Multiplizierer und Multiplexer 

sowie Flipflops als Pipeline-Stufen. 

Der Einsatz eines Scan-Path-Verfahrens zum Test hätte bei diesem ASIC angesichts von über 

50.000 Flipflops und der Logiktiefe in den Datenpfaden wohl jeden automatischen Testpattern- 

Generator überfordert. Außerdem wäre das Verhältnis von Schiebetakten zu Nutztakten selbst bei 

Verwendung vieler paralleler Ketten sehr ungünstig ausgefallen. Alle Flipflops durch BILBOs zu 

ersetzen scheiterte hingegen an geeigneten automatischen Verfahren zum Einbau der BILBOs 

und hätte wegen der zusätzlichen Logik die sehr günstige matrixartige Anordnung der vektorisierten 

Elemente im Layout der Datenpfade stark beeinträchtigt. 

Es wurde daher ein eigenes Verfahren zum Test von Datenpfaden entwickelt, bei dem nur an den 

Ein- und Ausgängen eines großen Schaltungsblocks in der Größenordnung von 200.000 Gattern 

Generator- bzw. Signatur-BILBOs eingebaut wurden (vgl. Abbildung 5-2 rechts), während die 

Pipeline-Register innerhalb der Blöcke unverändert gelassen wurden. Die Schwierigkeit bestand 

lediglich darin, die Steuereingänge der Datenpfade während des Tests so zu schalten, dass sich 

auch im hinteren Teil der Pipeline noch eine gute Verteilung der Zufallswerte ergab.



Lukas Bauer 

Dissertation 


Kapitel 5.1 

Seite 76 

Durch dieses Verfahren konnte mit geringem Aufwand an Testlogik eine hohe Testüberdeckung 

erreicht werden, indem der Zufallstest entsprechend lange betrieben wurde. Da bei hohen Taktfrequenzen 

auch eine Million Takte für einen solchen Test durchaus vertretbar sind, sind dabei 

TCLK 

TMS 

TRST 

TDI 

MODEOUTDR 

MODEINDR 

User ID 

DATA0ENABLE 

DATA1ENABLE 

DATA2ENABLE 

Pattern of 

‘IDCODE’ 

Instruction 

Input 

Pads 

MODE 

SIN 

CLOCKDR 

BS Register 

IN(N-1:0) OUT(N-1:0) 

SHIFTDR 

SOUT 

UPDATEDR 

Data Register 

BILBO Data REG 1 

IN(N-1:0) 

RESET 

OUT(N-1:0) 

SIN 

SOUT 

EN 

CLOCKDR SHIFTDR UPDATEDR 

Data Register 

BILBO CTRL REG 

IN(N-1:0) 

RESET 

OUT(N-1:0) 

SIN 

SOUT 

EN 


Data Register 

RESET 

BILBO Signature Reg 1 

IN(N-1:0) OUT(N-1:0) 

SIN 

EN 

CLOCKDR 

CLOCKDR 

SHIFTDR 

UPDATEDR 

SOUT 

BYPASS Register 

SIN SOUT 

IN(31:0) 

SIN SOUT 

CLOCKDR 

ID Register 

SHIFTID 

CLOCKIR SHIFTIR UPDATEIR 

IN(N-1:0) OUT(N-1:0) 

SIN 

Scan In Register 

SHIFTBR 


TCLK RESET 

TMS 

TRST 

TAP Controller SEL 

ENABLE 

CLOCKIR SHIFTIR UPDATEIR 

Instruction Decoder 

Instruction Register 

SOUT 

Core Logic 

DATA0CAPTURE 



BS 

BYPASS 

ID 

CLOCKDR 

BS Register 

IN(N-1:0) OUT(N-1:0) 

RESET (EN pins only) 

C1 D(N-1:0) 

C2 Generator BILBO 

Q(N-1:0) 

Data Path Logic 

CLR D(N-1:0) 

Signature BILBO 

Q(N-1:0) 

UPDATEDR 

Abbildung 5-2: Blockschaltbild einer JTAG-Logik, die über ein serielles Interface und Schieberegister den Zugang 

zu Chip-internen Daten und die Kontrolle der I/O-Signale (oben) ermöglicht. Rechts ist der Test eines Datenpfades 

über Zufallsgeneratoren und Signaturregister dargestellt. 

MODE 

SIN 

MUX 

Scan Out Register 

n 

SHIFTDR 

0 

1 MUX 

MUX 

SOUT 

Output 

Pads 

TDO 

(c) 1997 Lukas Bauer



Lukas Bauer 

Dissertation 


Kapitel 5.1 

Seite 77 

nur der Aufwand der Testpatternerzeugung und die benötigte Tiefe des Patternspeichers im IC- 

Tester relevant. Bei beiden Parametern bietet das vorgestellte Verfahren Vorteile, da Testpattern 

nur zum Starten des Tests und zum Auslesen der Signaturen erforderlich sind, während die 

dazwischen liegende Testzeit beliebig gestreckt werden kann, ohne dass Änderungen der Eingangswerte 

oder Abfragen der Ausgänge erforderlich sind. 

Die korrekten Signaturen für den Ergebnisvergleich müssen dabei noch nicht einmal über eine 

Simulation generiert werden – diese würde auch extrem lange dauern – sondern können einfach 

am Tester ermittelt werden, indem mehrere ASICs getestet werden. Da unterschiedliche Fehler 

stets unterschiedliche Signaturen liefern und identische Fehler ausgeschlossen werden können, 

muss es sich bei der ersten Signatur, die bei zwei ASICs identisch ausgelesen wird, um den Sollwert 

handeln. 

Abbildung 5-2 zeigt neben den BILBO-Strukturen auch deren Ansteuerung über Datenregister, 

die entsprechend dem JTAG-Standard IEEE 1149.1 [27] über eine 5-Pin-Schnittstelle mit 

genormten Protokoll seriell von außen zugänglich sind. Über Boundary-Scan-Register, die zwischen 

den Pads und dem Core der Schaltung angeordnet sind, kann dabei sowohl der Core mit 

definierten Daten versorgt und seine Ausgangsleitungen abgefragt werden als auch die Peripherie 

des Chips getestet werden. 

Der serielle Zugang erlaubt so einen vollständigen Test des gesamten Core-Bereichs über diese 

fünf Leitungen, womit ein weiteres Problem gelöst werden kann: Eine Probe Card (Nadeladapter) 

zum Test des Grafikprozessors auf Wafer-Ebene hätte angesichts der enormen Anzahl von 

600 Pins weit über 100.000,- US-Dollar gekostet. Unter Verwendung des seriellen Interfaces hingegen 

kann ein Test von kleinen und mittleren Serien mit einer wesentlich preiswerteren Probe 

Card erfolgen, die nur über Versorgungsspannungsanschlüsse und über die fünf seriellen Leitungen 

verfügt. Die Pads der Schaltung können dann erst an den gehäusten Chips getestet werden. 

5.1.2 Software-Speichertests mit Ausmaskierung defekter Bereiche 

Ein besonderes Problem beim Test integrierter Schaltungen stellen Speicher dar. Die möglichen, 

verschiedenartigen Ausfallprinzipien und Kopplungseffekte zwischen benachbarten Zellen (vgl. 

Abschnitt 4.4.2.4 auf Seite 66) erfordern Speichertests nach speziellen Algorithmen wie z. B. 

dem March-C-Algorithmus [24], der auf einem mehrmaligen Schreiben und Lesen verschiedener 

Werte in wechselnder Richtung basiert. 

Zur Durchführung des Tests sind zwei Verfahren gängige Praxis: Zum einen kann in einem Testmodus 

ein externer Zugang auf Daten-, Adress- und Steuerleitungen der Speicher freigeschaltet 

werden, so dass der IC-Tester die Ansteuerung und den Ergebnisvergleich ausführen kann. Zum 

anderen kann eine BIST-Logik in das ASIC integriert werden, die über eine Zustandsmaschine 

die Eingänge der Speicher kontrolliert und die Ausgänge observiert, um nach dem automatischen 

Ablauf des Tests das Ergebnis zu melden. Beiden Verfahren gemeinsam ist die Notwendigkeit, 

zumindest Multiplexer in die Eingangsleitungen der Speicher einzufügen, um zwischen den 

Testsignalen und den normalen Eingangssignalen umschalten zu können. 

In einem System mit integrierter CPU hingegen ist ein weitaus einfacheres Verfahren denkbar: 

Die CPU kann einen Speichertest in Software durchführen und das Ergebnis über Datenoder 

I/O-Leitungen dem Tester melden. Dazu kann eine Testsoftware, die den Speicher z. B. nach 

dem March-C-Algorithmus testet, in einen kleinen Bereich des Chip-internen Speichers kopiert 

und dort ausgeführt werden, oder die Software läuft aus einem externen Speicher, dessen Ausgangsdaten 

in einer Simulation als Bestandteil der Testvektoren abgespeichert und beim Test 

vom IC-Tester angelegt werden. Die Vorteile eines Selbsttests (BIST) bleiben bei diesem Verfah-



Lukas Bauer 

Dissertation 


Kapitel 5.1 

Seite 78 

ren größtenteils erhalten, ohne dass zusätzliche Logik eingebaut werden muss. Auch die bei 

anderen Testverfahren erforderlichen Multiplexer in den Eingangsleitungen der Speicher können 

entfallen, was sogar das Timing der Schaltung verbessert. Die Testzeit hingegen wird zunehmen, 

da die Programmabarbeitung durch die CPU langsamer erfolgt als ein Hardware-Algorithmus. 

Naturgemäß ist das geschilderte Verfahren auf Speicher beschränkt, die direkt von der CPU aus 

gelesen und beschrieben werden können. Andere Speicher, z. B. FIFOs in Schnittstellenmodulen, 

sollten nach klassischen Verfahren getestet werden. 

Eine interessante Variante von Software- 

Speichertests wurde für den Nachtest von 

ASICs verwendet, deren Speicher aufgrund 

der in Abschnitt 4.4.1 unten geschilderten 

Probleme nicht getestet worden war. Da 

kein Testhaus gefunden werden konnte, das 

über einen Tester mit 160 Pins und den 

erforderlichen Testpatternspeicher von 

256.000 Vektoren verfügte, hat der Verfasser 

eine eigene Testhardware konstruiert, 

um den Nachtest der ASICs durchzuführen. 

Dazu wurde an den externen Speicherbus 

des ASICs auf einer kleinen Platine 

(vgl. Abbildung 5-3) ein Flash-Speicher 

angeschlossen, in dem ein Speichertestprogramm 

untergebracht wurde. Das Programm 

wurde beim Anlegen der 

Versorgungsspannung – dies geschah über 

Abbildung 5-3: Autonome Testhardware zum Speichertest 

von ASICs. Ein in einem Flash untergebrachtes Testprogramm 

wird von der integrierten CPU ausgeführt und meldet 

über eine grüne oder rote Leuchtdiode das Testergebnis. 

einen Taster – automatisch ausgeführt und meldete ca. 0,3 Sekunden später das Testergebnis 

durch Ansteuerung einer grünen oder roten Leuchtdiode. Das Testproblem konnte so auf einen 

autonomen, manuellen Test zurückgeführt werden, für den kein IC-Tester im Millionen-DM- 

Bereich erforderlich war, sondern eine äußerst preiswerte Testplatine. 

Doch die Möglichkeiten des Speichertests durch die integrierte CPU reichen noch wesentlich 

weiter. Ein System, das seinen Speicher selbst prüfen kann, kann sich im Fehlerfall abschalten 

und so in sicherheitsrelevanten Anwendungen Schäden vermeiden. Darüber hinaus ist es sogar 

möglich, fehlertolerante Systeme zu konstruieren, die ihren Speicher selbsttätig umkonfigurieren 

können, um defekte Speicherbereiche auszumaskieren. Dies soll im Folgenden ausführlich 

erläutert werden. 

Defekte in Speichern betreffen in der Regel nur einzelne Speicherzellen, wesentlich seltener auch 

einzelne Reihen oder Spalten. Ein Speicher wird daher in den meisten Fällen „größtenteils fehlerfrei“ 

sein. Während in einem Festplattenlaufwerk defekte Sektoren auf der Platte markiert und 

vom Controller übersprungen werden können, so dass der größte Teil der Platte ohne weiteres 

verwendet werden kann, besteht in den meisten Computersystemen die Notwendigkeit eines 

zusammenhängenden, fehlerfreien Speicherraums. Dies gilt insbesondere für den Programmspeicher, 

da es technisch nicht durchführbar ist, für jede Anordnung von Defekt-bedingten Lücken im 

Speicher eigene Programmversionen zu compilieren, die die jeweiligen Lücken auslassen. 

Um einen zusammenhängenden, defektfreien Speicher zu erzeugen, ist es bei großen Speichern 

bereits üblich, die Speichermatrix um einige Reihen und/oder Spalten zu erweitern, die als Ersatz 

für defekte Speicherteile an den jeweiligen Reihen- oder Spaltenadressen in die Matrix eingeblendet 

werden. Hierzu werden beim Produktionstest die Positionen aller defekten Speicherzel-



Lukas Bauer 

Dissertation 


Kapitel 5.1 

Seite 79 

len bestimmt und daraus errechnet, welche Reihen und Spalten der Matrix durch redundante zu 

ersetzen sind. Die betroffenen Reihen- oder Spaltenadressen werden dazu in einem einmal programmierbaren, 

nichtflüchtigen Speicher (in Fuse-Technologie) abgelegt. Im Betrieb werden bei 

erfolgreichem Vergleich mit der anliegenden Adresse anstelle der Matrix die redundanten Reihen 

bzw. Spalten angesprochen. 

Dieses Prinzip erlaubt zwar eine Reparatur des Speichers während des Produktionstests, nicht 

aber eine Reparatur von Speicherbereichen, die erst während des Betriebes ausfallen. Dies ist 

aber insbesondere bei Flash-Speichern aufgrund ihrer limitierten Anzahl von Schreibzyken interessant. 

Außerdem ist der ASIC-Designer auf die Verfügbarkeit entsprechender Speicherblöcke 

mit Reparaturmöglichkeit in der verwendeten ASIC-Technologie angewiesen; er kann derartige 

Strukturen nicht selbst hinzufügen. 

Ein Verfahren, das auch zur Laufzeit eine Reparatur von Speicherdefekten erlaubt, soll 

hier vorgestellt werden. Es wurde konzipiert, um in einem modernen SoC unter Verwendung herkömmlicher 

Speichermakros eine höhere Ausbeute und eine längere Lebensdauer des Produkts 

erzielen zu können. 

Das neu entwickelte Verfahren basiert 

auf einer Abbildung von logischen 

Adressen auf physikalische Adressen, 

bei der entsprechend Abbildung 5-4 

defekte Bereiche übersprungen werden, 

so dass ein einfach zusammenhängender 

logischer Adressraum entsteht, der 

frei von Defekten ist. Je nach Anzahl 

der zu erwartenden Fehler ist der entstehende 

Speicherbereich geringfügig 

kleiner als der physikalische Speicher. 

Der Verlust kann fest oder variabel 

gehalten werden, liegt typischerweise 

im Bereich von 1% der Gesamtgröße 

und kann bei der Programmierung des 

SoCs berücksichtigt werden. 

Realisiert wird die Abbildung (mapping) 

über ein kleines RAM, welches 

gemäß Abbildung 5-5 logische Adressen 

auf physikalische Adressen 

umsetzt. Hierbei wird auf Basis von 

Sektoradressen gearbeitet, um dem 

Umstand gerecht zu werden, dass in 

einem Flash nur ganze Sektoren (hier: 

256 Worte) gelöscht werden können. 

Die sektorweise Abbildung erlaubt darüber 

hinaus die Verwendung eines kleinen, 

sehr schnellen RAMs zur 

Adressumsetzung. 

physikalischer Adressraum 

Abbildung 

zusammenhängender 

logischer Adressraum 

ohne Defekte 

Abbildung 5-4: Ein zusammenhängender Speicherbereich 

ergibt sich durch ein Ausmaskieren schadhafter Speicherstellen. 

logische 

Sektoradresse 

physikalische 

Sektoradresse 

mapping 

RAM 

1024x10 

A[17:8] 

Flash 256k*16 

1024 Sektoren 

zu 256x16 

D[15:0] 

Abbildung 5-5: Die variable Umordnung der Adressen kann 

über ein Mapping-RAM realisiert werden. 

Wenn das Verfahren zur Fehlermaskierung in RAMs eingesetzt wird, kann bei jedem Systemstart 

ein Speichertest und die Berechnung der Umsetzungstabelle durchgeführt werden. Wird es auf 

ein Flash angewendet, sollte der Inhalt des Mapping-RAMs parallel auch im Flash abgelegt und 

beim Systemstart in dieses RAM kopiert werden, da anderenfalls notwendige Informationen über 

A[7:0]



Lukas Bauer 

Dissertation 


Kapitel 5.1 

Seite 80 

den Zusammenhang von Teilen des Programmspeichers bei einem Spannungsausfall verloren 

gehen. Diesen Kopiervorgang kann die CPU ebenso wie die Berechnungen der Tabellen selbst 

ausführen. 

Das bis hierher vorgestellte Konzept ist bereits gut auf den Flash-Programmspeicher in einem 

SoC anwendbar. In dem SoC, für welches das Konzept entwickelt wurde, gab es allerdings noch 

zusätzliche Performance-Anforderungen an den Flash-Datenspeicher. Dieser sollte zum Teil als 

„Silicon Disk“ eingesetzt werden. Da die Programmierung eines Flashs äußerst langsam erfolgt – 

die Schreibzeit pro Wort lag bei 40μs, die Lesezugriffszeit bei 40ns – sollte aus Performancegründen 

ein Cache-System zum Beschreiben des Flashs konstruiert werden. Außerdem musste 

das Problem von zur Laufzeit entstehenden Defekten berücksichtigt werden, da einige Bereiche, 

insbesondere die FAT (file allocation table), sehr oft beschrieben werden sollten. 

Ein geeignetes Systemkonzept ist in 

Abbildung 5-6 dargestellt. Es basiert im 

wesentlichen auf zwei kleinen RAMs, 

die als Sektor-Cache eingesetzt werden. 

Beim Schreiben eines Sektors im Flash 

werden die Daten zunächst in einem der 

Cache-RAMs zwischengespeichert. 

Dieser Schreibvorgang kann mit minimaler 

Zugriffszeit erfolgen. 

Parallel dazu kann im Hintergrund der 

Inhalt eines anderen Sektors aus dem 

zweiten Cache in das Flash programmiert 

werden. Ein Controller verifiziert 

nach der Programmierung jedes Sektors 

dessen Inhalt, um im Fehlerfall gegebenenfalls 

das mapping-RAM umzukonfigurieren, 

den defekten Sektor so durch 

einen neuen zu ersetzen und die noch 

im Cache gespeicherten Daten in einen fehlerfreien Ersatzbereich zu schreiben. Ein Vergleich der 

Schreib- und Lesezeiten auf das Flash ergibt, dass die Verifikation der programmierten Daten die 

Gesamtschreibzeit nur um ca. 0,1% verlängert. 

Die Vor- und Nachteile des Verfahrens sollen im Folgenden zusammengefasst werden: 

Vorteile: 

mapping 

RAM 

1024x10 

A[17:8] 

Flash 256k*16 

1024 Sektoren 

zu 256x16 

D[15:0] 

Abbildung 5-6: Cache-System zum beschleunigten Schreiben 

von Flash-Sektoren mit Schreibverifikation und Ausmaskierung 

defekter Sektoren zur Laufzeit 

● Es ist möglich, Defekte zu Beginn und während der Laufzeit zu erkennen und zu reparieren 

und so die Ausbeute und Lebensdauer des SoCs erheblich zu steigern. 

● Auf einen kostenintensiven Burn-In kann daher verzichtet werden. 

● Auch beim Produktionstest kann teure Zeit am IC-Tester gespart werden, da der Endtest 

des Speichers im System erfolgt. 

● Es entsteht ein zusammenhängender Speicherbereich, ohne dass die Software defekte 

Sektoren verwalten muss. 

● Die Performance bei Schreibzugriffen auf das Flash wird stark erhöht (bis Faktor 1000 

beim Schreiben eines einzelnen Sektors), und die CPU wird entlastet. 

● Das Prinzip ist auch auf Speicher ohne integriertes Redundanzkonzept anwendbar und 

erfordert keine Fuse-Technologie zur Speicherung der Mapping-Daten. 

A[7:0] 

Sektor- 

Cache 

256x16 

Controller 

Sektor- 

Cache 

256x16 

D[15:0]

Nachteile: 



Lukas Bauer 

Dissertation 


Kapitel 5.1 

Seite 81 

● Der entstehende Speicherbereich ist geringfügig (1%) kleiner als die Speichermakros. 

Ein nutzbarer Speicherbereich von genau 2 n Bit lässt sich nicht erzielen. 

● Die Zugriffszeit auf den Speicher wird vergrößert: 

bei Flash um ca. 2,5% (40ns Flash-Zugriffszeit, 1ns Zugriffszeit des mapping-RAMs), 

bei RAM um ca. 25% (4ns RAM-Zugriffszeit, 1ns Zugriffszeit des mapping-RAMs). 

● Es werden zusätzliche Logik und drei kleine RAMs benötigt, was im konzipierten 

System ca. 1% der Speicherfläche ausmachte. 

Das Überwiegen der Vorteile und die stark zunehmende Häufigkeit von SoC-Integrationen sprechen 

dafür, dass sich solche und ähnliche Verfahren der Selbstreparatur von Speichern bei hochkomplexen 

ASICs immer mehr durchsetzen werden. 

5.1.3 Selbsttest und digitale Kalibrierung von Analogfunktionen 

Neben Speichern erfordern auch alle analogen Schaltungsteile eine Sonderbehandlung beim Produktionstest. 

In diesem Abschnitt soll auf die Kombination hochkomplexer SoCs mit Analogfunktionen 

eingegangen werden, die einerseits besondere Probleme mit sich bringt, in der sich 

aber gleichzeitig auch Chancen für neue Test- und Kalibrierungsverfahren ergeben. 

Die Testproblematik von SoCs mit Analogfunktionen ergibt sich dabei nicht, wie man vermuten 

könnte, aus einer gesteigerten Komplexität der analogen Funktionsblöcke. Diese ist durch die 

Anzahl der ohne Schwingneigungen schachtelbaren Rückkopplungen sowie durch den Signal- 

Rausch-Abstand bei sequentiell aneinandergefügten Schaltungsteilen begrenzt und hat in den 

vergangenen Jahren kaum noch zugenommen. In Kombinationen mit digitalen Schaltungsteilen 

ist die Komplexität der Analogfunktionen sogar rückläufig, da der Trend immer mehr dahin geht, 

Analogsignale sofort bzw. nach einer Vorverstärkung und Filterung in digitale Größen zu wandeln 

und diese rein digital weiterzuverarbeiten („The world is going digital“). 

Die typischen, in SoCs verbleibenden analogen Funktionsblöcke sind daher A/D- und D/A- 

Wandler, Vorverstärker, analoge Filter, Spannungswandler, Referenzspannungsquellen sowie die 

physikalischen Interfaces von Schnittstellen, welche Leitungstreiber, Empfangsverstärker und 

Komparatoren enthalten. Zusätzlich werden analoge PLLs eingesetzt, um rein digitale Taktsignale 

zu vervielfachen oder ihre Phasenlage zu beeinflussen. 

Obwohl derartige Blöcke oft recht einfach modular zusammengeschaltet werden können und 

separat testbar sein sollten, stellen sie beim Produktionstest eines SoCs insofern ein Problem dar, 

als bei gängigen IC-Testern heutzutage noch eine Einteilung in zwei Gruppen zu beobachten ist: 

Ein typischer Tester verfügt entweder über eine hohe Anzahl digitaler I/Os und einen tiefen Patternspeicher, 

was ihn zum optimalen Digitaltester für SoCs macht, oder über präzise analoge 

Messkanäle. Eine Kombination beider Eigenschaften sollte bei modular aufgebauten IC-Testern 

zwar ohne weiteres möglich sein, ist aber in der Praxis noch zu selten anzutreffen. 

In vielen der Fälle, in denen der IC-Tester nicht die nötige Präzision bietet, um die Analogfunktionen 

zu testen, oder keine ausreichenden Analysefunktionen beherrscht, um die Qualität der 

analogen Module angemessen bewerten zu können, kann die in einem SoC integrierte CPU eingesetzt 

werden, um diese Aufgaben zu unterstützen oder sogar weitgehend unabhängig vom 

Tester einen autonomen Selbsttest der Analogfunktionen durchzuführen.



Lukas Bauer 

Dissertation 


Kapitel 5.1 

Seite 82 

Eine notwendige Bedingung für den Test analoger Schaltungsteile ist trivialerweise ein Zugang 

zu allen wesentlichen Anschlüssen dieser Module. Typischerweise sind z. B. bei A/D- und D/A- 

Wandlern die analogen Ein- bzw. Ausgänge von außen zugänglich, während die digitalen Ausund 

Eingänge im ASIC von der CPU aus observiert bzw. kontrolliert werden können. Im Falle 

eines Tests vom IC-Tester aus bedeutet dies, dass diese digitalen Busse in einem Testmodus nach 

außen geführt werden müssen. 

Bei einem Selbsttest durch die CPU kann auf den Einbau dieser Testlogik verzichtet werden. 

Stattdessen muss für die CPU eine Möglichkeit geschaffen werden, Analogsignale präzise zu 

messen oder zu generieren, um das geschilderte Problem zu umgehen, dass typische digitale IC- 

Tester dies nur selten beherrschen. Im Umfeld des zu testenden ASICs müssen daher hochpräzise 

Wandler und Spannungsreferenzen untergebracht werden, mit denen die ASIC-internen Analogblöcke 

vermessen werden können. 

Bei einem IC-Tester bietet sich hierfür das Load Board an. Diese Platine stellt einen Adapter zwischen 

IC-Tester und ASIC dar, wird von unten mit Nadeln vom Tester kontaktiert und ist auf der 

Oberseite mit einem Testsockel zur Aufnahme der ASICs bestückt. Insbesondere beim Test von 

Mixed-Signal-ASICs wird oft ein individuelles Load Board für jedes zu testende Produkt entwikkelt. 

Es ist dabei ohne weiteres möglich, die benötigten Wandler und Referenzen im Umfeld des 

Testsockels unterzubringen. 

Dabei sind zwei Konzepte denkbar: Zum einen kann der Tester die Digitalseite der externen 

Wandler kontrollieren bzw. observieren. Auf diese Weise wird aus einem reinen Digitaltester ein 

Mixed-Signal-Tester mit speziell auf das ASIC zugeschnittenen Analogfunktionen; die im ASIC 

integrierte CPU wird dabei nur in geringem Maße zur Unterstützung des Tests eingesetzt. Zum 

anderen kann aber auch das ASIC über externe Datenbusse oder I/O-Leitungen die externen 

Wandler ansprechen. Dieses Konzept erlaubt einen vollständigen Selbsttest der analogen Schaltungsteile 

vom ASIC aus. 

Ein solcher Selbsttest 

ist dabei auch völlig 

autonom ohne Einsatz 

eines IC- 

Testers möglich. So 

zeigt Abbildung 5-7 

eine Testplatine, die 

für den Test von 

Modulen zur Leistungsmessung 

von 

M. Gatzmann entwickelt 

wurde. Die 

BGA-Module wurden 

unter Verwendung 

eines analogen 

und eines digitalen 

Chips [A-13], [A-14] 

assembliert, die 

zuvor separat am IC- 

Abbildung 5-7: Testplatine für den autonomen Selbsttest eines Multichip-Mixed- 

Signal-BGA-Moduls 

Tester getestet wurden. Ein detaillierter Endtest der Analogfunktionen erfolgte jedoch erst auf 

Modulebene, um die Intelligenz des Digitalchips mit integrierter ARM7-RISC-CPU für die Qualifizierung 

der analogen Komponenten im anderen Chip nutzen zu können. Dazu wurde, ähnlich 

wie bei der im letzten Abschnitt vorgestellten Testplatine, ein Testprogramm entwickelt, in Flash-



Lukas Bauer 

Dissertation 


Kapitel 5.1 

Seite 83 

Bausteine gebrannt und beim Test von der integrierten CPU ausgeführt. Allerdings führt der Analog-Selbsttest 

in diesem Fall noch wesentlich weiter als der zuvor beschriebene Speichertest: Es 

werden von der CPU aus die Kennlinien von A/D- und D/A-Wandlern durchfahren, um durch 

Anwendung mathematischer Algorithmen aus den Messergebnissen präzise Aussagen zu Steigung, 

Offset, Stetigkeit und Nichtlinearitäten der Wandler zu gewinnen. Dabei wird der interne 

A/D-Wandler qualifiziert, indem ein auf der Testplatine befindlicher, hochpräziser D/A-Wandler 

von der CPU aus als Signalgenerator angesteuert wird, während die internen 10-Bit-D/A-Wandler 

vom internen 12-Bit-A/D-Wandler aus vermessen werden. Hierzu werden auf der Testplatine 

externe Verbindungen von Analogausgängen zu Analogeingängen geschaltet. 

Nach Ausführung der Tests übermittelt die CPU über eine im Digitalchip integrierte serielle 

Schnittstelle die detaillierten Messergebnisse zu einem PC, wo sogar die Kennlinienkurven grafisch 

dargestellt werden können. 

Es ist allerdings anzumerken, dass derartige Testverfahren den Test am IC-Tester nicht vollkommen 

ersetzen können. Verschiedene Parameter wie z. B. die Eingangs-Leckströme, die Stromaufnahme 

der Versorgungsspannung etc. sollten weiterhin von einem IC-Tester kontrolliert werden. 

Hierzu ist aber auch ein reiner Digitaltester in der Lage, so dass die vorgestellten Verfahren die 

Testkosten enorm reduzieren können. Dabei sind vielfältige Kombinationsmöglichkeiten von 

Testverfahren denkbar, die vom IC-Tester, von der CPU oder interaktiv unter Verwendung beider 

Systeme ausgeführt werden. So können z. B. die genannten elektrischen Parameter und die digitale 

Logik zunächst vom Tester geprüft werden, der daraufhin ein Programm zur Durchführung 

von Analogtests in den Speicher des SoCs überträgt und dieses startet, um dann auf eine Rückmeldung 

des Ergebnisses zu warten. Während der Testzeit des Analogteils kann der Tester evtl. 

noch interaktiv Signale anlegen oder messen. Dabei ist die komplexe Auswertung der Ergebnisse 

über eine integrierte CPU oft sogar einfacher auszuführen als unter Benutzung eines 

Digitaltesters, dessen Fähigkeiten in der Regel auf einen reinen Parameter- und Patternvergleich 

beschränkt sind. 

Die Möglichkeiten der Generierung und Messung von Analogsignalen sind bei Verwendung von 

externen A/D- und D/A-Wandlern durch deren Präzision und insbesondere durch ihr zeitliches 

Auflösungsvermögen beschränkt. Daher eignen sich die bisher beschriebenen Verfahren primär 

für alle statischen und niederfrequenten Messungen. Falls in einem SoC in geringem Umfang 

auch hochfrequente Parameter wie z. B. die Flankensteilheit von Ausgangssignalen gemessen 

werden sollen, reicht die Abtastfrequenz der externen Wandler hierfür oft nicht aus. In diesem 

Fall ist es jedoch denkbar, spezialisierte Messgeräte zu verwenden, die in der Lage sind, die Messergebnisse 

digital auszugeben. So verfügen moderne Geräte von Hewlett-Packard über eine 

IEEE-488-Schnittstelle, die eine Steuerung und Messwertabfrage erlaubt. Sie werden üblicherweise 

in Kombinationen mit IC-Testern eingesetzt, können im Falle eines CPU-basierten Tests 

aber durchaus auch von der CPU in einem SoC angesteuert werden. 

Mit den soeben dargestellten Verfahren kann das Problem des Tests und der Qualifizierung von 

Analogfunktionen in komplexen SoCs gelöst werden. Ein weiteres Problem ergibt sich jedoch 

aus der Kombination digitaler und analoger Schaltungsteile in der gleichen Technologie. 

Wenn die Komplexität des Digitalteils aus wirtschaftlichen Gründen die Integration in einer 

Deep-Submicron-Technologie mit hoher Gatterdichte erfordert, ist das mit Einschränkungen, 

Mehraufwendungen und neuen Risiken im Analogteil verbunden. 

Reine Analogchips oder Mixed-Signal-Designs mit geringer Komplexität des Digitalteils werden 

zumeist in Technologien im Bereich von 0,8μm gefertigt. Diese sind schon so lange verfügbar, 

dass oft bereits eine Vielzahl von qualifizierten Analog-Macros zur Verfügung steht, die in eini-



Lukas Bauer 

Dissertation 


Kapitel 5.1 

Seite 84 

gen Anwendungen einen Schaltungsentwurf nach dem Baukastenprinzip erlauben. Bei der Entwicklung 

dieser Macros ist eine erhebliche Design-Kapazität investiert worden, und viele der 

Module wurden in mehreren Iterationen, also mit Redesigns, entwickelt. Dies gilt insbesondere 

für Module, deren Eigenschaften von schlecht modellierbaren Technologieparametern abhängen; 

ein Standardbeispiel ist eine Referenzspannungsquelle (Bandgap), bei der allein durch Simulationen 

kaum im ersten Versuch die gewünschten Eigenschaften erzielt werden können. 

Eine solche iterative Vorgehensweise ist in den älteren Technologien auch noch ohne weiteres 

tolerierbar. Bei neu entwickelten Schaltungsteilen mit kritischen Parametern kann sogar zu 

Beginn der Entwicklung ein eigener Technologiedurchlauf zur Fertigung dieser Module, z. B. als 

kostensparender MPW-Run, in Auftrag gegeben werden, um bis zur Abgabe des Gesamtchips die 

kritischen Schaltungsteile vermessen und ggf. korrigieren zu können. 

Wenn hingegen eine hochmoderne Deep-Submicron-Technologie zur Realisierung eines SoCs 

gewählt wurde, stehen in aller Regel noch kaum Analog-Macros zur Verfügung, da die Halbleiterhersteller 

sich zunächst auf die Erstellung der digitalen Standardzellbibliotheken konzentrieren 

und die aufwändigen Analog-Entwicklungen – wenn überhaupt – erst deutlich später 

durchführen. Der ASIC-Designer ist daher oft gezwungen, die analogen Schaltungsblöcke als 

Full-custom-Designs selbst zu entwickeln. Gleichzeitig ist ihm die Möglichkeit einer iterativen 

Vorgehensweise aufgrund der extrem hohen NRE-Kosten verwehrt. Dies bedeutet neben dem 

stark vermehrten Entwicklungsaufwand auch ein hohes Risiko bei der Kombination von SoCs 

mit Analogfunktionen. 

Gleichzeitig ergeben sich in Deep-Submicron-Technologien neue technologisch bedingte Probleme 

im Analogbereich. Zum einen handelt es sich fast ausnahmslos um reine CMOS-Prozesse, 

so dass Bipolar-Transistoren nur in parasitärer Form mit ungünstigen elektrischen Eigenschaften 

zur Verfügung stehen. Dies erschwert beispielsweise die Konstruktion einer präzisen Bandgap- 

Referenz zusätzlich. Zum anderen wird in Deep-Submicron-Prozessen bei der Technologiesteuerung 

vorrangig nur auf die Geschwindigkeit der digitalen Logik geachtet, während die hierfür 

unbedeutenden Parameter evtl. nicht exakt justiert werden. Diese können aber für die Arbeitspunkte 

und Parameter der Analogblöcke durchaus relevant sein. Auch die schlecht zu modellierende 

Substratsteuerung der Transistoren hat in modernen Prozessen wegen der geringen 

Schwellspannung einen zunehmenden Einfluss auf die Arbeitspunkte der Analogmodule. All 

dies erfordert wiederum einen höheren Entwicklungsaufwand, um eine ausreichende Toleranz 

gegenüber Parameterstreuungen zu erzielen. 

Weitere Probleme ergeben sich aus den in Deep-Submicron-Technologien stark reduzierten 

Versorgungsspannungen (vgl. Abbildung 3-11 auf Seite 18). Auch wenn im Analogteil wie im 

I/O-Bereich durch spezielle Technologieschritte dickere Oxide erzeugt werden können, die etwas 

höhere Spannungen als im Digitalteil zulassen, so ist doch mit einer starken Reduktion der Versorgungsspannung 

von 5V auf ca. 1,5V bis 2V zu rechnen. Dies erfordert zum Teil andere Schaltungsprinzipien, 

da z. B. eine Kaskadierung von Transistoren nur noch eingeschränkt möglich ist. 

Gleichzeitig muss die Amplitude der Analogsignale so groß wie möglich gehalten werden, um 

trotz der allgegenwärtigen Störeinstreuungen vom Digitalteil einen akzeptablen Signal-Rausch- 

Abstand und im Bereich der analogen I/Os geeignete Pegel zu erzielen. Der große Signalhub 

führt dabei zwangsläufig zu Nichtlinearitäten, insbesondere dann, wenn mit Rail-to-Rail-Verstärkern 

gearbeitet werden muss. 

Die resultierende Anforderung, trotz deutlich ungünstigerer technologischer Bedingungen und 

meist ohne Zugriffsmöglichkeit auf fertige Analog-Macros in Deep-Submicron-Technologien 

analoge Schaltungsblöcke „first time right“ entwickeln zu müssen, lässt sich mit konventionellen 

Designmethoden kaum noch erfüllen. Da die zu erwartenden Fehler im Analogbereich aber nur 

selten prinzipielle Fehler sind, sondern oft „nur“ Abweichungen von geforderten Parametern wie



Lukas Bauer 

Dissertation 


Kapitel 5.1 

Seite 85 

Offsets, Verstärkungsfehler, Nichtlinearitäten etc. darstellen, ist es in vielen Fällen möglich, derartige 

Unzulänglichkeiten durch Kalibrierverfahren auszugleichen, was hier ausführlich 

beschrieben werden soll. 

Während eine solche Kalibrierung früher oft über einen Laser-Abgleich von Widerständen 

erfolgte, stehen heute Technologien zur Verfügung, in denen ein rein elektronischer Abgleich 

problemlos möglich ist. Eine zentrale Rolle spielen dabei MOSFETs, die als Schalter eingesetzt 

werden und an kritischen Stellen Schaltungsparameter justieren. So können z. B. zu Transistoren, 

die als Stromquelle (Stromspiegel) dienen, weitere, kleinere Transistoren bei Bedarf parallel 

geschaltet werden, um den Stromwert zu ändern; oder zu Widerständen können entsprechend 

weitere parallel geschaltet werden, um den Leitwert zu beeinflussen. 

Die Ansteuerung der Schalter, 

die diese Parallelzweige 

aktivieren, erfolgt dabei rein 

digital. Für einen feinen 

Abgleich empfiehlt es sich 

daher, mehrere, in Zweierpotenzen 

abgestufte Elemente 

zur Parallelschaltung 

zu verwenden, die über ein 

digitales Steuerwort entsprechender 

Breite getrennt aktiviert 

werden können (vgl. 

control 

W0 ⁄ L 

Abbildung 5-8). Die Steuerworte müssen dabei in einer Kalibrierungsphase, z. B. beim Produktionstest, 

ermittelt und in einem (mindestens) einmal programmierbaren Speicher abgelegt werden. 

Hierfür stehen neben gewöhnlichen Metall-Schmelzsicherungen („Fuses“) in vielen CMOS- 

Prozessen kleine Arrays von Zenerdioden zur Verfügung, die als einmal programmierbare „Antifuses“ 

eingesetzt werden können. 

Während über einen solchen Eingriff 

in analoge Schaltungsparameter Offsets 

und Verstärkungsfehler recht einfach 

eliminiert werden können, ist ein 

Ausgleich von Nichtlinearitäten auf 

diese Weise mit einem erheblichen 

Aufwand verbunden. In Systemen 

mit einer digitalen Weiterverarbeitung 

der Signale empfiehlt es sich 

daher, stattdessen mittels arithmetischer 

Operationen die vom A/D- 

Wandler aufgenommenen digitalen 

Messwerte zu konditionieren. 

Ein nach diesem Prinzip arbeitendes 

Sensor-ASIC [A-15], an dessen Konzeption 

und Umsetzung der Verfasser 

I out 

W0 ⁄ L 

Abbildung 5-8: Schaltbild einer Stromquelle, die über eine MOS-Schaltertechnik 

in 1%-Schritten um bis zu 7% getrimmt werden kann 

Sensor Bridge 

Temperature 

Resistor 

U bias 

mitwirken konnte, ist in Abbildung 5-9 zu sehen. Ein mit dem ASIC verbundener Sensor, z. B. 

ein Silizium-Drucksensor, liefert Druck- und Temperaturmesswerte, die mit einem A/D-Wandler 

aufgenommen und digital linearisiert werden. Dabei werden in einem Arbeitsgang sowohl die 

Offsets, Verstärkungsfehler und Nichtlinearitäten der analogen Eingangsstufen des ASICs und 

[2] 

Current 

Reference 

Signal Path 

Watch− 

dog 

Bandgap 

Reference 

Oscillator 

ADC 

10 Bit 

Temperature Path 

Power 

ON 

Reset 

4W 

---------- 0 ⁄ L 

100 

[1] 

Digital Signal Conditioning 

signal 

signal 

368 Bit Serial System Memory (One Time Programmable) 

T 

T 

P 

P 

2W 

---------- 0 ⁄ L 

100 

DAC 

10 Bit 

DAC 

10 Bit 

Serial 

Interface 

2 

I C 

Analog 

Outputs 

[0] 

SDA 

SCL 

Digital Supply 

Analog Supply 

W 

-------- 0 ⁄ L 

100 

V Temperature 

Output Voltage 

V 

PC 

Pressure 

Output Voltage 

Abbildung 5-9: In einem Sensor-ASIC werden Druck- und Temperaturwerte 

in digitale Größen gewandelt, rechnerisch linearisiert 

und analog und digital ausgegeben (Bild nach [39]).



Lukas Bauer 

Dissertation 


Kapitel 5.1 

Seite 86 

des A/D-Wandlers als auch die nicht-idealen Eigenschaften des Sensors ausgeglichen, zu denen 

auch eine Abhängigkeit der Druck-Übertragungskennlinie von der Temperatur gehört. 

Um dies zu erreichen, wird der digitale Messwert der Temperatur T mess zunächst über ein Polynom 

dritten Grades in einen linearisierten Temperaturwert T lin überführt: 

T lin 

3 

d3Tmess (GL 5-1) 

Anschließend werden unter Verwendung des linearisierten Temperaturwertes und des Druckmesswertes 

p mess über ein zweidimensionales Polynom Nichtlinearitäten und Abhängigkeiten 

des Druckmesswertes von der Temperatur kompensiert, wobei auch Steilheit und Offset der 

Übertragungskennlinie beeinflusst werden können: 

p lin 

(GL 5-2) 

Alle Koeffizienten der Polynome werden während eines Kalibrierungsvorganges auf eine möglichst 

lineare und temperaturunabhängige Sensorcharakteristik hin optimiert und zusammen mit 

den Einstellungen der ebenfalls programmierbaren Stromquellen und Eingangsverstärker in 

einem PROM auf dem Chip gespeichert, das über Zenerdioden realisiert wurde. Indem der Sensor 

und das ASIC in ein Gehäuse gebondet (vgl. Abbildung 5-10) und gemeinsam kalibriert werden, 

entsteht eine in sich abgeglichene, untrennbare Einheit: ein Drucksensor, dessen 

Nichtlinearität über den gesamten Messbereich von ±5% in der Praxis auf unter ±0,2% gesenkt 

werden konnte. 

Während bei diesem ASIC die 

arithmetische Linearisierung über 

ein Hardware-Rechenwerk und 

Zustandsmaschinen realisiert 

wurde, kann in einem modernen 

SoC mit Analogfunktionen die 

CPU diese Aufgaben übernehmen. 

Falls auf dem ASIC ein Flash vorhanden 

ist, kann dieses sogar für die 

Speicherung der Kalibrierungsdaten 

und Koeffizienten verwendet 

werden, was die Notwendigkeit 

zusätzlicher Fuse- oder Zenerdioden-Speicher 

eliminiert. Bei der 

arithmetischen Linearisierung kann 

die CPU die Werte dabei aus dem 

Flash lesen und direkt in die Rech- 

= 

2 

+ d2Tmess + d1Tmess + d0 3 2 

= a3pmess + a2pmess + a1pmess + a0 3 2 

+ ( b3pmess + b2pmess + b1pmess + b0)T lin 

3 2 

2 

+ ( c3pmess + c2pmess + c1pmess + c0)T lin 

Abbildung 5-10: Drucksensor und ASIC bilden eine kalibrierte Einheit 

(Bild: [39]). 

nungen einbeziehen. Bei der Beeinflussung analoger Parameter mittels der zuvor beschriebenen 

Schaltertechniken muss die CPU nach dem Einschalten der Versorgungsspannung die Informationen 

über die Schaltzustände aus dem Flash lesen und in Register schreiben, deren Ausgänge 

die Schalter steuern. 

Wenn in einem System, das nicht als Single-Chip-Integration realisiert werden konnte, nur ein 

ASIC-externes Flash zur Verfügung steht, können die beschriebenen Verfahren des Analog- 

Selbsttests im System verwendet werden, um das Problem zu umgehen, dass bei einem Test am



Lukas Bauer 

Dissertation 


Kapitel 5.1 

Seite 87 

IC-Tester die gewonnenen Kalibrierungsdaten in ein Flash übertragen werden müssen, das zu 

diesem Zeitpunkt dem ASIC noch nicht fest zugeordnet ist. 

Unabhängig von der Speichertechnologie kann durch die dargestellten Verfahren die Abhängigkeit 

der Schaltungsparameter von Technologiestreuungen eliminiert werden und gleichzeitig das 

Risiko minimiert werden, dass schlecht modellierte Simulationsparameter beim Schaltungsentwurf 

zu Abweichungen von den gewünschten Arbeitspunkten führen. Es wird somit zum einen 

das Designrisiko reduziert und zum anderen die Ausbeute gesteigert, da ASICs ohne Kalibriermöglichkeiten 

unbrauchbar werden, wenn die Parameterstreuungen die vom Design her zulässigen, 

evtl. sehr engen Grenzen übersteigen. 

Darüber hinaus kann der Entwicklungsaufwand analoger Schaltungen sogar verringert werden. 

Anstatt beispielsweise einen Offset in einer Schaltung mittels aufwändiger Konstruktionsprinzipien 

von vornherein zu vermeiden, wie dies mit Chopper-Operationsverstärkern möglich 

wäre, kann der Offset viel eleganter im Nachhinein von der CPU herausgerechnet werden. Dies 

vereinfacht nicht nur die Analogschaltungen, sondern kann aufgrund der einfacheren Konstruktionen 

sogar die Eigenschaften der Schaltungen verbessern. Insbesondere können auch die 

Eigenschaften von A/D- und D/A-Wandlern im System optimiert werden.



Lukas Bauer 

Dissertation 


5.2 Strukturwandel in der Systemarchitektur 

5.2.1 Zukünftige Aufbau- und Verbindungstechniken 

Kapitel 5.2 

Seite 88 

Das Wachstum der Mikroelektronik, insbesondere die Zunahme der Busbreiten, führt zu einem 

Bedarf an IC-Gehäusen mit immer höherer Anschlusszahl (vgl. Abbildung 3-6 auf Seite 16). Bis 

in die 80er Jahre hielt man dabei überwiegend an DIL-Gehäusen im 2,54mm-Raster fest, deren 

größter Vertreter das 82mm lange DIL64-Gehäuse war (vgl. Abbildung 2-4 auf Seite 8). 

Die preiswerte Gehäuseserie der 90er Jahre war die Familie quadratischer, oberflächenmontierbarer 

PQFP-Gehäuse, die über eine stetige Verringerung des Pinabstandes (pin pitch) auf bis zu 

0,5mm Anschlusszahlen von bis zu 240 Pins bei Außenabmessungen von 34,6mm × 34,6mm 

erlaubten und deren Vertreter bis 208 Pins noch heute die preisgünstigste Gehäuselösung darstellen. 

Einer weiteren, signifikanten Vergrößerung der Gehäuseabmessungen stehen die Planaritätsanforderungen 

an die Leiterplatte sowie die schlechteren elektrischen Eigenschaften größerer 

Gehäuse entgegen, und eine weitere Reduktion des Pinabstandes ist mangels geeigneter SMD- 

Löttechniken derzeit nicht möglich. Daher scheiden peripher bedrahtete Gehäuse bei Pinzahlen 

deutlich über 300 Pins heute aus; es muss zu Gehäusen mit flächig angeordneten Anschlüssen 

(Area Arrays) übergegangen werden. 

Hier standen lange Zeit nur Pin Grid Arrays (PGAs) zur Verfügung, deren Pinabstand von 

2,54mm über den Zwischenschritt einer versetzten Anordnung auf heute 1,27mm im High-End- 

Bereich reduziert wurde. Die enormen Anforderungen an die Sockelkontakte und die Leiterplattentechnologie 

lassen hier bis auf weiteres keine weitere Reduktion mehr zu. Mit modernen 

PGAs lassen sich zwar durchaus Anschlusszahlen über 500 realisieren, die Kosten für derartige 

Gehäuse, die in der Regel als mehrlagige Keramikgehäuse ausgeführt werden, sind aber aufgrund 

der aufwändigen Herstellungsverfahren enorm hoch. 

Eine preisgünstige Alternative 

stellen Ball Grid Arrays 

(BGAs) dar, die auch in ähnlichen 

Technologien gefertigt 

werden können wie Leiterplatten 

(PBGAs) und die sogar 

noch höhere Anschlussdichten 

erlauben. Anstelle von 

Pins wird mit Lötzinnkügelchen 

auf runden Pads gearbeitet, 

die beim Lötvorgang 

aufschmelzen, das BGA dabei 

durch ihre Oberflächenspannung 

zentrieren und die Verbindung 

zur Leiterplatte 

herstellen. 

Abbildung 5-11: Layoutentwurf eines BGA-Gehäuses mit 600 I/Os (innen) 

und einer Matrix von 25×25 Balls in einer 4-Lagen-PCB-Technologie (Originalgröße 

33×33mm, zum Vergleich: Ein DIL600 wäre 763mm lang.) 

Da bei Beginn der Entwicklung eines 3D-Grafikprozessors mit 600 Anschlüssen [A-10] im Jahr 

1996 weltweit noch keine geeigneten Gehäuse zu vertretbaren Kosten zur Verfügung standen, 

wurde damals vom Verfasser ein BGA625-Gehäuse (s. Abbildung 5-11) in einer vierlagigen Leiterplattentechnologie 

mit geätzten Durchkontaktierungen entworfen, das auf einer Fläche von nur 

33mm × 33mm über 625 Balls im 1,27mm-Raster verfügte. Aufgrund von Bedenken wegen der 

thermischen Performance des Gehäuses wurde das Konzept aber zugunsten eines Aluminium- 

BGAs verworfen, das zwischenzeitlich von Olin Interconnect Technologies angeboten wurde.



Lukas Bauer 

Dissertation 


Diese Gehäuse wurden in einer neu entwickelten 

Technologie aus eloxierten Aluminiumplatten 

hergestellt, in die eine Cavity zur Aufnahme des 

Dies gefräst wurde und auf deren Oberfläche in 

einer Feinstleitertechnik mit Leiterbahnbreiten 

und -abständen von ca. 30μm in einer einlagigen 

Verdrahtung die kompletten Verbindungen von 

den Bondfingern zu den Ball-Pads aufgebracht 

wurden. In enger Zusammenarbeit mit Olin 

konnte dabei eine 600polige Variante der Gehäuseserie 

entwickelt werden (vgl. Abbildung 5- 

12), die mit 12 US-Dollar pro Gehäuse (bei 

Kleinmengen) ein optimales Preis-Leistungs- 

Verhältnis bot. 

Da sich der Die auf der gleichen Seite befindet 

wie die Balls („Cavity Down“), sind insbesondere 

die thermischen Eigenschaften des Gehäuses 

hervorragend, was angesichts der hohen 

Verlustleistung des Grafikprozessors von ca. 12 

Watt entscheidend war. Das Aluminium-Substrat 

dient dabei der Wärmeverteilung. Bereits ohne 

Kapitel 5.2 

Seite 89 

Kühlkörper wird über die Gehäuseoberfläche zur Luft und über die Balls zur Platine so viel Energie 

abgeführt, dass sich ein Wärmewiderstand von nur Θ ja = 8°C/W ohne Luftstrom ergibt. Bei 

Verwendung eines flächig auf die glatte Gehäuseoberseite aufgeklebten Kühlkörpers ergibt sich 

zu diesem ein Wärmewiderstand von lediglich Θ jc = 0,5°C/W. 

Auch die elektrischen Eigenschaften sind aufgrund der für die Signalleitungen verwendeten 

Dünnfilmtechnik sehr günstig; so ergeben sich insbesondere sehr niedrige Induktivitäten der Verbindungen 

innerhalb des Gehäuses, ein geringes Übersprechen der Signale, und das Aluminiumsubstrat 

dient gleichzeitig als Abschirmung. So eignen sich derartige BGA-Gehäuse nach 

Herstellerangaben (Olin, Fujitsu) für Taktfrequenzen bis 2,5GHz. 

BGA-Gehäuse erlauben dabei durch die flächige Anordnung der Balls extrem hohe Anschlusszahlen 

bei eher moderaten Anschlussdichten: Der Ball Pitch von BGAs liegt bei 1,27mm, bei 

Micro-BGAs derzeit zwischen 0,65mm und 1,0mm, wobei allerdings noch Steigerungen der 

Dichte möglich sind. BGAs mit über 2000 Anschlüssen werden heute bereits eingesetzt. 

Darüber hinaus erlauben BGAs äußerst flexible 

Lösungen, die bei Plastikgehäusen mit 

gestanztem Lead Frame kaum möglich sind. 

Insbesondere Mehrchip-Module lassen sich 

als PBGAs fast ohne zusätzliche technologische 

Anforderungen realisieren. So erforderte 

die in Abschnitt 3.1.2 auf Seite 19 geschilderte 

technologische Unvereinbarkeit einer DRAMund 

Flash-Integration in einem konzipierten 

ASIC-Projekt den gemeinsamen Aufbau eines 

Abbildung 5-12: Aluminium-BGA-Gehäuse mit 600 

Anschlüssen (Originalgröße 45×45mm), hier mit 

einem Testchip für Zuverlässigkeitsuntersuchungen 

Lötseite 

Abbildung 5-13: Studie eines 2-Chip-BGA-Gehäuses 

(1 ASIC und 1 SDRAM, Originalgröße 19×11mm) 

ASICs mit internem Flash und eines SDRAMs in einem möglichst kleinen Gehäuse. Eine geeignete 

Lösung als 2-Chip-PBGA, bei der beide Dies in Chip-on-Board-Technik auf ein FR4-Substrat 

gebondet werden, zeigt Abbildung 5-13. 

ASIC 

SDRAM



Lukas Bauer 

Ein ähnliches Beispiel zeigt 

Abbildung 5-14. Hier ließen 

sich die Analogfunktionen 

eines Systems zur Leistungsmessung 

und -regelung in Dreiphasensystemen 

[A-13] nicht 

in der gleichen Technologie 

integrieren wie der Digitalteil 

[A-14] mit einer ARM7-RISC- 

CPU. Daher wurde das abgebildete 

PBGA entwickelt, das 

neben den beiden Dies diverse 

diskrete SMD-Komponenten 

aus dem Umfeld des Analogchips 

enthält. Auf diese Weise 

konnte die Anzahl der Balls auf 

204 begrenzt werden, was die 

fertigungstechnischen Anforderungen 

an die Mutterplatine 

stark reduzierte. 

In beiden Beispielen stellt das 

BGA eine sinnvolle Zwischenlösung 

zu einem SoC dar, das 

derzeit noch nicht als ein Chip 

gefertigt werden kann. 

Dissertation 


Die Vorteile von BGA-Gehäusen lassen sich wie folgt zusammenfassen: 

Kapitel 5.2 

Seite 90 

● BGA-Gehäuse erlauben extrem hohe Anschlusszahlen bei geringen Abmessungen und 

moderaten Anforderungen an die Leiterplattentechnologie und die Lötprozesse. 

● Die thermische und elektrische Performance von BGAs ist insbesondere bei Cavitydown-BGAs 

unübertroffen. 

● BGAs sind die preiswertesten Gehäuse im High-End-Bereich. 

● BGAs erlauben flexible Multi-Chip-Lösungen fast ohne technologische Änderungen. 

Diesen Vorteilen stehen die folgenden Nachteile gegenüber: 

Abbildung 5-14: Multichip-BGA für die Leistungs-Messtechnik bestehend 

aus einem Digitalchip mit ARM7-CPU, einem Analogchip mit A/D-Wandlern 

sowie diskreten SMD-Komponenten (Originalgröße 30×30mm) 

● Eine optische Inspektion der Lötstellen oder ein Nachlöten einzelner Balls ist unmöglich 

– aber aufgrund des selbst zentrierenden Lötverhaltens auch selten erforderlich. 

● Elektrische Messungen an den Anschlüssen sind nur möglich, wenn entsprechende 

Durchkontaktierungen vorgesehen sind. 

Im High-End-Bereich bieten sich daher zur Zeit keine Alternativen zum Einsatz von BGAs. 

Selbst wenn sich in Zukunft die Flip-Chip-Technik stärker durchsetzen sollte, bei der nicht mehr 

gebondet wird, sondern die Verbindungen zum Chip mittels direkt auf den Pads des Chips aufgebrachter 

Zinnkügelchen hergestellt werden, werden vermutlich weiterhin BGAs als Zwischenträger 

eingesetzt werden, da bei der direkten Flip-Chip-Montage von Dies auf der Hauptplatine sehr 

hohe Anforderungen an die Leiterplattentechnik bezüglich der Planarität und Linienbreite entstehen 

würden.



Lukas Bauer 

Dissertation 


5.2.2 Programmierbarkeit und Konfigurierbarkeit eines „System on a Chip“ 

Kapitel 5.2 

Seite 91 

Zu den wesentlichsten Veränderungen der Eigenschaften von ASICs in den letzten 10 Jahren 

zählt sicherlich ihre zunehmende Flexibilität. Während ASICs in den 80er Jahren noch durch 

vergleichsweise starre Funktionsabläufe gekennzeichnet waren, zeichnen sie sich heute durch 

vielfältige Möglichkeiten der Programmierung, Konfiguration und Parametrisierung aus, die sich 

in komplexen Systemen über die verschiedenen Hardware- und Software-Ebenen erstrecken. 

Fest parametrisierte Funktionen nach starren Algorithmen werden dabei heute fast nur noch auf 

der untersten Hardware-Ebene eingesetzt, wo beispielsweise die Normierung einer einfachen 

Schnittstelle bei manchen Teilfunktionen keinerlei Freiheiten erfordert. Bei Betrachtung des 

gesamten Schnittstellenmoduls wird man aber in der Regel schon diverse programmierbare Register 

finden, um Eigenschaften wie z. B. die Baud-Rate oder Parameter des Übertragungsprotokolls 

von der CPU aus konfigurieren zu können. 

Bei komplexeren Schnittstellen definiert deren Standard nicht nur die physikalische und logische 

Übertragung einzelner Datenbytes, sondern evtl. auch mehrere höhere Protokollebenen. Die Programmierbarkeit 

eines Systems mit integrierter CPU erlaubt es dabei, die auszuführenden Funktionen 

sinnvoll zwischen Hardware und Software aufzuteilen, indem alle rechenintensiven 

Prozesse und der Datentransport (der Performance wegen) in Hardware und alle vergleichsweise 

selten stattfindenden Auswertungsvorgänge (der vergrößerten Flexibilität wegen) in Software 

gelöst werden. 

So empfiehlt es sich z. B. bei Ethernet-Schnittstellen, neben der Ansteuerung des physikalischen 

Interfaces (Phy) und dem Datentransport auch die Adressfilterung und die Prüfsummenberechnung 

während der Übertragung in Hardware zu realisieren, um die CPU nicht unnötig zu belasten. 

Die Entscheidungsmöglichkeiten darüber, wie mit den übertragenen Datenpaketen (Frames) 

zu verfahren ist, sind aber bereits so komplex, dass die Behandlung ab dieser Ebene (TCP Stack) 

in Software erfolgen sollte. 

Falls Daten von einer Schnittstelle zur anderen transportiert werden sollen, ist dies nur bei niedrigen 

Datenraten über Kopierfunktionen der CPU sinnvoll zu lösen. Wenn eine höhere Performance 

gewünscht wird, sollte hier eine Hardwareunterstützung implementiert werden. Hierzu 

bieten sich DMA-Controller (Direct Memory Access) an, die durch die Software aktiviert werden 

und den Datentransfer dann selbsttätig ohne Belastung der CPU durchführen. 

Durch eine sinnvolle Aufteilung der Systemfunktionen zwischen Hardware und Software 

kann dabei ein sehr flexibles ASIC entstehen, das als universelle Plattform erst durch die eingesetzte 

Software (bzw. Firmware) individualisiert wird und seine systemspezifischen Funktionen 

und Eigenschaften erhält. Durch Erweiterungen der Software kann ein SoC dabei auch nach seiner 

Fertigstellung noch um weitere Funktionen ergänzt werden. 

Die Programmierbarkeit und Konfigurierbarkeit des Systems bietet auch für den ASIC-Designer 

völlig neue Möglichkeiten. Er ist nicht mehr gezwungen, sämtliche Algorithmen und Parameter 

noch während der Entwicklung im Detail zu fixieren, sondern kann die exakte Lösung mancher 

Probleme zunächst offen lassen. Es bleibt dann der Software überlassen, die korrekten Parameter 

einzustellen oder sogar durch Programmierung eines Registers einen von mehreren, parallel in 

Hardware implementierten Algorithmen auszuwählen. Dies kann beispielsweise sinnvoll sein, 

wenn optimale Parameter erst aus Messungen am fertig gestellten System im realen Umfeld 

gewonnen werden können. So wurden in einem komplexen ASIC [A-19] beim Entwurf eines 

DTMF-Decoders zur Erkennung von Mehrfrequenz-Wahltönen mittels digitaler Filter alle Filterparameter 

und Filterkoeffizienten programmierbar gehalten, um eine nachträgliche Optimierung 

zu erlauben. In einem anderen ASIC [A-17] wurden diverse Parameter der Interfaces zu verwendeten 

IPs überall dort konfigurierbar realisiert, wo Details dieser Schnittstellen in der Dokumen-



Lukas Bauer 

Dissertation 


Kapitel 5.2 

Seite 92 

tation der IPs mehrdeutig oder widersprüchlich beschrieben wurden. Dank dieser Maßnahme und 

einer sinnvollen Hardware-Software-Aufteilung konnte über die Software die einwandfreie 

Funktion des Systems sichergestellt werden, obwohl alle drei verwendeten IPs im Detail Fehler 

aufwiesen bzw. falsch dokumentiert waren. Selbst komplexe Datenpfade und Rechenwerke können, 

indem sie über einen digitalen Signalprozessor (DSP) realisiert werden, beliebig flexibel 

gehalten werden, so dass eine nachträgliche Änderung der Algorithmen möglich ist. 

Doch nicht nur die digitale Logik in einem komplexen System kann flexibel konfiguriert werden. 

Auch die Eigenschaften von analogen Schaltungsteilen können, wie in Abschnitt 5.1.3 erläutert 

wurde, digital fest kalibriert oder aber durch Registerprogrammierung zur Laufzeit beeinflusst 

werden, und es können sogar einige Timing-Eigenschaften der digitalen Schaltungsteile konfiguriert 

werden, was im Folgenden anhand eines Beispiels erläutert werden soll. 

In einem hochkomplexen ASIC [A- 

19] mit integrierter ARM9-CPU sollten 

Zugriffe auf das interne RAM 

ohne Waitstates, also innerhalb eines 

Taktes möglich sein. Um dies zu 

erreichen, musste das verwendete 

synchrone SRAM im Gegensatz zum 

überwiegenden Teil der restlichen 

Schaltung mit dem invertierten 

Systemtakt betrieben werden. Die 

Laufzeit der Pfade vom und zum 

RAM durfte somit höchstens noch 

Systemtakt 

(CPU-Takt) 

Adresse 

invert. Takt 

(RAM-Takt) 

Lesedaten 

Laufzeit 

CPU→RAM 

Lesezugriff 

t setup CPU-Daten 

t setup RAM-Adresse 

RAM- 

Zugriffszeit 

Abbildung 5-15: Eine maximale Systemtaktfrequenz ist bei asymmetrischer 

Einstellung des Puls-Pausen-Verhältnisses erreichbar. 

jeweils einer halben Taktperiode entsprechen (vgl. Abbildung 5-15). Die Pfade von der CPU zu 

den Eingängen des RAMs konnten dabei ohne weiteres entsprechend optimiert werden; die von 

der Zugriffszeit des RAMs dominierten Pfade von dessen Ausgängen zur CPU waren hingegen 

sehr zeitkritisch. Dies führte zu dem Wunsch, das Puls-Pausen-Verhältnis des Systemtaktes 

programmieren und somit den Zeitanteil von der fallenden zur steigenden Flanke vergrößern zu 

können. 

Als Lösung dieses Problems konstruierte der Verfasser die in Abbildung 5-16 dargestellte Schaltung, 

mit der die steigende und fallende Flanke eines Taktsignals unabhängig voneinander in 

jeweils 16 Schritten (dargestellt sind 8 Schritte) verzögert werden können, wobei die Verzögerungszeit 

pro Schritt dem Delay eines Buffers, in diesem Fall ca. 160ns, entspricht. Durch die 

Programmierbarkeit konnte die maximal zulässige Taktfrequenz des Systems um ca. 15% erhöht 

werden, da nicht mehr das Doppelte der zweiten Phase, sondern nur noch die Summe beider Phasen 

als minimale Periodendauer eingestellt werden musste. 

clk_in 

clk_in 

clk_out 

0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 

15 Clock Shaping Register / Rising Edge 8 

7 Clock Shaping Register / Falling Edge 

0 

Delay: 4 Buffer Delays (+ AND/OR Tree) 

Delay: 2 Buffer Delays (+ AND/OR Tree) 

clk_out 

Abbildung 5-16: Die Möglichkeiten, ein komplexes SoC zu konfigurieren, gehen sogar so weit, dass über ein programmierbares 

Register Clock-Signale variabel verzögert und im Puls-Pausen-Verhältnis beeinflusst werden können.



Lukas Bauer 

Dissertation 


Kapitel 5.2 

Seite 93 

Ein weiteres Problem, das in diesem ASIC auftrat, konnte durch Einsatz dieser Schaltung gleichzeitig 

ebenfalls gelöst werden: An einem externen Speicherbus des ASICs sollte neben optionalen 

weiteren Speichern ein SDRAM angeschlossen werden. Hierbei sollte das vom ASIC 

generierte Taktsignal des SDRAMs von der Phasenlage her auf den Systemtakt und auf die 

Adress-, Daten- und Steuersignale des SDRAMs abgestimmt werden. Da aber in Abhängigkeit 

von der externen Speicherkonfiguration verschiedener Systeme unterschiedliche Lastkapazitäten 

an den Takt- und Datenleitungen zu Verschiebungen des Timings führen können, musste die 

Phasenlage des SDRAM-Taktsignals kontrolliert werden können. Hierzu wurde eine zweite 

Verzögerungsschaltung parallel zur ersten eingesetzt, wobei die eine das interne Taktsignal 

erzeugte und aus der zweiten das externe Taktsignal abgeleitet wurde. Dadurch war eine relative 

Verschiebung in beide Richtungen programmierbar, mit der die Phasenlage an die im jeweiligen 

System gegebene Kapazitätsverteilung angepasst werden konnte. Ohne diese Möglichkeit hätte 

es in manchen Systemen zu Hold Time Violations und damit zu einem Fehlverhalten kommen 

können. 

Um die Verzögerungszeit der Gatter, 

die je nach Technologieausfall 

variieren kann, präzise messen zu 

können, wurde zusätzlich ein 

Ring-Oszillator implementiert. 

Hierbei läuft in einer in sich rückgekoppelten 

Kette von Invertern 

eine Störstelle um, so dass sich 

eine Frequenz ergibt, die zur Verzögerungszeit 

umgekehrt proportional 

ist. Die Messung dieser 

Frequenz erfolgt im klassischen 

start 

value 

ready 

start stop 

16-bit counter 

Q 

15-bit counter 

res Q14 Abbildung 5-17: Selbst ein Ring-Oszillator zur Technologiekontrolle 

kann über eine Zusatzschaltung von der CPU aus gestartet und die 

gemessene Gatterverzögerung aus einem Register gelesen werden. 

Verfahren durch den IC-Tester. Dank einer vom Verfasser entworfenen Zusatzschaltung (vgl. 

Abbildung 5-17) kann die Messung auch im System geschehen. Die CPU muss dazu den Oszillator 

starten und kann wenig später einen zur Verzögerungszeit proportionalen Wert aus einem 

Register auslesen. Dies erlaubt es nicht nur, eine nachträgliche Technologiekontrolle durchzuführen, 

sondern es kann sogar die – natürlich über eine PLL programmierbare – Taktfrequenz des 

Systems an die technologisch bedingte Maximalfrequenz angepasst werden. 

Der relativ geringe Aufwand für die Konstruktion und der hohe Nutzen sprechen dafür, dass derartiger 

Schaltungen in immer mehr modernen ASICs eingesetzt werden dürften. Lediglich bei 

der Logiksynthese ist eine Sonderbehandlung erforderlich, damit die Verzögerungselemente 

(Buffer bzw. Inverter) bei der Optimierung nicht entfernt werden. 

16 

sysclk



Lukas Bauer 

Dissertation 


5.2.3 Neubewertung von Speicher- und Logikintegration 

Kapitel 5.2 

Seite 94 

Seit einigen Jahren spricht man in der Mikroelektronik-Branche vom „Deep Submicron Design 

Gap“. Dieses bezeichnet die immer größer werdende Lücke zwischen den technologischen Möglichkeiten, 

immer komplexere integrierte Schaltungen zu fertigen, und den Designmethoden, mit 

denen es nicht mehr möglich erscheint, entsprechend komplexe ICs zu entwerfen. 

Trivialerweise gilt dies nicht für Speicherbausteine, da bei deren Entwurf nur wenige Zellen entwickelt 

und matrixförmig aneinandergefügt werden, und auch nicht für Mikroprozessoren, da in 

diesem extrem umsatzstarken Marktsegment ein überproportional hoher personeller Aufwand 

zulässig ist. Speicher und Mikroprozessoren orientieren sich daher in etwa an den technologischen 

Grenzen (vgl. Abbildung 3-1 und 3-2 auf Seite 16). 

Beim ASIC-Design hingegen könnten zwei Phänomene zu einer geringen Ausnutzung der technologischen 

Ressourcen führen. Zum einen erlauben heute selbst die in Kapitel 4 vorgestellten 

modernen Designmethoden wie die Verwendung von Logiksynthese und grafischem HDL sowie 

die Einbindung von IPs keine Entwicklung von Schaltungen im Bereich von 10 bis 100 Millionen 

Gattern, zum anderen besteht derzeit auch gar kein Bedarf nach so hochintegrierter Logik. 

Systeme mit einer derart hohen Komplexität lassen sich kaum noch im Detail definieren oder 

überschauen, so dass noch nicht einmal ihre Spezifikation beherrschbar ist. 

Die größte zusammenhängende Zustandsmaschine, die im Umfeld des Verfassers je entworfen 

wurde, umfasste 5.747 Gatter, die größte Schnittstelleneinheit, ein Ethernet-Controller, 36.500 

Gatter und das komplexeste verwendete IP, eine ARM9-CPU, ca. 86.000 Gatter. Aus derartigen 

Blöcken lässt sich typischerweise ein ASIC zusammensetzen, dessen Logikanteil im Bereich von 

300.000 bis 500.000 Gattern liegt, nicht aber ein 100 mal so komplexes System, das sich heute 

durchaus fertigen ließe. 

Die technische Dokumentation allein der ARM9-CPU summiert sich dabei auf über 1000 Seiten. 

Wie soll also ein ASIC konzipiert, spezifiziert und entwickelt werden, das die technologischen 

Möglichkeiten voll ausschöpft? Offensichtlich ist dies nur durch massive Parallelität und unter 

Verwendung regulärer Strukturen möglich. Zu solchen flächenintensiven Strukturen gehören insbesondere 

● Datenpfade mit großen Busbreiten, wie sie im Bereich der 3D-Grafik erforderlich sind, 

● parallele, also mehrfach instanziierte, CPUs, Rechenwerke und Schnittstellen sowie 

● große Speicherblöcke. 

Komplexität 

(log.) 

technologische Grenzen 

Design 

Gap 

Auffüllen mit Speicher 

und regulärer Logik! 

+ Verwendung von IPs 

+ grafisches VHDL 

Logiksynthese 

Schematic Entry 

Abbildung 5-18: Die technologischen Ressourcen können selbst unter Verwendung der fortschrittlichsten 

Designmethoden nicht mehr mit Logikfläche allein ausgenutzt werden. 

Zeit



Lukas Bauer 

Während die ersten beiden 

Punkte nur in speziellen Systemen 

Anwendung finden, ist ein 

massiver Ausbau des Speichers 

wohl in jedem CPU-basierten 

SoC möglich. Dabei kann unterschieden 

werden zwischen dem 

Arbeitsspeicher der CPU und 

weiteren, im System verteilten 

Speichern. Zu letzteren gehören 

insbesondere FIFOs von 

Schnittstellenmodulen sowie 

Parameterspeicher, die in einem 

komplexen System in größerer 

Anzahl auftreten können, deren 

Größe aber selten über einige 

kByte hinausgeht (vgl. Abbildung 

5-19). Eine signifikante 

Vergrößerung derartiger Speicher 

ist dabei nur selten sinnvoll. 

Während die Integration 

solcher Speicher früher, insbesondere 

in Gate Arrays, noch 

problematisch war, führt heute 

an einer Integration nichts mehr 

Dissertation 


DTMF-Decoder 

Work+Config. RAM 

PCM-Hiway 

Switching Buffer 

USB FIFO HDLC 

Mode 

HDLC 

Timeslot 

Rx Work 

Tx Work 

HDLC Rx 

DMA Desc. 

HDLC Rx 

DMA Desc. 

HDLC CRC 

HDLC Work 

HDLC Rx FIFO 

HDLC Tx FIFO 

HDLC Rx Stat 

HDLC Tx Stat 

Ethernet Unit 0 

Transmit FIFO 


Receive FIFO 




Receive FIFO 

System-ROM 

Logik: 

403.000 Gatter 




Receive FIFO 

PLL PLL 


CPU-System-RAM 

ARM9TDMI 

Kapitel 5.2 

Seite 95 

Abbildung 5-19: Layout eines ASICs [A-19] mit stark verteilten, kleineren 

Speichern, überwiegend FIFOs von Schnittstellenmodulen 

vorbei: Die zunehmende Anzahl kleiner, verteilter Speicher würde anderenfalls die Systemkosten, 

die Pinanzahl des ASICs und die Signallaufzeiten zu den Speichern untolerierbar in die 

Höhe treiben. 

Der Arbeitsspeicher der CPU in einem SoC ist hingegen ein Parameter, der fast beliebig vergrößert 

werden kann. Es sind Systeme mit internem, externem oder verteiltem Speicher denkbar, 

wobei eine Teilintegration des Speichers durchaus sinnvoll sein kann. Zum einen können ASICinterne 

Zugriffe rund doppelt so schnell erfolgen wie externe, so dass bei einer gemischten Konfiguration 

häufig benötigte, geschwindigkeitskritische Software-Routinen im internen Speicher 

ausgeführt werden können. Zum anderen sind individuell gehaltene ASICs denkbar, die in Low- 

Cost-Anwendungen mit dem internen Speicher auskommen und im High-End-Bereich um externen 

Speicher erweitert werden können. 

Es empfiehlt sich daher, zumindest eine für viele Anwendungen ausreichende Minimalausstattung 

an Speicher zu integrieren, so dass sich ein gesunder Kompromiss aus Kosten und Nutzen 

ergibt. Das „Design Gap“ wird auf diese Weise mit Speicher aufgefüllt, wodurch die Systemkomplexität 

nicht nur im Sinne des Gate Counts extrem zunimmt: Die Speicherausstattung 

erlaubt gleichzeitig eine enorme Steigerung der Software-Komplexität. 

Da eine sinnvolle Speicherausstattung bereits oft im Megabyte-Bereich liegt, ergibt sich beim 

Vergleich von Speicher- und Logikfläche heute ein völlig anderes Bild als noch vor einigen Jahren: 

Selbst in ASICs, deren Logikanteil sich im Grenzbereich der von Spezifikation und Entwurf 

her handhabbaren Komplexitäten bewegt, dominiert der Speicher oft die Gesamtfläche des 

ASICs. So lässt sich bereits in einer 0,25μ-Technologie eine Dichte von über 40.000 Gattern pro 

mm 2 erreichen, in einer 0,13μ-Technologie sogar ca. 200.000 Gatter pro mm 2 (vgl. Abbildung 3- 

4 auf Seite 16). Der Logikanteil einer heute typischen Schaltung schrumpft damit auf eine fast 

verschwindend kleine Fläche zusammen. 


Receive FIFO 

Ethernet Unit 3



Lukas Bauer 

Ein typisches Beispiel eines solchen, 

für eine 0,25μ-Technologie konzipierten 

SoCs zeigt Abbildung 5-20. Die 

Logikfläche nimmt dabei trotz ihrer 

Komplexität von ca. 320.000 Gattern 

weniger als 10% der Chipfläche ein. 

Angesichts der Chipgröße von fast 

90mm 2 musste dabei sowohl für die 

Flash-Bereiche als auch für den RAM- 

Bereich eine intelligente Ausmaskierung 

defekter Sektoren gemäß 

Abschnitt 5.1.2 eingeplant werden, 

wodurch der größte Teil der Fläche aus 

der Yield-Berechnung herausgelassen 

werden und ein rechnerischer Yield 

von ca. 90% erreicht werden konnte. 

Da angesichts der technologischen 

Möglichkeiten derart speicherlastige 

ASICs zum Normalfall werden dürften, 

muss auch die Komplexität des 

Logikanteils in Zukunft völlig neu 

bewertet werden. Auf der gleichen 

Chipfläche ließe sich in einer 0,13μ- 

Dissertation 


Kapitel 5.2 

Seite 96 

Technologie rund vier mal so viel Speicher integrieren, und der Logikanteil würde auf ca. 2mm 2 

zusammenschrumpfen. Die erreichbare Gatterdichte und die Betrachtung der Flächenverhältnisse 

verleiten dabei zu der Aussage: 

„Logik kostet nichts.“ 

4Mbit Flash 

Abbildung 5-20: Floorplan-Studie zu einem SoC mit 320.000 

Gattern, 512kByte RAM, 1MByte Flash und 2 Ethernet-Phy’s auf 

einer Chipfläche von 90mm 2 in einem 0,25μ-Prozess von TSMC 

Ein Rechenbeispiel soll dies verdeutlichen: Legt man (recht konservativ) in einer 0,18μ-Technologie 

einen Siliziumpreis von 8¢/mm 2 (vgl. Abbildung 3-20 auf Seite 22) und eine Dichte von 

80.000 Gattern pro mm 2 zugrunde, kostet die Integration einer UART weniger als 1 US-Cent, 

eine ISDN-S0-Schnittstelle 2 Cent, ein USB-Anschluss 4 Cent und eine Ethernet-Schnittstelle 

(MAC-Layer incl. FIFOs ohne Phy) ca. 8 Cent. Werden derartige Schnittstellen hingegen als 

externe Bausteine angeschlossen, sind die entstehenden Kosten incl. Leiterplatten- und Montagekosten 

bis zu 50 mal höher. 

Die Grundtendenz, möglichst viele Komponenten des zu realisierenden Systems in ein ASIC zu 

integrieren, hat daher mit den Gatterdichten der Deep-Submicron-Technologien nicht nur ihre 

technischen Limitationen verloren. Das genannte Kostenverhältnis ist vielmehr so extrem geworden, 

dass es bei universell gehaltenen ASICs sinnvoll erscheint, alle Funktionen zu integrieren, 

von denen auch nur vorstellbar erscheint, dass sie in einem System sinnvoll sein könnten – das 

Weglassen der Funktionen ist aus Sicht der Systemkosten teurer als ihre Integration 1 . 

Abschließend sollen noch die Probleme diskutiert werden, die eine solche Vorgehensweise mit 

sich bringen könnte. Diese sind sicher nicht von technologischer Natur, und auch bei der Layouterstellung 

und Timingkontrolle sind keine größeren Schwierigkeiten zu erwarten, da es sich ins- 

1. Damit für die Pins der im jeweiligen System nicht benötigten Schnittstellen keine Kosten entstehen, können 

programmierbare Multiplexer an den Außenanschlüssen vorgesehen werden, um gemäß 

Abschnitt 5.2.2 ein universelles ASIC zu erstellen, bei dem in diesem Fall sogar die Auswahl der 

Schnittstellen und die Pinbelegung individuell konfiguriert werden können. 

2Mbit SRAM 

8mm 2 Logik 

2Mbit SRAM 

1Mbit Flash 

Ethernet Phy 

Ethernet Phy 

1Mbit Flash 

1Mbit Flash 

1Mbit Flash 

PLL



Lukas Bauer 

Dissertation 


Kapitel 5.2 

Seite 97 

besondere bei Schnittstellenmodulen um kleinere, hierarchisch klar von den übrigen 

Schaltungsteilen getrennte Blöcke handelt. Dies erleichtert auch die Systemspezifikation und 

macht solche Module zum idealen Einsatzgebiet von IPs und Design Re-Use. 

Dabei ist die Anzahl der zu integrierenden Schnittstellen auch bei einem weitgehenden Anspruch 

auf Vollständigkeit nicht allzu groß, da die Vielfalt von Datenraten und Übertragungsverfahren 

begrenzt ist. So können im Telekommunikations- und Netzwerkbereich (Ethernet, ISDN, USB, 

RS232, PCM-Hiway) und im Industrie- und Automotive-Bereich (SPI, Profibus, CAN, I 2 C, 

Firewire) mit zusammen 10 Schnittstellen die meisten heute aktuellen Anwendungen abgedeckt 

werden. 

Das Hindernis, einen wirklich universellen Controller zu definieren, liegt dabei eher in der 

Schwierigkeit, einen geeigneten Kompromiss zwischen RAM- und Flash-Größe, CPU- und evtl. 

DSP-Architektur, der Anzahl an I/Os und dem Preis zu finden als in der weitreichenden Abdekkung 

der (von den Außenanschlüssen her umschaltbaren) Schnittstellentypen. 

Letztere bringt als größtes Problem die in der Summe aller Schnittstellen enorm hohen Designbzw. 

IP-Kosten mit sich. Die Konsequenzen daraus sollen im nächsten Abschnitt erläutert werden.



Lukas Bauer 

Dissertation 


5.2.4 Neue Kosten- und Marktstrukturen 

Kapitel 5.2 

Seite 98 

Wie in den Abschnitten 3.2.1 und 3.2.2 ausführlich dargestellt wurde, nehmen die NRE-Kosten 

bei hochkomplexen ASICs seit einigen Jahren explosionsartig zu. Dies ist einerseits auf die mit 

der Komplexität steigenden Entwicklungs- und IP-Kosten und andererseits auf die in Deep-Submicron-Technologien 

extrem hohen Maskenkosten (vgl. Abbildung 3-19 auf Seite 22) zurückzuführen. 

Zwar bleiben die Kosten pro Siliziumfläche, wie ebenfalls dargestellt wurde, in etwa 

konstant, doch die NRE-Kosten können sich zu einer außerordentlich hohen Einstiegsbarriere für 

den ASIC-Einsatz entwickeln. 

Angesichts eines Entwicklungsaufwandes im Bereich von 12-36 Mannmonaten, Maskenkosten 

von beispielsweise 500.000 US-Dollar in einer 0,18μ-Technologie und IP-Kosten im Bereich von 

140.000 US-Dollar für einen Ethernet-Phy und 100.000 bis 400.000 1 US-Dollar für eine CPU 

wird klar, dass die Summe der einmaligen Kosten für ein „System on a Chip“ bereits heute weit 

oberhalb von einer Million US-Dollar liegen kann. 

Da diese Summe vom ASIC-Kunden meist vorzufinanzieren ist, sind immer weniger mittelständische 

Unternehmen bereit, die Kosten und Risiken einer ASIC-Entwicklung zu tragen. Erst ab 

ASIC-Volumina von im Mittel einer Million Stück rentiert sich heute eine SoC-Integration. Diese 

Stückzahl liegt aber deutlich oberhalb des Bedarfs der meisten Einzelunternehmen. 

Auf der anderen Seite können moderne SoCs so flexibel gestaltet werden, dass sie sehr universell 

einsetzbar werden. Wenn im Gegensatz zu der in Abschnitt 2.2.3 gegebenen Definition ein ASIC 

nicht nur für ein Produkt und noch nicht einmal exklusiv für einen Kunden entwickelt wird, sondern 

auf die Erfordernisse eines ganzen Marktes zugeschnitten wird, lassen sich, insbesondere 

angesichts des gleichzeitigen Wachstums des Gesamtmarktes, ohne weiteres sehr hohe Stückzahlen 

erreichen. 

Die Entwicklung solcher ICs erfordert allerdings vollkommen andere Geschäftsmodelle als bei 

der klassischen ASIC-Entwicklung, bei der sich der ASIC-Designer zum Teil als reiner Dienstleister 

betätigen konnte. Da sich die möglichen Kunden eines flexiblen SoCs nicht von alleine 

zusammenschließen werden, um gemeinsam eine ASIC-Entwicklung in Auftrag zu geben, muss 

das ASIC-Designhaus neben der Beauftragung der Fertigung und der Produktlieferung auch die 

Produktdefinition übernehmen. Da die Vorfinanzierung der Entwicklung und der NRE-Kosten in 

der Regel Probleme bereitet, wird ein kleines ASIC-Designhaus allerdings meistens versuchen, 

zu Beginn des Projekts mindestens einen großen Kunden zu beteiligen oder sogar Allianzen mit 

mehreren Kunden oder einem Halbleiterhersteller zu bilden, um eine gewisse finanzielle Absicherung 

zu erreichen. Angesichts der explodierenden NRE-Kosten könnten solche Geschäftsmodelle 

die einzige Zukunftsperspektive des ASIC-Designs darstellen. 

Wenn dieser Ansatz verfolgt wird, kommt es zu einer Vermischung der beiden Erscheinungsformen 

integrierter Schaltungen, der ASICs und der Standardprodukte. Von einem Anbieter von 

Standardkomponenten, der ICs selbst entwickelt und vermarktet, unterscheidet sich das ASIC- 

Designhaus dabei nur noch dadurch, dass es als „Fabless ASIC Provider“ über keine eigenen 

Fertigungsmöglichkeiten verfügt – ein Trend, der von den reinen „Silicon Foundries“ wie TSMC 

voll unterstützt wird. 

1. Preis einer ARM7-CPU in Technologien von TSMC, zuzüglich Anteilen am Chipumsatz



Lukas Bauer 

6. Kapitel 

Dissertation 


Zusammenfassung und Ausblick 

Kapitel 6 

Seite 99 

Die technologische Entwicklung, insbesondere der Fortschritt in der Lithographie, hat dazu 

geführt, dass heute integrierte Schaltungen mit 10 bis 100 Millionen Gattern gefertigt werden 

können. Selbst bei Anwendung der modernsten Designmethoden erscheint es aber unmöglich, 

derart komplexe Schaltungen zu entwickeln oder auch nur von der Spezifikation her voll zu 

beherrschen. Die einzige Lösung zur Nutzung der technologischen Ressourcen besteht deshalb 

darin, die zur Verfügung stehende Chipfläche mit regulärer Logik, insbesondere mit mehrfach 

instanziierten Funktionsblöcken, oder mit Speicher aufzufüllen. 

Ein massiver Speicherausbau in einem System mit integrierter CPU kann dabei die Systemkomplexität 

(hier durch Softwarekomplexität) enorm erhöhen und macht das System gleichzeitig sehr 

universell. Mit flexiblen ASICs können so breite Anwendungsfelder eröffnet und sehr hohe 

Stückzahlen erreicht werden. 

Die Möglichkeiten der Software unterliegen aber den Restriktionen der Hardware, so dass immer 

mehr die Frage nach einer universellen Hardware in den Vordergrund rückt. FPGAs bieten dabei 

zwar ein Höchstmaß an Konfigurationsmöglichkeiten, sie sind jedoch technologisch bedingt etwa 

drei bis sechs mal langsamer als ASICs gleicher Komplexität und 100 mal so teuer. Günstiger ist 

es, die CPU und den Speicher als optimierte Hard Macros neben den FPGA-Strukturen unterzubringen, 

wie es derzeit bei Altera („Excalibur“ mit integrierter ARM922T, [48]) und im Gate- 

Array-Bereich bei NEC („SoC Lite“ mit ARM7TDMI, [49]) zu beobachten ist. Die Verbesserungen 

sind jedoch in keiner Weise ausreichend, um mit Full-custom-ASICs mithalten zu können. 

Ein konkurrenzfähiges Produkt könnte sich nach Ansicht des Verfassers ergeben, wenn (getreu 

dem im letzten Abschnitt erklärten Motto „Logik kostet nichts“) neben der CPU und dem Speicher 

auch noch ein Maximum an häufig benötigten Schnittstellen und Systemfunktionen als Hard 

Macros integriert würden, deren Anbindung an die CPU (Glue Logic) und deren Verbindungen 

zu den Außenanschlüssen programmierbar sind. In der Folge wäre der Anteil an FPGA-Strukturen 

im System so gering, dass er von den Kosten her nur geringfügig ins Gewicht fallen und aufgrund 

der kleinen Fläche akzeptable Taktfrequenzen erlauben würde. Da die Systemarchitektur 

eines derartigen ASICs aufgrund der festen Auswahl von CPU, Speicher und Schnittstellen 

bereits relativ stark fixiert ist, könnte es mit geringen Abschlägen an Flexibilität sogar ganz ohne 

FPGA-Strukturen realisiert werden, indem Register zur systemspezifischen Konfiguration vorgesehen 

werden. 

Ein großer Gewinn an Flexibilität und Programmierbarkeit ergibt sich, sobald zusätzlich digitale 

Signalprozessoren (DSPs) integriert werden, um weitere Systemteile und Schnittstellen über 

deren freie Programmierung realisieren zu können. Ein solches System, bestehend aus 

● einer CPU, 

● großen Speicherblöcken (RAM und Flash), 

● den am häufigsten benötigen Schnittstellen und Funktionsblöcken (die als Hard Macros 

kleiner sind als DSPs), 

● allen Schnittstellen mit hoher Datenrate (die nicht über DSPs realisierbar sind) und 

● einem oder mehreren DSPs zur universellen Abdeckung der noch fehlenden Systemteile



Lukas Bauer 

Dissertation 


Kapitel 6 

Seite 100 

könnte als universelle und in gewissem Maße zukunftssichere Hardware-Plattform ein relativ frei 

konfigurierbares „System on a Chip“ darstellen, das, vergleichbar mit einem FPGA, ohne individuelle 

Aufwendungen an NRE-Kosten durch eine (Flash-)Programmierung seine systemspezifischen 

Funktionen und Eigenschaften erhält und dennoch auch von den Stückkosten her attraktiv 

ist. 

Da es trotz aller Flexibilität schwierig sein dürfte, einen für alle Anwendungsfälle optimalen 

Kompromiss zwischen der Speichergröße, der Pin- und Schnittstellenanzahl, den ggf. integrierten 

Analogfunktionen und dem Preis zu finden, kann auch eine Familie derartiger Bausteine definiert 

werden, deren Vertreter sich im Wesentlichen durch eine Skalierung unterscheiden und 

deren preiswerteste Bausteine bei Beschränkung auf einige Standardschnittstellen ohne DSPs 

auskommen. 

Derartige Systeme sind dabei auch vom Design her beherrschbar. Aufgrund der stark modularen 

Systemarchitektur kann die Hardware unter Verwendung der in Abschnitt 4.1 vorgestellten Entwicklungsmethoden, 

der Logiksynthese, dem Einsatz grafischer HDL-Programme und der Verwendung 

von IPs, ohne weiteres entworfen werden. Die gute Partitionierbarkeit kommt darüber 

hinaus der Layouterstellung entgegen, so dass die in Abschnitt 4.3 beschriebenen Verfahren weiterhin 

ausreichen dürften und sich aufgrund der kleinen Modulgrößen hohe Schaltungsgeschwindigkeiten 

erzielen lassen. Auch die Software solcher Systeme lässt sich handhaben, insbesondere 

wenn dank FPGA-Prototypenboards (vgl. Abschnitt 4.2) eine Parallelentwicklung von Hardware 

und Software erfolgen kann. Die heute gegebene Möglichkeit, Software-Updates im Internet zur 

Verfügung zu stellen, entschärft die Softwareentwicklung zusätzlich, da hiermit auch der finanzielle 

und logistische Zwang entfällt, die Software in jedem Fall „first time right“ entwickeln zu 

müssen. 

Gleichzeitig erlauben es die in Abschnitt 5.1 vorgestellten Verfahren, die Testkosten zu begrenzen, 

indem der Speicher und die evtl. integrierten Analogfunktionen durch die CPU nahezu autonom 

getestet werden, und die Ausbeute zu steigern, indem die CPU bei Analogfunktionen eine 

Kalibrierung oder eine arithmetische Konditionierung der Signale vornimmt, während bei Speichern 

eine Zusatzschaltung zur Laufzeit defekte Speicherstellen ausmaskieren und durch intakte 

ersetzen kann. Die Stückkosten können daher sehr attraktiv sein, insbesondere wenn bei ASICs 

mit hoher Pinanzahl BGA-Gehäuse (vgl. Abschnitt 5.2.1) eingesetzt werden. 

Zusammenfassend lässt sich sagen, dass das Problem der explodierenden NRE-Kosten mit 

immer universeller einsetzbaren ASICs umgangen werden kann. In den Vordergrund rückt ihre 

Programmierbarkeit und Konfigurierbarkeit (vgl. Abschnitt 5.2.2), wobei der Verfasser mit 

einem neuen Verfahren zur Beeinflussung der Timing-Eigenschaften eines ASICs eine völlig 

neue Ebene der Konfigurierbarkeit aufgezeigt hat. Eine noch höhere Flexibilität kann erreicht 

werden, indem digitale Signalprozessoren oder in kleinen Bereichen FPGA-Strukturen mit integriert 

werden. Mit universellen ASICs scheint es dabei möglich zu sein, dem Sog der Kostenspirale 

noch für einige Zeit zu entkommen und weiterhin, auch im Bereich höchster Komplexitäten, 

konkurrenzfähige ASICs zu entwickeln. 

Die offensichtliche Beherrschbarkeit der Hardware- und Softwareentwicklung und die Interpretation 

der Speicherfläche als Raum für Softwarekomplexität lässt dabei die Aussage zu, es gebe 

kein Design Gap, und nach dem weitgehenden Übergang von der Analogtechnik zur digitalen 

Signalverarbeitung – „The world is going digital“ – zeichnet sich als nächster großer Trend eine 

Verschiebung zur Software bzw. Firmware in universell programmierbaren und konfigurierbaren 

Systemen ab.



Lukas Bauer 

Lebenslauf 

persönliche Daten 

Dissertation 


Lebenslauf 

Seite 101 

Jahrgang 1969 

wohnhaft [gelöscht] 

Familienstand: seit dem 21.05.1993 verheiratet mit Doris Bauer geb. Brandt, 2 Kinder 

Mutter: Dr. Sibylle Bauer, Studienrätin für Deutsch, Philosophie, Politische Weltkunde 

Vater: Dr. Gerhard Bauer, Professor für Neuere deutsche Literatur, FU Berlin 

Schulbildung 

ab 08/1975 Giesensdorfer Grundschule, Berlin-Lichterfelde 

ab 02/1981 Cherokee Middle School, Madison, Wisconsin, USA 

ab 08/1981 Goethe-Oberschule (Gymnasium), Berlin-Lichterfelde 

06/1988 Abitur, Note 1,5, Leistungskurse Mathematik und Physik 

Studium 

ab 10/1988 Studium der Elektrotechnik an der TU Berlin 

11/1990 Vordiplom, „mit Auszeichnung“ bestanden 

09/1993 Diplom, „mit Auszeichnung“ bestanden 

Vertiefungsfach: Mikroelektronik (Chipentwurf) 

Hauptfächer: Elektronik, Hardwaretechnik, Softwaretechnik 

Studienarbeit: Entwurf eines abgleichfreien Audioschaltkreises als Modul eines Multinormsingle-chip-Farbfernsehers 

in 1,2μm BiCMOS-Technologie 

Diplomarbeit: Entwicklung eines TI-34020-kompatiblen Hochleistungs-Grafikprozessors unter 

Verwendung modernster Werkzeuge der Logiksynthese 

Auszeichnungen 

03/1989 Berliner Landessieger im Wettbewerb „Jugend forscht“, Sonderpreis für Elektronik 

02/1992 Aufnahme in die Studienstiftung des deutschen Volkes 

07/1994 Erwin-Stephan-Preis der TU Berlin „für hervorragende Studienleistungen und 

kurze Studiendauer“ 

Berufserfahrungen 

08/1986 - 05/1989 freier Mitarbeiter der Firma Jann Datentechnik, Berlin, beschäftigt zunächst als 

Löter, später als Hardware- und Softwareentwickler 

01/1991 - 07/1992 Veröffentlichung von sechs Artikeln in der „c’t“ und anderen Computermagazinen, 

hauptsächlich Bauanleitungen zu selbst entwickeltem Computerzubehör 

04/1991 - 04/1992 studentische Hilfskraft am FB Mathematik der TU Berlin, Betreuung von Tutorien 

zu den Lehrveranstaltungen „Höhere Mathematik III und IV für Elektrotechniker“ 

05/1993 - 08/1993 studentische Hilfskraft am Institut für Mikroelektronik der TU Berlin, Betreuung 

des Praktikums „Simulation und Entwurf analoger integrierter Schaltungen“ 

10/1993 - 10/1998 Wissenschaftlicher Mitarbeiter mit Lehraufgaben (Assistent) am Institut für 

Mikroelektronik der TU Berlin 

seit 11/1998 Projektleiter für Mixed-Signal-Design am Mikroelektronik-Anwendungszentrum 

MAZ Brandenburg GmbH 

Werder (Havel), im November 2001



Lukas Bauer 

Danksagung 

Ich danke 

Dissertation 


Danksagung 

Seite 102 

Herrn Prof. Otto Manck für die wissenschaftliche Betreuung und Unterstützung während der Durchführung 

der Arbeit, 

Herrn Prof. Hans Weinerth und Herrn Prof. Ulrich Golze für ihr Interesse and der Arbeit und für 

die Erstellung der weiteren Gutachten, 

Herrn Prof. Ernst Obermeier für die Übernahme des Vorsitzes in der Prüfungskommission, 

Rüdiger Arnold, Dieter Bethke, Michael Gatzmann, Rainer Kind, Roman Koczy, Gerriet Müller 

und Jens Völkl für wertvolle Informationen und fruchtbare Diskussionen, 

allen Kommilitonen, Kollegen und Geschäftspartnern für die hervorragende Zusammenarbeit in 

den ASIC-Projekten, in denen die in dieser Arbeit verwerteten Erfahrungen gesammelt werden konnten, 

Christian Hesse, Ulrich Leiseder (Beleuchtung) und Dirk Pflug für die Unterstützung bei der Digitalfotografie, 

meinen Eltern Gerhard und Sibylle Bauer für orthographische, stilistische und philosophische Ratschläge 

und nicht zuletzt 

meiner Frau Doris für ihre Geduld und moralische Unterstützung.



Lukas Bauer 

Kurzfassung (Abstract) 

Dissertation 


Kurzfassung (Abstract) 

Seite 103 

Das exponentielle Wachstum der Mikroelektronik, das etwa alle fünf Jahre eine Verzehnfachung der Schaltungskomplexitäten 

erlaubt, stellt den ASIC-Designer ständig vor neue Herausforderungen. Um von der 

Produktivität und Designsicherheit her mit dem Wachstum mithalten zu können, ist eine Revolution der 

Designmethoden in regelmäßigen Abständen unabdingbar. Die heute mögliche Totalintegration eines 

hochkomplexen Systems in einem Chip bringt jedoch nicht nur Probleme mit sich, sondern eröffnet dem 

Designer auch völlig neue Möglichkeiten. 

In der vorliegenden Arbeit wird zunächst, um den ASIC-Begriff indirekt zu definieren, kurz die historische 

Entwicklung integrierter Schaltungen vom ersten Transistor bis zum „System on a Chip“ beleuchtet; außerdem 

werden Motive für den ASIC-Einsatz aufgezeigt und die ASICs von den Märkten und Einsatzfeldern 

her gegenüber den Standardkomponenten abgegrenzt. 

Die technologischen und wirtschaftlichen Randbedingungen der ASIC-Integration werden anhand von 18 

Diagrammen erläutert, in denen die historische und die zu erwartende künftige Entwicklung der wichtigsten 

Größen dargestellt wird. Einige Kernparameter sind bis heute sehr steilen und lang anhaltenden exponentiellen 

Wachstumstrends gefolgt, die sich zumindest für die Laufzeit eines ASIC-Projekts fortsetzen 

dürften. Da das Wachstum technologisch gesehen ein ständiges Vordringen in neue Grenzbereiche erfordert 

und mit enormen Kostensteigerungen insbesondere bei der Maskenfertigung einhergeht, nehmen die 

Einrichtungskosten bei der ASIC-Produktion explosionsartig zu, was nur noch bei sehr großen Stückzahlen 

eine wirtschaftliche Fertigung erlaubt. 

Es werden zeitgemäße, in der Praxis erprobte Entwurfsstrategien vorgestellt, die der Fehlervermeidung und 

der Produktivitätssteigerung dienen. Hierzu zählen die Logiksynthese, der Einsatz von IPs und insbesondere 

die Verwendung grafischer HDL-Programme, die gegenüber der Programmierung in reinem HDL eine 

weitere Abstraktion und eine übersichtlichere Darstellung erlauben, welche intuitiv zu verstehen ist und 

grafisches HDL daher auch zu einer idealen Spezifikationsform macht. Durch den Einsatz von FPGA-Prototypenboards 

und das damit mögliche Hardware-Software-Co-Design kann die Produktentwicklung 

zusätzlich beschleunigt und das Risiko in der Spezifikation reduziert werden. Bei der Layouterstellung 

wird die Einhaltung der Timing-Vorgaben in Deep-Submicron-Technologien durch die dominierenden Verdrahtungskapazitäten 

erschwert. Sie kann durch moderne Algorithmen beherrscht werden, die die Treiberstärke 

der Gatter an die Lastkapazitäten anpassen. In Zukunft wird aber eine weitere Verschmelzung von 

Synthese- und Layoutprogrammen erfolgen müssen, damit bei der Optimierung der Schaltung die tatsächlichen 

Metallisierungskapazitäten berücksichtigt werden können. Anhand eines vollständigen, modernen 

Design Flows werden anschließend Möglichkeiten der lückenlosen Verifikation aller Schritte beschrieben, 

die eine Grundvoraussetzung für die ASIC-Entwicklung ist. 

Die Integration einer CPU in einem SoC eröffnet völlig neue Perspektiven im ASIC-Design und auch beim 

Produktionstest. Auf einem gewöhnlichen IC-Tester ist der Test des integrierten Speichers, insbesondere 

bei Flash-Blöcken, und der Test von Analogfunktionen recht aufwändig und aufgrund der langen Testzeiten 

auch kostspielig. Anhand konkreter Beispiele und vom Verfasser entwickelter Lösungen wird aufgezeigt, 

dass die CPU derartige Tests nicht nur (bis hin zum Selbsttest) unterstützen kann, sondern mittels 

vergleichsweise einfacher Zusatzschaltungen auch in der Lage ist, die Eigenschaften der analogen Schaltungsteile 

durch eine Kalibrierung oder eine arithmetische Konditionierung zu verbessern und bei integrierten 

Speichern selbst noch zur Laufzeit defekte Speicherstellen auszumaskieren und durch intakte zu 

ersetzen. Hierdurch können die Testkosten reduziert und die Ausbeute erheblich gesteigert werden. 

Abschließend wird noch ein Strukturwandel in der Systemarchitektur beschrieben: Der Logikanteil eines 

ASICs schrumpft bei Verwendung modernster Technologien, selbst wenn er sich im Grenzbereich der von 

Spezifikation und Entwurf her handhabbaren Komplexitäten bewegt, auf eine fast verschwindend kleine 

Fläche zusammen. Das entstehende „Design Gap“ kann jedoch mit Speicher oder mit regulärer Logik aufgefüllt 

werden, um die technologischen Ressourcen voll auszuschöpfen. Da der Einsatz einer CPU immer 

vielfältigere Möglichkeiten der Programmierung und Konfiguration erlaubt, die der Verfasser in einem 

ASIC um ein dargelegtes neues Verfahren zur Steuerung von Timing-Eigenschaften erweitern konnte, 

schlägt er vor, eine Familie universeller ASICs zu definieren, die aufgrund der extremen Gatterdichte 

nahezu ohne Mehrkosten modular mit einer Vielzahl recht frei konfigurierbarer Schnittstellen und Funktionen 

ausgestattet werden kann. Hierdurch entstehen so universelle Schaltungen, dass über ihr breites 

Anwendungsfeld die geschilderte Stückzahlproblematik gelöst werden kann.



Lukas Bauer 

English Abstract 

Dissertation 


English Abstract 

Seite 104 

The exponential growth of microelectronics, allowing a tenfold increase of circuit complexities nearly 

every five years, constantly presents new challenges to the ASIC designer. In order to be able to keep up 

with this growth regarding the designer’s productivity and reliability, a revolution in design methods is 

indispensable at regular intervals. However, the complete integration of a highly complex system into a single 

chip, as is possible today, does not only entail problems but also offers new possibilities to the designer. 

In this dissertation, first the term “ASIC” is defined indirectly by briefly describing the history of integrated 

circuits from the first transistor to “System on a Chip” solutions, by showing the motives for using ASICs, 

and by pointing out the differences between ASICs and standard components concerning their markets and 

their fields of application. 

The technological and economic boundary conditions of microelectronics are described by means of 18 

diagrams showing the historical and expected future development of the most important values. Some of 

the main parameters have followed trends of fast exponential growth for a long time, which is likely to continue 

at least for the lifetime of an ASIC project. To keep up the growth, technological difficulties have to 

be overcome regularly, leading to exploding costs especially in mask manufacturing. As a result, an economic 

application of ASICs is only possible in high-volume projects. 

The author then describes up-to-date design methods from his practical experience which allow an increase 

in productivity and reliability. These include logic synthesis, the use of IPs, and in particular the application 

of graphical HDL tools which permit a higher level of abstraction compared with textual HDL. Their clear, 

instantly understandable representation also makes graphical HDL ideal for specification. Evaluation 

boards with FPGAs can be used to facilitate hardware-software co-design, additionally accelerating the 

product development and reducing the risk in the specification. During the generation of the layout, meeting 

the timing requirements is more difficult in deep submicron technologies due to the dominating wire 

capacities. It can be mastered by using modern algorithms which adapt the gates’ driver strength to the load 

capacities. However, in the future a further fusion of synthesis and layout programs will have to take place 

so that the actual capacities of the metallization can be considered during the optimization of the circuit. 

Afterwards, a complete modern design flow is presented, including a discussion of means for a continuous 

verification of all steps which is essential for the ASIC development. 

The integration of a CPU in an SoC offers completely new chances for the ASIC design and also for the 

production test. On a normal IC tester, the test of the integrated memory, especially of Flash memory, and 

the test of analog functions is quite difficult and also expensive, due to the long test times. Giving concrete 

examples and showing solutions developed by the author, it is described how the CPU can aid such tests or 

perform a self-test. Using relatively simple additional circuitry, the CPU can even improve the characteristics 

of analog modules by a calibration or by an arithmetic signal conditioning, and defects in the integrated 

memory can be repaired even at run time by masking out defective sectors and by replacing them with 

intact ones. Thus the test costs can be reduced and the yield can be increased significantly. 

Finally, a structural change in the system architecture is described: In modern technologies, the logic portion 

of an ASIC becomes extremely small, even if it is at the limits of the complexities that can be managed 

in specification and in design. The resulting “design gap”, however, can be filled up with memory or with 

regular logic in order to fully utilize the technological resources. The integration of a CPU permits ever 

more varied possibilities of programming and configuration to which the author could add a new circuit for 

controlling even the timing characteristics of an ASIC. He suggests defining a family of universal ASICs. 

Due to the high gate density, these could be modularly equipped with a multiplicity of quite freely configurable 

interfaces and functions nearly without extra costs. Such universal circuits should have very 

broad fields of application, so that they could be a solution to the problem of ASIC project volumes 

described.

Glossar 



Lukas Bauer 

Dissertation 


Glossar 

Seite 105 

analog Alle zu verarbeitenden Größen (z. B. Lautstärkeinformationen, Temperaturen etc.) werden 

durch kontinuierliche Spannungen oder Ströme repräsentiert, deren Wert in der 

Regel proportional zur verarbeiteten Größe ist (vgl. → digital). 

AMS Austria Mikro Systeme. Ein österreichischer → Halbleiterhersteller, der sich auf spezielle 

→ CMOS-Prozessvarianten für → Mixed Signal ASICs spezialisiert hat 

ARM Advanced RISC Machines. Marktführender Anbieter stromsparender, aber leistungsstarker 

→ RISC → CPUs, die als → IP in → ASICs integriert werden können 

Ausbeute Anteil der funktionsfähigen → integrierten Schaltungen an den produzierten Schaltungen, 

beschränkt durch Fertigungsfehler 

ASIC Application Specific Integrated Circuit. Anwendungsspezifische → integrierte Schaltung, 

die ein Kunde in der Regel exklusiv für seine eigenen Produkte entwickeln und 

fertigen lässt 

BGA Ball Grid Array. → Gehäusebauform für → integrierte Schaltungen, bei der auf der 

Gehäuseunterseite auf einer Matrix aus Kontaktflächen kleine Kugeln aus Lötzinn 

angeordnet sind, die beim Lötvorgang aufschmelzen und so die Verbindung zu entsprechenden 

Kontaktflächen auf der Leiterplatte herstellen 

Bibliothek Hier: Sammlung von Daten, insbesondere von Zellparametern und Simulationsmodellen 

Bipolar-Transistor Stromverstärkendes → Halbleiter-Bauelement, das heute überwiegend nur noch 

in → analogen Schaltungen eingesetzt wird 

BIST Built In Self Test. In die → integrierten Schaltungen werden Teststrukturen eingebaut, 

die Logikblöcke oder Speicherelemente mit Eingangssignalen versorgen, ihre Ausgangsdaten 

mit Sollwerten vergleichen und so automatisch ermitteln, ob der Chip fehlerfrei 

gefertigt wurde. 

Bit Binary Digit. Binärziffer (0 oder 1) der Zahlendarstellung im Dualsystem, gleichzeitig 

kleinste Informationseinheit und Grundlage → digitaler Schaltungen 

bonden Herstellung von Verbindungen zwischen den → Pads auf dem → Die und den inneren 

Anschlüssen (Bond Finger) eines → Gehäuses mittels dünner Gold- oder Aluminiumdrähte. 

Boundary Scan Zwischen dem → Core und den → Pad-Zellen einer → integrierten Schaltung 

wird eine Schieberegisterkette eingefügt, die es in einem Testmodus erlaubt, über eine 

serielle → JTAG-Schnittstelle Signale einzuspeisen und auszulesen und so den Core 

oder die Verbindungen auf der Leiterplatte zu testen. 

Buffer → Gatter zur Verstärkung der Treiberfähigkeit → digitaler Signale, das aus zwei 

→ Invertern aufgebaut ist und auch zur Signalverzögerung eingesetzt werden kann 

Bus Parallele Leitungen zur gleichzeitigen Übertragung mehrerer Informationen, meist 

mehrerer Binärziffern eines Wertes 

CAD Computer Aided Design. Computerunterstützter Entwurf z. B. → von Layouts 

CAE Computer Aided Engineering. Computerunterstützte Entwicklung 

Clock Taktsignal eines → Flipflops 

Clock Skew Laufzeitdifferenz des Taktsignals zu den Clock-Eingängen verschiedener → Flipflops, 

bedingt durch verbleibende Asymmetrien des → Clock Trees 

Clock Tree Um ein Taktsignal an Hunderte oder Tausende von → Flipflops zu verteilen, reicht die 

Treiberstärke eines einzelnen → Buffers nicht aus. Daher wird eine baumartig aufgefächerte 

Struktur vieler Buffer mit gleichmäßig verteilten Lasten verwendet.



Lukas Bauer 

Dissertation 


Glossar 

Seite 106 

CMOS Complementary Metal Oxide Semiconductor. Der heute dominierende Herstellungsprozess 

(bzw. ein Konstruktionsprinzip) für digitale → integrierte Schaltungen. Es werden 

komplementäre → MOSFETs (mit positiver und negativer Dotierung des 

Halbleitermaterials) verwendet und durch identische Gate-Spannungen angesteuert. 

Hierdurch werden die MOSFETs wechselweise ein- und ausgeschaltet, so dass im 

Ruhezustand kein Strom durch in Reihe geschaltete MOSFETs fließen kann. 

Constraints Vorgaben wie z. B. Geschwindigkeitsanforderungen bei der Synthese und Layouterzeugung 

von → integrierten Schaltungen 

Core Kernbereich einer → integrierten Schaltung ohne die → Pad-Zellen 

CPU Central Processing Unit. Zentrales Steuer- und Rechenwerk eines Computers 

Deep Submicron → Strukturbreiten weit unterhalb von einem Mikrometer (1μm = 1/1000 mm) 

Design Der Vorgang des Entwerfens oder der dabei entstehende Entwurf einer Schaltung 

Design Entry Manuelle Eingabe einer Schaltung oder einer Schaltungsbeschreibung 

Design Flow Ablauf aller Eingabe- und Umsetzungsvorgänge bei der Entwicklung einer 

→ integrierten Schaltung 

Die Eine → integrierte Schaltung als rechteckiges, aus einem → Wafer gesägtes Plättchen 

aus → Halbleitermaterial. Zur Weiterverarbeitung wird ein Die durch → Bonden in ein 

→ Gehäuse eingesetzt. 

digital Alle zu verarbeitenden Daten werden als Zahlenwerte im Binärformat als Folge von 

Nullen und Einsen dargestellt, wobei die Werte 0 und 1 jeder Binärziffer (Bit) durch 

zwei verschiedene Spannungswerte repräsentiert werden. Die Verarbeitung der Informationen 

erfolgt über → Gatter, die Speicherung über → Flipflops. Gegenteil: → analog 

diskret Aus Einzelbauteilen zusammengesetzt; nicht in Form einer → integrierten Schaltung 

DRC Design Rule Check. Die Überprüfung, ob ein → Layout den Anforderungen des 

→ Halbleiterherstellers z. B. in Bezug auf die Breiten und Abstände von Leiterbahnen 

entspricht 

DSP Digital Signal Processor. Ein programmierbares Rechenwerk ähnlich einer → CPU, das 

für Aufgaben der digitalen Signalverarbeitung optimiert wurde 

EDA Electronic Design Automation. Der stark automatisierte Entwurf elektronischer und 

→ integrierter Schaltungen 

ERC Electrical Rule Check. Die Überprüfung eines → Layouts nach einfachen Regeln elektrischer 

Verbindungen, bei der z. B. Kurzschlüsse und nicht angeschlossene Leitungen 

gefunden werden 

Ethernet Eine Schnittstelle mit hoher Datenrate für lokale Computernetzwerke 

Firmware Die fest in einem Computersystem gespeicherte Systemsoftware 

Flash Ein Speicher innerhalb eines Computersystems oder einer (integrierten) Schaltung, der 

(langsam) mit Daten- oder Programminhalten beschrieben werden und gelesen werden 

kann und dessen Daten auch bei einem Ausfall der Versorgungsspannung erhalten bleiben 

Flipflop Speicherelement für ein → Bit als Grundelement → integrierter Schaltungen, das bei 

einer Änderung eines Taktsignals (in der Regel bei einem Wechsel von 0 auf 1) den 

Wert des anliegenden Eingangssignals speichert und am Ausgang ausgibt 

FPGA Field Programmable Gate Array. Reguläre Anordnung von → Gattern und → Flipflops 

in einer (sehr teuren) → integrierten Schaltung, deren Verbindungen so programmiert 

werden können, dass beliebige → digitale Schaltungen implementiert werden können 

FSM Finite State Machine → Zustandsmaschine



Lukas Bauer 

Dissertation 


Glossar 

Seite 107 

Gate Array Reguläre Anordnung von Transistoren auf vorprozessierten → Wafern, deren Verbindungen 

über wenige Metallisierungsmasken hergestellt werden können, um so 

→ NRE-Kosten bei der Fertigung der → integrierten Schaltungen zu sparen 

Gatter Grundelemente → digitaler → integrierter Schaltungen zur logischen Verknüpfung von 

Signalen; ein UND-Gatter z. B. liefert am Ausgang nur den logischen Wert 1, wenn alle 

Eingangssignale den Wert 1 haben, anderenfalls den Wert 0 

Als Komplexitätsmaß entspricht ein Gatter vier → Transistoren. 

GDSII Dateiformat für die Abgabe eines → Layouts an einen → Halbleiterhersteller 

Gehäuse Da ein → Die nicht auf Leiterplatten gelötet werden kann, wird er durch → bonden in 

ein IC-Gehäuse montiert, das an den Kanten oder der Unterseite lötbare Anschlüsse 

besitzt. 

grafisches HDL Spezifikationsformat für → digitale → integrierte Schaltungen, bei dem 

→ HDL-Texte kombiniert mit grafischen Darstellungsformen wie → Zustandsmaschinen 

und → Schematics eingesetzt werden 

Halbleiter Ein Material wie z. B. Silizium, das im reinen Zustand isoliert, aber durch Dotierung 

mit Fremdatomen elektrisch leitfähig wird, da bewegliche Elektronen oder Löcher 

(Elektronen-Fehlstellen) entstehen. Durch elektrische Felder können die elektrischen 

Ladungsträger verdrängt oder angezogen werden, so dass eine Steuerung der Leitfähigkeit 

möglich ist (→ MOSFET). 

Halbleiterhersteller Ein Unternehmen, das nicht das Halbleitermaterial selbst herstellt, sondern 

→ integrierte Schaltungen daraus fertigt 

Hardwarebeschreibungssprache Computersprache zur Spezifikation von Ein- und Ausgangssignalen, 

Rechenoperationen und der Ablaufsteuerung in → digitalen → integrierten Schaltungen, 

geeignet für die Schaltungserzeugung durch → Logiksynthese 

HDL Hardware Description Language → Hardwarebeschreibungssprache 

High-End-Produkt Produkt des höchsten Funktions- bzw. Leistungsbereichs 

IC Integrated Circuit → integrierte Schaltung 

ICDA Integrated Circuit Design Automation. Der stark automatisierte Entwurf → integrierter 

Schaltungen 

Integrierte Schaltung Auf einem → Wafer aus → Halbleitermaterial werden mittels fotografischer 

Verfahren, Diffusions- und Ätzvorgängen viele elektronische Schaltungen mit 

allen Bauteilen, darunter evtl. Millionen von → Transistoren, einschließlich ihrer Verbindungen 

gleichzeitig gefertigt, so dass die preiswerte Produktion hochkomplexer 

Schaltungssysteme wie z. B. Computerbauteilen möglich wird. 

Inverter → Gatter zur Umkehr des logischen Pegels (0/1) eines → digitalen Signals 

I/O Inputs / Outputs. Die Ein- und Ausgänge einer → integrierten Schaltung als Schnittstellen 

zur Außenwelt, realisiert über → Pad-Zellen, die am Rand jedes → Dies liegen 

IP Intellectual Property. Teilschaltungen einer komplexen → integrierten Schaltung, die 

vom Entwickler gegen Gebühren anderen ASIC-Designern zur Mitbenutzung angeboten 

wird 

JTAG Joint Test Action Group. Standard eines Test-Interfaces, das den seriellen Zugang zu 

→ Boundary Scan Logik, → BIST-Strukturen und → Scan-Path-Ketten erlaubt 

Kondensator → Kapazität 

Kapazität Parallele Anordnung von Metallflächen, als elektronisches Bauteil Kondensator 

genannt, auf denen elektrische Ladungen gespeichert werden können. Da ein Umladen 

einer Kapazität Zeit kostet, beeinflussen unerwünschte aber unvermeidbare Kapazitäten 

in der Verdrahtung → integrierter Schaltungen deren Zeitverhalten



Lukas Bauer 

Dissertation 


Glossar 

Seite 108 

Layout Geometrische Strukturbeschreibung für die Fertigung → integrierter Schaltungen, die 

über Polygone und Linien in verschiedenen Ebenen die Form, Größe und Position von 

Diffusionsgebieten, Kontakten, Verbindungsbahnen etc. beschreibt und direkt für die 

Herstellung der → Masken verwendet wird 

Logik Gewöhnliche Grundelemente → digitaler Schaltungen wie → Gatter und → Flipflops, 

jedoch keine Speicher. 

Logiksynthese Automatische Erzeugung von → digitalen Schaltungen aus einer exakten, in 

einer → Hardwarebeschreibungssprache verfassten Spezifikation unter Verwendung 

von Entwurfs- und Optimierungsalgorithmen sowie Bibliotheken der zu verwendenden 

Grundelemente 

LVS Layout Versus Schematic. Vergleich von → Netzliste und → Layout mittels Computerprogrammen 

zur Verifikation der Layouterzeugung 

Masken Vorlagen für die Belichtung der → Wafer bei der Fertigung → integrierter Schaltungen, 

um mittels fotografischer Verfahren, Diffusions- und Ätzvorgängen Bauteile und Leiterbahnen 

auf dem → Halbleitermaterial gezielt erzeugen zu können 

Masse Bezugspotential von 0 Volt für Spannungsangaben 

Mixed Signal Kombination von → analoger und → digitaler Signalverarbeitung 

Modelsim Ein Simulator für Verhaltensbeschreibungen und → Netzlisten, auch kombiniert in den 

→ Hardwarebeschreibungssprachen Verilog und VHDL 

MOSFET Metal Oxide Semiconductor Field Effect Transistor (Metall-Oxyd-Halbleiter-Feldeffekt-Transistor). 

Ein spannungsgesteuerter elektronischer Schalter mit einem Steueranschluss 

(Gate) aus Metall (heute aus polykristallinem Silizium), der durch Oxyd 

gegenüber dem → Halbleiter isoliert ist. Eine Spannung am Gate zieht Ladungsträger 

ins Halbleitermaterial und steuert so die Leitfähigkeit des Transistors, ohne dass ein 

statischer Steuerstrom fließt. 

MPW Run Um → NRE-Kosten zu sparen, werden auf einem → Wafer Prototypen von 

→ integrierten Schaltungen mehrerer Kunden gefertigt, die anteilige Maskenkosten 

bezahlen. 

Netzliste Textuelle Strukturbeschreibung einer Schaltung anhand von Bauelementen und ihren 

Verbindungen 

NRE Non Recurring Engineering [Costs]. Einmalige Einrichtungskosten bei der ASIC-Produktion 

für → Masken sowie evtl. für die → Layouterstellung und einen ersten Technologiedurchlauf 

(Musterfertigung) 

Pad-Zellen Zellen im Randbereich eines → Die, in denen größere Metallflächen (Pads) zum 

→ bonden der Ein- und Ausgangssignale des Chips in ein → Gehäuse zur Verfügung 

stehen 

Parasitäre Bauteile In CMOS-Technologien lassen sich z. B.→ Bipolar-Transistoren nur unter 

Verwendung von Strukturen (Wannen) herstellen, die eigentlich nicht hierfür konzipiert 

wurden. 

Parasitäre Kapazitäten Ungewollt entstehende → Kapazitäten. In Layouts → digitaler 

→ integrierter Schaltungen zählen hierzu alle Kapazitäten der Schaltungsverdrahtung. 

Phy Physical Layer. Physikalische Ebene einer Computerschnittstelle, die u. a. aus Leitungstreibern, 

Komparatoren und Filtern besteht 

Pitch Produktionstechnisch bedingter minimaler Mittenabstand z. B. von → Pads oder Leiterbahnen 

Place & Route Erzeugung eines → Layouts durch Platzieren und Verdrahten von → Standardzellen



Lukas Bauer 

Dissertation 


Glossar 

Seite 109 

Post Layout Nach Erstellung des → Layouts. Unter anderem das Zeitverhalten einer Schaltung 

(Post Layout Timing) wird von den Leiterbahnlängen und -Kapazitäten im Layout 

beeinflusst. 

RAM Random Access Memory (Schreib-lese-Speicher). Ein Speicher innerhalb eines Computersystems 

oder einer (integrierten) Schaltung, der mit Daten- oder Programminhalten 

beschrieben werden und gelesen werden kann, der die Daten aber nur so lange 

halten kann, wie eine Versorgungsspannung anliegt 

Redesign Änderung oder Neuentwurf einer fehlerhaft entworfenen → integrierten Schaltung 

RISC Reduced Instruction Set Computer. Ein Computer, dessen → CPU nur wenige Befehle 

beherrscht, welche aber so schnell ausgeführt werden, dass auch komplexe Funktionen 

(z. B. Multiplikationen) als Kette einzelner Befehle schnell bearbeitet werden können 

ROM Read Only Memory (Nur-lese-Speicher). Ein Speicher innerhalb eines Computersystems 

oder einer (integrierten) Schaltung, der mit unveränderbaren Daten- oder Programminhalten 

gefertigt wird 

Routing → Place & Route 

Scan Path Verschaltung aller → Flipflops in einer Schaltung zu Schieberegisterketten, die es 

ermöglicht, beim Test der Schaltung auf interne Flipflops observierend und kontrollierend 

zuzugreifen und so den Schaltkreis weitgehend unabhängig von seiner normalen 

Funktion zu testen 

Schematic Schaltplan, der die elektrischen Verbindungen einzelner Bauteile, meist innerhalb einer 

→ integrierten Schaltung, wiedergibt 

Script Eine Datei, die Befehlssequenzen und evtl. Parameterdefinitionen enthält 

sdf Standard-Dateiformat für Daten zu parasitären Widerständen und → Kapazitäten im 

→ Layout einer → integrierten Schaltung 

SoC System on a Chip. Die Integration aller wesentlichen Komponenten eines (Computer)Systems 

auf einer → integrierten Schaltung einschließlich einer → CPU und des 

Speichers 

Speedchart Ein Eingabe- und Simulationsprogramm für → grafisches HDL 

Standardzellen Grundbausteine (→ Gatter und → Flipflops) einer → integrierten Schaltung, zu 

denen Simulationsmodelle und aneinander reihbare → Layouts existieren 

State Machine → Zustandsmaschine 

Strukturbreite Minimale in einer Technologie zulässige Gate-Länge von → MOSFETs 

Submikron → Strukturbreiten unterhalb von einem Mikrometer (1μm = 1/1000 mm) 

synchron Gleichzeitige Ansteuerung aller → Flipflops einer → integrierten Schaltung mit einem 

identischen Taktsignal 

Synopsys Ein → Logiksyntheseprogramm 

Synthese → Logiksynthese 

top down Im → Design Flow wird mit der groben Spezifikation begonnen, die Schaltung strukturiert 

und nach und nach immer feiner ausgearbeitet; es wird also von oben nach unten 

vorgegangen, nach Möglichkeit ohne höhere, bereits fertige Ebenen noch einmal zu 

ändern. 

Transistor → Halbleiter-Bauelement, das als Verstärker oder als elektrisch gesteuerter Schalter 

eingesetzt werden kann. Man unterscheidet die spannungsgesteuerten → MOSFETs 

und die stromverstärkenden → Bipolartransistoren 

TSMC Taiwan Semiconductor Manufacturing Company. Der erste und bis heute größte 

→ Halbleiterhersteller, der im reinen Kundenauftrag → integrierte Schaltungen nach



Lukas Bauer 

Dissertation 


Glossar 

Seite 110 

angelieferten → GDSII-Vorlagen fertigt, ohne eigene Designleistungen anzubieten 

oder eigene ICs zu produzieren (Foundry Business) 

TTL Transistor Transistor Logic. Unmodernes Konstruktionsprinzip für → digitale 

→ integrierte Schaltungen aus → Bipolartransistoren 

UART Universal Asynchronous Receiver and Transmitter. Eine einfache Schnittstelle zur 

Datenübertragung, bei der die Bits als Spannungspegel in konstanten zeitlichen Abständen 

ohne weitere Synchronisationssignale übertragen werden 

Übersprechen Gegenseitige Beeinflussung von Signalen, zwischen denen → parasitäre Kapazitäten 

existieren 

USB Universal Serial Bus. Eine moderne serielle Schnittstelle mit hoher Datenrate zum 

Anschluss von Peripheriegeräten 

Verifault Ein Fehlersimulator für → Verilog-Netzlisten, der zur Optimierung der Testmuster für 

den Produktionstest ermitteln kann, welcher Anteil aller möglichen (Fertigungs)fehler 

bei der Simulation (bzw. beim Test) detektiert werden kann 

Verilog Eine weit verbreitete → Hardwarebeschreibungssprache 

Verilog-XL Ein Simulator für Verhaltensbeschreibungen und → Netzlisten in → Verilog 

VHDL Very High Speed Integrated Circuits Hardware Description Language. Eine weit verbreitete 

→ Hardwarebeschreibungssprache 

Wafer Dünne runde Scheiben aus einem → Halbleitermaterial wie z. B. Silizium, aus denen 

→ integrierte Schaltungen gefertigt werden 

Wire Load Model Statistische Modellierung der zu erwartenden Metallisierungskapazitäten von 

Leiterbahnen im → Layout einer → integrierten Schaltung, die als Grundlage für die 

→ Timing-Analyse bei der → Logiksynthese dient 

Yield → Ausbeute 

Zustandsmaschine Eine Schaltung zur Ablaufsteuerung innerhalb einer → integrierten Schaltung, 

die in Abhängigkeit von Eingangssignalen ihren gespeicherten Zustand ändert und je 

nach Zustand verschiedene Operationen ausführen und Ausgangssignale erzeugen kann 

(s. Abbildung 4-1 auf Seite 31)



Lukas Bauer 

Literaturverzeichnis 

Wachstum der Mikroelektronik 

Dissertation 



Seite 111 

[1] “Workshop Conclusions [The National Technology Roadmap for Semiconductors, 1992]”, 

Semiconductor Industry Association, San Jose, California, 1993 

[2] “The National Technology Roadmap for Semiconductors, 1994 Edition”, Semiconductor 

Industry Association, San Jose, California, 1994 

http://www.lirmm.fr/~w3mic/Docs/roadmap.pdf 

/home/bauer/texte/dis/dokumente/SIA_Roadmap_1994.pdf 

[3] “The National Technology Roadmap for Semiconductors, 1997 Edition”, Semiconductor 


http://www.lirmm.fr/~w3mic/Docs/roadmap4.pdf 

/home/bauer/texte/dis/dokumente/SIA_Roadmap_1997.pdf 

[4] “International Technology Roadmap for Semiconductors, 1999 Edition”, Semiconductor 


http://public.itrs.net/files/1999_SIA_Roadmap/ 

/home/bauer/texte/dis/dokumente/SIA_Roadmap_1999 

[5] “EDA Industry Standards Roadmap”, Sematech, Inc., 1995 

http://www.si2.org/roadmap/roadmapHomePage.html 

/home/bauer/texte/dis/dokumente/EDA_Industry_roadmap.ps 

[6] “Clock Cycle Estimation and Test Challenges for Future Microprocessors”, Sematech, Inc., 

1998 

http://www.sematech.org/public/docubase/document/3484atr.pdf 

/home/bauer/texte/dis/dokumente/SIA_Clock_Cycle.pdf 

[7] “Efficient Full-Chip Yield Analysis Methodology for OPC-Corrected VLSI Designs”, V. 

Axelrad, N. Cobb, M. O’Brien, V. Boksha, T. Donnelly, Y. Granik, E.Sahouria, A. Balasinski, 

2000 

http://www.sequoiadesignsystems.com/qed.pdf 

/home/bauer/texte/dis/dokumente/Efficient_Yield_Analysis.pdf 

[8] “Foundry Market Outlook: Into The Fire”, James Hines, Dataquest Group, 2000 

http://www.fsasurvey.com/2000/insights/hines.asp 

/home/bauer/texte/dis/dokumente/silicon_prices.ps 

[9] “Where will processor performance improvement come from in the next ten years?”, Hiroshi 

Iwai, ISSCC 2000 

http://www.cag.lcs.mit.edu/isscc2000panel/hiroshiiwai.pdf 

/home/bauer/texte/dis/dokumente/hiroshiiwai.pdf 

[10] “Die Size Trends”, Semiconductor Consulting Service, 1997 

http://www.semiconsulting.com/archive.html 

/home/bauer/texte/dis/dokumente/SCS/Die_Size_Trends.pdf 

[11] “Minimum Line Width Trends”, Semiconductor Consulting Service, 1997 


/home/bauer/texte/dis/dokumente/SCS/Min_Linewidth_Trends.pdf 

[12] “MOS Process Complexity Trends”, Semiconductor Consulting Service, 1997 


/home/bauer/texte/dis/dokumente/SCS/MOS_Complexity_Trends.pdf 

[13] “Evolution of Intel Microprocessors: 1971 to 2003”, 2001 

http://www.archivebuilders.com/whitepapers/22016h.html 

/home/bauer/texte/dis/dokumente/Evo_of_Micro.ps



Lukas Bauer 

[14] “Intel Microprocessor Guide”, 2001 

http://morehouse.8m.com/processor.htm 

/home/bauer/texte/dis/dokumente/Micro_Guide.ps 

Dissertation 


[15] “Hard Phase Shift”, Photronics, 2001 

http://www.photronics.com/internet/prodserv/techdev/phaseshift/phaseshift.htm 

/home/bauer/texte/dis/dokumente/Phase_Shift.ps 


Seite 112 

[16] “Who Has Nanometer Design Under Control ?”, S. Wang, S. Borkar, E. Cheng, J. Cohn, N. 

Nettleton, L. Scheffer, DAC 2001 

http://videos.dac.com/videos/38th/36/36/36slides.pdf 

/home/bauer/texte/dis/dokumente/Nanometer.pdf 

[17] “Technology Trends: The Nature of Exponential Change”, Professor Sam Wood, Stanford 

University, 2000 

http://www.stanford.edu/~swood/T361/trends.pdf 

/home/bauer/texte/dis/dokumente/Technology_Trends.pdf 

[18] “Review of Technology Trends and Cost/Performance”, Professor Jan M. Rabaey, Berkeley, 

2000 

http://bwrc.eecs.berkeley.edu/Classes/CS252/Notes/Lec01-intro.pdf 

/home/bauer/texte/dis/dokumente/Rabaey.pdf 

[19] “Subwavelength Challenge”, Numerical Technology, Inc., 2001 

http://www.numeritech.com/technology/subwavelength.html 

/home/bauer/texte/dis/dokumente/subwavelength.ps 

[20] Einzelinformationen aus dem Internet 

Die Abbildungen 3-1 bis 3-15 auf Seite 21 bis 24 wurden zum Teil unter Verwendung von Einzelinformationen aus dem Internet generiert, 

wobei auf die Quellenangabe verzichtet wurde, wenn einer Quelle nicht mehr als ein Wert entnommen wurde. 

Da eine Zuordnung der einzelnen Punkte in den Grafiken zu bestimmten Internet-Seiten ohnehin nicht möglich gewesen wäre und die 

Inhalte des Internets erfahrungsgemäß schnellen Änderungen unterliegen, lassen sich die Informationen mit Hilfe von Suchprogrammen 

im Internet ohnehin gezielter und zuverlässiger wiederfinden als bei Angabe einer Liste von Quellen. 

Schaltungstechnik, Schaltungsentwurf 

[21] Tietze, Schenk: „Halbleiter-Schaltungstechnik“, 9. Auflage, Springer-Verlag, Berlin, 1989 

[22] Gray, Meyer: “Analysis and Design of Analog Integrated Circuits”, 2nd edition, Wiley, New 

York, 1984 

[23] C. Mead, L. Conway: “Introduction to VLSI Systems”, Addison-Wesley,1980 

[24] VLSI Technology: “Static RAM Testing Application Note”, Version 1.0, 1997 

/home/bauer/texte/dis/dokumente/Static_RAM_Testing_v1_0.pdf 

[25] VLSI Technology: “VLSI Memory Testing Requirements”, Version 1.0, 1999 

/home/bauer/texte/dis/dokumente/VLSI_RAM_Test_requrements.pdf 

[26] “Semiconductor memory device with row and column redundancy circuits and a timeshared 

redundancy circuit test architecture”, Luigi Pascucci, Europäisches Patentamt, Nr. 

96830326.3, 1997 

http://www.european-patent-office.org/correct/01_pdfdocs/0811988a.pdf 

/home/bauer/texte/dis/dokumente/Redundancy.pdf 

[27] Kenneth P. Parker: “The Boundary-Scan Handbook”, Kluwer Academic Publishers, 1992 

[28] “1T-SRAM, The System-on-Chip Embedded Memory”, MoSys, Inc., 2001 

http://www.mosysinc.com/products/1tsram3.pdf 

/home/bauer/texte/dis/dokumente/Mosys_1tsram3.pdf 

[29] “Built In Self Test”, Ranga Vemuri, College of Engineering, University of Cincinnati, 2001 

http://www.ececs.uc.edu/~ranga/courses/682/slides-spring-2001/BIST2.pdf 

/home/bauer/texte/dis/dokumente/LFSR.pdf



Lukas Bauer 

Dissertation 


[30] D. L. Perry: “VHDL”, 2nd edition, McGraw-Hill, New York, 1994 


Seite 113 

[31] Chr. v. Reventlow: „VLSI-Design komplexer Systeme – Steuerung und statistische Kontrolle 

des Entwurfsablaufs“, Dissertation, TU Berlin, Institut für Mikroelektronik, 1993 

[32] U. Elsholz, G. Gottschalk, G. Müller: „Vergleich des Aufwandes verschiedener Repräsentationen 

im Digitalentwurf“, TU Berlin, Institut für Mikroelektronik, 1995 

/home/bauer/texte/dis/dokumente/eis/beitrag/main.028 

[33] L. Bauer, O. Manck: „Von grafischem VHDL zur FPGA-Realisierung“, TU Berlin, Institut 

für Mikroelektronik, 1995 

/home/bauer/texte/dis/dokumente/Vortrag_graph_VHDL.fm 

[34] L. Bauer: „Speedchart-Praktikum, Synthese und Umsetzung ins FPGA“, TU Berlin, Institut 

für Mikroelektronik, 1995 

/home/bauer/texte/dis/dokumente/Speed_Praktikum_Unterlagen.fm 

[35] L. Bauer: „Testbericht, Test eines Bildmustergenerator-ASICs“, TU Berlin, Institut für 

Mikroelektronik, 1996 

/home/bauer/texte/dis/dokumente/Testbericht_PIC.fm 

[36] L. Bauer: „Von der Spezifikation zum Silizium: Speedchart - Synopsys - Cascade“, Vortrag 

auf dem Eurochip Workshop, 1994 

[37] Ethernet-Konsortium der University of New Hampshire 

http://www.iol.unh.edu/consortiums/index.html 

[38] Christof Bergmann: „Entwurf und Realisierung eines 3D-Grafikprozessors mit 1,2 Millionen 

Gattern in 0,35 μm CMOS Technologie“, TU Berlin, Diplomarbeit (Betreuer: Lukas 

Bauer), Institut für Mikroelektronik, 1998 

/home/bauer/texte/diplomarbeit_christof.tgz 

[39] Jens Völkl: „Ein vollständig digital kalibrierbares Sensor-ASIC“, TU Berlin, Diplomarbeit 

(Betreuer: Lukas Bauer), Institut für Mikroelektronik, 2000 

/home/bauer/texte/diplomarbeit_jens 

Design Flow, CAE Tools, Halbleiterhersteller 

[40] Samsung Electronics Co., Ltd.: “CubicWare Hierarchical Design Environment for the Deep 

Submicron Design in Samsung”, 2000 

/home/bauer/texte/dis/dokumente/CubicWare2000V6_a.pdf 

[41] Synopsys: “DesignWare Foundation Library”, Vol. 1, 1999 

/home/bauer/texte/dis/dokumente/Synopsys_DesignWare_1.ps 

[42] Samsung Electronics Co., Ltd.: “Satest2 V.2.20 Manual”, 2000 

/home/bauer/texte/dis/dokumente/Satest.pdf 

[43] Cadence Design Systems: “Cadence Delivers Industry’s First Tool Integrating Synthesis 

and Place-and-Route Technologies”, 1999 

http://www.cadence.com/company/pr/archive99/07_12_99.html 

/home/bauer/texte/dis/dokumente/Cadence_PKS.ps 

[44] Samsung Electronics Co., Ltd.: “STD90/DML90 0.35um 3V CMOS Standard Cell Library 

Data Book”, 2nd edition, 1999 

[45] AMS Austria Mikro Systeme International: “2.0-Micron, 1.2-Micron, 1.0-Micron and 0.8- 

Micron Standard Cell Databook”, 1996



Lukas Bauer 

Dissertation 



Seite 114 

[46] AMS Austria Mikro Systeme International, Rainer Kind: Informationen zum Leistungsverbrauch 

von Gattern in verschiedenen Technologien, 2001 

/home/bauer/texte/dis/dokumente/AMS_power_per_gate.pdf 

[47] TSMC-Online: diverse Technologie-Informationen im Internet, TSMC, 2001 

http://www.tsmc.com/ 

https://ectwww2.tsmc.com/online/on_login1.jsp 

[48] Altera: “ARM-Based Embedded Processor”, 2001 

http://www.altera.com/products/devices/excalibur/exc-arm_index.html 

/home/bauer/texte/dis/dokumente/Altera_ARM.ps 

[49] NEC: “System-on-Chip Lite, Gate Array with ARM7TDMI Subsystem”, 2001 

http://www.nec.de/_PDF/A15045EE4V0PL00.PDF 

/home/bauer/texte/dis/dokumente/SoCLite.pdf 

Zitate 

[50] Markus Schirmer, TU Berlin: „Der ASIC-Designer fürchtet zwei Dinge im Leben: dass ihm 

der Himmel auf den Kopf fällt und dass der Chip nicht funktioniert.“, mündlich, 1992 

[51] Murhpy’s Law: “If anything can go wrong, it will.”, nach Edward A. Murphy Jr., 1949 

http://www.hithere.com/murphy/origin.htm 

[52] Niels Bohr: “Prediction is very difficult, especially about the future.” 

[53] Gordon Moore: “The complexity for minimum component costs has increased at a rate of 

roughly a factor of two per year. Certainly over the short term this rate can be expected to 

continue, if not to increase. Over the longer term, the rate of increase is a bit more uncertain, 

although there is no reason to believe it will not remain constant for at least 10 years.”, 1965

ASICs 



Lukas Bauer 

Dissertation 



Seite 115 

Aufgeführt wurden nur ASICs, an deren Entwicklung der Verfasser beteiligt war und die tatsächlich 

gefertigt wurden. 

[A-1] Schachuhr: Digitale Schachuhr 

Technologie: 5μ Gate Array UMI UA4 

Designgröße: 5085μ × 4455μ = 22,7mm 2 

Komplexität: 2.676 Transistoren (digital) 

Tapeout: 20.01.1991 

Designer: Rüdiger Arnold, Lukas Bauer, Matthias Braun, Christian Piesnack 

[A-2] ECL-Teiler: Frequenzteiler in ECL-Technik 

Technologie: Bipolar Array AEG B1000 


Komplexität: 193 Transistoren (digital) 

Tapeout: 30.07.1991 

Designer: Rüdiger Arnold, Lukas Bauer, Matthias Braun, Thuyen Le, Christian Piesnack 

[A-3] TV-Chip: Single-Chip-Farbfernseher 

Technologie: 1.2μ BiCMOS Samsung 


Komplexität: 21.836 Transistoren+R+C, davon 9.602 T digital, 12.234 T+R+C analog 

Tapeout: 24.06.1993 

Designer: Rüdiger Arnold, Lukas Bauer (PLL-Audio-Demodulator), Hr. Janelli, Thomas Lorenz (Projektleiter), 

Martin Rose, Markus Schirmer, Stefan Wahl, Jens Werner 

[A-4] Parity: Ultraschneller Parity Generator für Speichermodule 

Technologie: 0.8μ 2m1p AMS CYB 


Komplexität: 2.106 Transistoren (digital, überwiegend full custom) 

Tapeout: 01.09.1994 

Designer: Rüdiger Arnold, Lukas Bauer (Projektleiter) 

[A-5] Pic: TV-Bildmustergenerator zum Test von Satellitenempfängern 



Komplexität: 8.813 Transistoren+R+C, davon 8.753 T digital, 60 T+R+C analog 

Tapeout: 14.08.1995 

Designer: Lukas Bauer (Projektleiter), Christof Bergmann 

[A-6] GRST: Pulsgenerator für Ultraschall-Gruppenstrahler 




Tapeout: 20.11.1995 

Designer: Lukas Bauer (Projektleiter), Christof Bergmann 

Highlight: 100MHz Taktfrequenz (worst case) in 0.8μ CMOS 

[A-7] DVS: Richtungsselektiver Empfänger für Ultraschall-Gruppenstrahler 

Technologie: 0.8μ 2m1p ES2 ECPD07 


Komplexität: 218.174 Transistoren, davon 62.838 T digital und 15 kBit FIFO 

Tapeout: 11.06.1996 

Designer: Lukas Bauer (Projektleiter), Marius Tegethoff 

[A-8] Key: Tastatur-Encoder und Displaytreiber für Handheld-PCs 


Designgröße: 3440μ × 3330μ = 11.5mm 2 


Tapeout: 20.10.1997 

Designer: Lukas Bauer (Projektleiter), Knut Dalkowski, Marius Tegethoff 

[A-9] Miri: Analoges Netzspannungs-Stabilisierungsgerät 

Technologie: 1.2μ 50V 2m1p AMS CBZ 


Komplexität: 5.355 Transistoren (analog) 

Tapeout: 16.01.1998 

Designer: Rüdiger Arnold, Lukas Bauer (beide Projektleiter), Hans Burgdorf, Marco Liem, Marius Tegethoff



Lukas Bauer 

Dissertation 



Seite 116 

[A-10] VISA + Rendi: 3D-Grafikprozessor mit Hardware Phong Shading 

Technologie: 0.35μ 4m1p TSMC 


Komplexität: 5.248.945 Transistoren, davon 4.439.253 T digital, 74 kBit FIFO, 648 kBit ROM 

Tapeout: 01.11.1998 

Designer: Lukas Bauer (Projektleiter), Christof Bergmann, Enrico Krull, Markus von Lehmann, Oliver Meisel 

[A-11] VISA + Tamic: Texturprozessor für 3D-Grafikprozessor 

Technologie: 0.35μ 4m1p TSMC 


Komplexität: 3.031.169 Transistoren, davon 1.963.086 T digital, 104 kBit FIFO, 128 Bit ROM 

Tapeout: 01.11.1998 

Designer: Lukas Bauer (Projektleiter), Christof Bergmann, Enrico Krull, Markus von Lehmann 

[A-12] HiS924A: Universelles Chipkarten-Interface mit Schaltnetzteil 

Technologie: 0.8μ 2m2p AMS CYE 


Komplexität: 47.262 Transistoren, davon 43.444 T digital, 3.303 T+R+C analog, 6 Bit ZPROM 

Tapeout: 24.12.1998 

Designer: Rüdiger Arnold (Projektleiter), Lukas Bauer (Digitalteil), Christian Feucht 

[A-13] Proteus: Messchip zur Leistungsregelung in 3-Phasen-Systemen 



Komplexität: 195.737 Transistoren+R+C, davon 62.323 T digital, 133.414 T+R+C analog 

Tapeout: 26.02.1999 

Designer: Lukas Bauer, Michael Gatzmann (Projektleiter), Enrico Krull, Thilo Mohr 

[A-14] Adam: ARM7-Microcontroller mit diversen Schnittstellen 

Technologie: 0.5μ 3m Samsung STD85 


Komplexität: 1.114.136 Transistoren, davon 341.416 T digital, 1 ARM7TDMI, 1 8-Kanal-8-Bit-ADC, 

16kByte RAM, 8kByte ROM 

Netzlistenabgabe: 07.10.1999 

Designer: Lukas Bauer, Michael Gatzmann (Projektleiter), Maik Heese 

[A-15] Smart Sensor: Sensorcontroller mit Linearisierung und Temperaturkompensation 



Komplexität: 61.188 Transistoren+R+C, davon 27.500 T digital, 33.688 T+R+C analog, 368 Bit ZPROM 

Tapeout: 24.12.1998 

Designer: Rüdiger Arnold, Lukas Bauer, Thilo Mohr, Alfred Probst, Jens Völkl (Projektleiter) 

[A-16] Transponder: Meßchip-Transponder mit Datenprotokollierung 



Komplexität: 49.423 Transistoren+R+C, dav. 30.262 T digital,, 2.274 T+R+C analog, 256 Byte RAM, 20 Bit ZPROM 

Tapeout: 25.05.1999 

Designer: Lukas Bauer, Christian Feucht (Projektleiter), Jens Völkl 

[A-17] P2000: ISDN-Telekommunikations-Controller mit ARM7-CPU 



Komplexität: 1.489.056 Transistoren, davon 484.904 T digital, 1 ARM7TDMI, 2 Audio-Codecs, 2 PLLs, 

139 kBit RAM, 64 kBit ROM 


Designer: Lukas Bauer, Roman Koczy, Jurij Kostasenko (Projektleiter), Karsten Westerdorf, Xiang-Long Yin 

[A-18] CENS: Echo- und Rauschunterdrückungs-IC für Sprachsignale 



Komplexität: 1.646.296 Transistoren, davon 326.064 T digital, 2 Audio-Codecs, 309 kBit RAM 


Designer: Lukas Bauer, Marco Liem (Projektleiter), Sven Fiedrich, Christian Sorge 

[A-19] P2001: ISDN-Ethernet-Kommunikationsprozessor mit ARM9-CPU 



Komplexität: 4.336.349 Transistoren, dav. 1.614.178 T digital, 1 ARM9TDMI, 2 PLLs, 498 kBit RAM, 256 kBit ROM 


Designer: Lukas Bauer (Projektleiter), Sven Fiedrich, Maik Heese, Roman Koczy, Jurij Kostasenko, André Krüger, 

Christian Sorge, Karsten Westerdorf



Lukas Bauer 

ASIC Gallery 

Dissertation 



Seite 117 

1 2 3 4 

5 6 7 8 

9 10 11 12 

13 14 15 16 

17 18 19



Lukas Bauer 

Dissertation 



Seite 118

pdf-Datei mit 72-dpi-Fotos - FG Mikroelektronik, TU Berlin

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?