Folien zur Vorlesung 2

90-classical-some.fm 

“CLASSICAL” C/S APPLICATIONS 

5. SOME STANDARD 

APPLICATIONS 

1. Terminal Emulation 

2. rlogin 

3. telnet 

4. File Transfer 

5. Trivial File Transfer Protocol (TFTP) 

6. File Transfer Protocol (FTP) 

Communication Systems Research Group Prof. Dr.-Ing. Norbert Luttenberger 

Computer Science Dept., CAU Kiel

Recommended reading 

[1] J. Postel, J.K. Reynolds: 

Telnet Protocol Specification. 

RFC-0854, May 1983 

[2] J. Postel, J. Reynolds: 

File Transfer Protocol. 

RFC-0959, October 1985 

5-2

Terminal Emulation (1) 

Ein Rechner fungiert in einem Netzwerk als („dummes“) Terminal 

an einem oder mehreren anderen Rechnern. 

Netzwerk 

— Zugriff auf Anwendungen, die auf fremden Rechnern laufen 

— Zugriff von einer Maschine auf mehrere andere Maschinen 

— Emulation von Terminals mit unterschiedlicher Technik 


Computer Science Dept., CAU Kiel 5-3

5-4


Terminal-Typen 

— Character-mode Terminals: UNIX, DOS, ... 

anwendungsspezifische 

Reaktion 

darstellbare Zeichen, 

Steuerzeichen 

Charakteristikum: 

zeichenweiser Verkehr zwischen Rechner u. Terminal 

entweder Wiedergabe des an der Tastatur eingegebenen Zeichens 

auf dem Bildschirm: „Echo“ 

oder Auslösung einer komplexen Reaktion: nach Steuerzeichen, 

nach letztem Zeichen in einem Feld usw. 



5-6


Terminal-Typen (Forts.) 

— Full-screen Terminals: IBM 3270, 5250 (AS/400), Siemens 9750, ... 

Chrakteristikum: seitenweiser Verkehr zum Rechner 

Eine Bildschirmseite wird lokal aufgebaut und mit Drücken der 

„DÜ-Taste“ ganz oder teilweise zum Rechner übertragen. 

Pro Bildschirmseite können bis zu 2000 Zeichen (incl. Farb-, Feldinformationen) 

übertragen werden. 

— Graphik-Terminals (Bit-mapped Terminals): X-11, Windows, ... 

Austausch komplexer Graphikinformation 

neben Tastatur die Maus als Eingabegerät 

Zeichen, Schriften, Koordinaten, Farben, Vektoren, ... 

Graphical User Interfaces (GUIs) auf der Basis von HTML/XML 

— Text, Formatierungsanweisungen, Bilder, Formulare, Buttons, … 



5-8


Problemstellungen 

— Unterscheidung von drei Datenströmen: 

1. zwischen Benutzer und Anwendung (inkl. Steuerzeichen) 

2. zwischen Benutzer und Client (z.B. Abbruch der Session) 

3. zwischen Client und Server (z.B. Aushandlung von Optionen) 

— Terminal-Fähigkeiten: Zeichenvorrat, Größe (Zeilen × Spalten), ... 

— Einbettung in die Zielsysteme: Schnittstellen für Client und Server 

— Performance 

— Sicherheitsaspekte (Authentifizierung, Password-Übertragung, ...) 

1 

Client Netzwerk 

2 3 

Anwendung 

Server 



5-10

login (1) 

Terminal Emulation zwischen UNIX-Maschinen 

— Protokoll-Beschreibung in RFC-1282 (Kantor 1991) 

— „kleine“ Implementierung: 

Client und Server je ca. 1500 lines of code (LOC) 



5-12

login (2) 

Datenströme 

— Benutzer an Anwendung 

8-bit Zeichen, zeichenweiser Verkehr mit remote echo 

— Benutzer an Client 

Einleitung mit Escape-Zeichen ~ (Tilde), 

z.B. für Abbruch 

— Client/Server-Interaktion im TCP urgent mode („out-of-band“) 

Flußkontrolle 

Server sendet 0x10: Anwendung interpretiert Ctl-S, Ctl-Q 

Server sendet 0x20: Client soll Ctl-S, Ctl-Q interpretieren 

Terminalgröße (Window size) 

Server fordert „Zeilen × Spalten“ an: 0x80 

Client („in-band“): „0xff 0xff s s “ 

(xp, yp: Zeichengröße in [pixel]) 



5-14

login (3) 

Einbettung 

UNIX-Kern 

Terminal- 

-Treiber 

User 

rlogin 

Client 

TCP/IP 

TCP/IP 

TCP-Verbindung (port 513) 

rlogin 

Server 

Pseudoterminal 

Anwendg. 

— Pseudoterminal („pty“) erscheint für login-Prozeß und die nachfolgenden 

Anwendungsprozesse wie ein „reales“ Terminal. 



5-16

login (4) 

Sicherheit 

Client Server 

 

 

 

 

 

[Password:] 

[] 

— Server überprüft, 

ob im Home-Verzeichnis der eine Datei .rhosts ist 

ob darin ein Eintrag , ist 

( ermittelt aus der IP-Adresse des Absenders) 

Übertragung des Paßworts kann vermieden werden! 



5-18

telnet (1) 

Terminal Emulation zwischen „beliebigen Maschinen“ 

— Protokoll-Beschreibung in RFC-854 (Postel, Reynolds 1983) 

— „große“ Implementierung: Client und Server je ca. 8000 lines of code 

— Einbettung (genauso wie rlogin): 

UNIX-Kern 

Terminal- 

-Treiber 

User 

telnet 

Client 

TCP/IP 

TCP/IP 

TCP-Verbindung (port 23) 

telnet 

Server 

Pseudoterminal 

Anwendg. 

— Pseudoterminal („pty“) erscheint für login-Prozeß und die nachfolgenden 

Anwendungsprozesse wie ein „reales“ Terminal. 



5-20

telnet (2) 

Datenstrom: Network Virtual Terminal (NVT) 

— Mit telnet ist ein „Standard-Terminaldatenstrom“ (NVT-ASCII) definiert, auf dessen 

Eigenschaften Client und Server „ihren“ lokalen Datenstrom abbilden müssen. 

lokaler 

Datenstrom 

— Definition NVT-ASCII: 

NVT 

7-bit US-ASCII, gesendet als 8-bit Byte, MSB=0 

Zeilenende dargestellt durch , 

Wagenrücklauf durch 

Client Server Anwendung 

NVT-Datenstrom 

lokaler 

Datenstrom 

Kommandos zwischen Benutzer u. Server, Client u. Server: 

eingeleitet durch IAC (0xff) : „Interpret As Command“ 



5-22

telnet (3) 

Benutzer-Kommandos an den Server 

lokaler 

Datenstrom 

Name Code Beschreibung 

— Auslösung dieser Zeichen: „local matter“ 


NVT 

IP 244 Interrupt Process: Erzeuge das lokale Signal, um den Anwendungsprozeß 

abzubrechen. 

AO 245 Abort Output: Fordere den Anwendungsprozeß auf, seine laufende 

Ausgabe abzubrechen. 

AYT 246 Are You There: Server, lebst Du noch? 

EC 247 Erase Character: Lösche das letzte eingegebene Zeichen. 

EL 248 Erase Line: Lösche die letzte eingegebene Zeile. 

lokaler 

Datenstrom 

— IP, AO, AYT werden typischerweise im TCP Urgent Mode gesendet. 



5-24

telnet (4) 

Optionen: zwei Beispiele 

— „Paketierung“ character-at-a-time oder linemode 

— Echo durch Client (local echo) oder Server (remote echo) 

lokaler 

Datenstrom 

local echo remote echo 


NVT 

— Drei Szenarien mit unterschiedlichen Anforderungen: 

lokaler 

Datenstrom 

1. Password-Eingabe: linemode, remote echo 

Lokales Echo würde Password auf dem Bildschirm sichtbar machen. 

2. Interaktive Kommandobearbeitung: linemode, local echo 

Erzeugt am wenigsten Verkehr. 

3. Textbearbeitung mit einem Editor: character-at-a-time, remote echo 

Nur Anwendung kann „darstellbare Zeichen“ und „Steuerzeichen“ unterscheiden. 



5-26

telnet (5) 

Optionen (Forts.) 

— Aushandlung über Kommandos 

WILL, WONT, DO, DONT (251 - 254) 

Client und Server können als Sender und als Empfänger auftreten. 

Sender Empfäng. Beschreibung 

1. WILL → ← DO 

2. WILL → ← DONT 

3. DO → ← WILL 

4. DO → ← WONT 

5. WONT → ← DONT 

6. DONT → ← WONT 

Sender will Option aktivieren; 

Empfänger ist einverstanden. 

Sender will Option aktivieren; 

Empfänger ist nicht einverstanden. 

Sender will, daß Empfänger Option aktiviert; 

Empfänger ist einverstanden. 

Sender will, daß Empfänger Option aktiviert; 

Empfänger ist nicht einverstanden. 

Sender will Option deaktivieren; 

Empfänger muß zustimmen. 

Sender will, daß Empfänger Option deaktiviert; 

Empfänger muß zustimmen. 



5-28

File Transfer (1) 

Erzeugen einer Dateikopie 

— lokale Kopie einer entfernten Datei 

— entfernte Kopie einer lokalen Datei 



5-30


Vier Szenarien 

1. Urladen (bootstrapping) von diskless workstations 

Maschinen verfügen nicht über eine eigene Platte; der Betriebssystem-Code muß 

über das Netz in den Hauptspeicher geladen werden; nur lesender Zugriff. 

2. Dokumenten-Archive 

Zentrale Aufbewahrung von Dokumenten; nur lesender Zugriff. 

3. Back-up 

Sicherung des eigenen Datenbestandes über das Netz auf dem Plattenspeicher eines 

anderen Rechners. Keine konkurrierenden Schreib-/Leseoperationen. 

4. Austausch von Arbeitsergebnissen in einer Arbeitsgruppe 

Konkurrierender Zugriff wird über check-in/check-out-Prozeduren ausgeschlossen 

(z.B. Source Code Control System). 



5-32



— Zugriffsrechte 

Authentifizierung und Autorisierung des Benutzers 

Verzeichnis- und Datei-Attribute 

— Dateinamenskonventionen, z.B. 

DOS: c:\vorlesg\ks2\ftp.mkr 

UNIX: /home/lu/vorlesungen/ks2/filetransfer.maker 

— unterschiedliche Datenformate 

ASCII, EBCDIC, binär, ... 

satzstrukturierte Dateien, unstrukturierte Dateien, ... 

— … 



5-34

Trivial File Transfer Protocol (TFTP) (1) 

Ziel der Entwicklung: ein einfaches Protokoll, das in den 

ROM-Speicher von diskless workstations paßt. 

— benutzt z.B. für das Urladen von diskless workstations 

— TFTP Server Port: 69/udp 

TFTP 

UDP 

IP 

Protokoll-Stack 



5-36

File Transfer Protocol (FTP) (1) 

Ziel der ftp-Entwicklung: ein Protokoll, das auch in heterogenen Umgebungen 

angewendet werden kann 

— für allgemeine, meist interaktive Anwendungen 

— eigene Security-Funktionen 

— FTP Server Ports: 21/tcp control connection 

20/tcp data transfer connection 

FTP 

TCP 

IP 

Protokoll-Stack 



5-38


Ports und Connections 

user 

file 

system 

user 

interface 

protocol 

interpreter 

data 

transfer 

Client 

control 

data 

protocol 

interpreter 

data 

transfer 

Server 

file 

system 

— ftp-Session startet mit Aufbau einer control connection: port 21/tcp: Austausch von 

Authentifizierungsinformation und ftp commands/replies 

— je Übertragung (Datei-Inhalt, Verzeichnisse, …) eine neue TCP-Verbindung: 

Server: Port 20, Client: Port-Nummer wird dem Server über die control connection 

dynamisch mitgeteilt (ftp command „port“) 



5-40


FTP Commands (C → S) (Auswahl) 

— Authentifizierung 

USER user-id des Benutzers (auf dem Server) 

PASS password des Benutzers (auf dem Server) 

— Kontrolle 

PORT Client Port-Nummer für nachfolgenden Transfer 

TYPE Datenformat (A: ASCII, I: binär („image“)) 

QUIT Ende der ftp-Session 

— Datentransfer 

RETR Transfer S → C 

STOR Transfer C → S 

LIST Holen eines Verzeichnisses 

— Kommandos werden in NVT-ASCII übertragen 

3 - 4 Großbuchstaben, Leerzeichen, Parameter, 



5-42

91-classical-dns.fm 

CLASSICAL C/S APPLICATIONS 

6. DIRECTORY SERVICES 

(1) 

1. Einführung 

2. Anforderungen an eine Architektur 

3. DNS-Komponenten 

4. Domain Names 

5. Namensauflösung 

6. DNS-Protokolle und -dienste 




[1] P. Mockapetris: 

Domain names - implementation and specification. 

RFC 1035, 11/01/1987, Internet Std. 13. 

[2] P. Mockapetris 

Domain names - concepts and facilities. 

RFC 1034, 11/01/1987, Internet Std. 13. 

[3] M. Lottor 

Domain administrators operations guide. 

RFC 1033, 11/01/1987. 

[4] P. Vixie 

A Mechanism for Prompt Notification of Zone Changes (DNS NOTIFY). 

RFC 1996, 08/28/1996, Updates RFC1035. 

[5] M. Ohta 

Incremental Zone Transfer in DNS. 

RFC 1995, 08/28/1996, Updates RFC1035. 

6-2

Einführung (1) 

Verzeichnisdienste … 

1. zur Auflösung eines symbolischen Namens für ein Rechensystem 

in eine Netzwerkadresse, z.B. 

Name 

? 

IP-Adresse 

im Internet das Domain Name System (DNS) 

2. zur Auflösung eines Personennamens in eine „User-Id“ 

oder eine Mail-Adresse 

X.500 oder das Lightweight Directory Access Protocol (LDAP) 

— hier zunächst: Einführung in das DNS 

vom Benutzer verwendete 

Hostbezeichnung 

von IP verlangte 

numerische Net-/Host-Id 



6-4

Anforderungen an eine Architektur (2) 

logische Namen ohne Bezug zu 

physischen Netzen, Rechnern etc. 

für alle verfügbaren 

Dienste und Adreßformate 

verteilte Datenhaltung 

lokale Pufferspeicher (Cache) 

Namen beziehen sich auf 

Organisation und ihre Gliederungen. 

universelle Mechanismen für 

die Namensauflösung und die 

zugehörige Datenhaltung 

Jede Organisation ist für „ihren“ Teil 

des Namensraums verantwortlich: 

Zonen-Konzept. 

zur Steigerung der Performance; 

weitestgehende Datenkonsistenz 

durch Angabe von Refreshzyklen 



6-6

DNS-Komponenten (1) 

Definition eines Namensraums 

Verfahren für die Namensauflösung 

Datenhaltung für Namensauflösung 

Protokolle und Dienste 

Domain Name Service 



6-8

Domain Names (1) 

Das Internet benutzt einen hierarchischen Namensraum: 

Domain Name Space 

1 

2 

3 

unnamed root 

edu com gov mil ... de uk 

ibm 

Baumstruktur: 

informatik 

uni-kiel 

— jedem Knoten außer dem Wurzelknoten ist ein „label“ zugeordnet: 

Länge: 1 − 63 byte 

— Der Wurzelknoten ist ausgezeichnet: label hat die Länge 0. 

— Knoten mit einem gemeinsamen unmittelbaren Vorgänger dürfen 

nicht denselben label haben! 

— Groß- und Kleinschreibung wird nicht ausgewertet. 

top-level 

domains 


Computer Science Dept., CAU Kiel 6-9 

...

Domain Names 

Board approves 7 new Internet suffixes – .biz, .info, others to join the mix (November 17, 2000) 

MARINA DEL REY, California. A new wave of domain names should spring up on the Internet early next year, giving relief to the dot-com 

name crunch. The governing body for Internet names approved seven additional online suffixes, the first such address expansion in more 

than a decade. The new Web address suffixes authorized by the Internet Corporation for Assigned Names (ICANN) are as follows .info for 

general information, .biz for businesses, .name for individuals, .pro for professionals, .museum for museums, .coop for business cooperatives 

and .aero for the aviation industry. 

They will join .com, .net and .org as generic suffixes available worldwide. The action drew cheers from industries seeking the expansion 

and jeers from critics who said ICANN unfairly favors large corporate interests over individual Internet users. 

'Time to refill the tank' 

"Dot-com is almost out of gas," said Ken Hansen of NeuStar Inc., which joined in the winning bid for .biz. "It's time to refill the tank so 

good names are available for users and businesses." Thursday's decision capped a half-decade of discussion about how to relieve 

demand for addresses ending in .com. With some 20 million .com names registered worldwide, easy-to-remember addresses have been 

all but used up. ICANN must now negotiate contracts with companies or groups that made the winning proposals. That should occur by 

year's end, and getting the databases running could take a few more months. 

More suffixes are expected, although ICANN skirted such questions as when and how. "We haven't discussed anything," said Vinton 

Cerf, who was elected chairman of ICANN after the meeting. "This is unexplored territory." First, Cerf said, the board must be convinced 

the new suffixes do not introduce side effects. 

The new suffixes could also begin a new Internet land rush, with speculators and trademark holders competing to claim the best names 

first. ICANN has been embroiled in controversy since it was created in 1998 by the United States government to oversee the domain name 

system. About half of the board members were chosen on ICANN's inception, with the other half chosen by constituencies within ICANN. 

6-10


Definitionen 

Domain Name 

→ ein Pfad im hierachischen Namensraum, 

d.h. eine Folge von labels, vom Blatt zur Wurzel gelesen. 

Domain 

→ Unterbaum, der durch den Domain Name seiner Wurzel bezeichnet wird; 

umfaßt die Wurzel und alle Knoten darunter 

Subdomain 

→ Eine Domain ist eine Subdomain, wenn sie in einer anderen Domain enthalten ist. 

Beispiel: A.B.C.D ist enthalten in B.C.D, C.D, D und ″ ″ 

formal: 

::= | " " 

::= | "." 



Domain Names (Fortsetzung) 

Charges of nepotism 

That has led to accusations of nepotism, and over-representation by corporate and big business interests instead of regular Internet 

users, especially outside of the United States, and calls for ICANN's abolishment. To assuage critics, ICANN earlier this year held a direct 

election via the Internet for five new board members, who did not start their terms until after the board meeting. 

But it is also considering limiting further direct elections of board members, which prompted some ICANN attendees to wear buttons 

saying "Help Stamp Out ICANN Board Squatting". In choosing new domains to add and the companies to run them, the board said it was 

looking for diversity in company size, and region, strength of their business plan, and their technical proficiency to handle this. "Competing 

with .com requires technical ability. You need to emphasize this, or competition can't exist," said Jun Murai, a member of ICANN's board. 

But some complained that with the emphasis on the financial fitness of the applicants, ICANN was looking more like a venture capitalist 

rather than a nonprofit corporation. 

"ICANN has become a large gatekeeper deciding who has the right to print money on the Internet," said Karl Auerbach, a long-time critic 

of ICANN who favors adding up to 10,000 new domain name suffixes per year. Auerbach is an incoming ICANN board member who did 

not participate in the selection process. New suffix bids cost $50,000 For this week's meeting, companies or groups proposing new suffixes 

paid a nonrefundable $50,000 fee for the chance to become record keepers for the new names. 

As registry operators, they would be able to charge a few dollars per name registered, an amount that could add up to millions of dollars 

for the most popular suffixes. Desiring to steer clear of content regulation, the board rejected .kids for children, .xxx for adults and .health 

for prescreened health sites. They also dismissed .tel for telephone numbers and .yp for yellow page directories. 

An unexpected omission from the board's group was the .geo domain name, which would've created a huge Web-accessible database 

of businesses and monuments based on location. In all, there were 47 applications for new suffixes. 

6-12


Schreibweise für Domain Names: 

. ... .. 

Labels werden durch einen Punkt voneinander getrennt. 

Beispiel: informatik.uni-kiel.de 

Anmerkung: Bei E-mail: Vor den Domain Name steht noch 

ein sog. local part, der den Empfänger bezeichnet; 

local part durch @ vom Domain Name getrennt; Beispiel: nl@informatik.uni-kiel.de 

Absolute/Relative Domain Names 

absoluter Domain Name = vollständiger Domain Name 

auch: fully qualified domain name 

Schreibweise (Beispiel): ftp.Germany.EU.net. 

relativer Domain Name = nur die ersten labels eines 

absoluten Domain Name; 

muß lokal zu einem absoluten Domain Name ergänzt werden. 

Schreibweise: ohne abschließenden Punkt 



6-14

Namensauflösung (1) 

Konzept 

1. Aufteilung des gesamten Namensraums in sog. Zonen: 

„a particular ’pruned’ subtree of the domain space“ (RFC-1035) 

2. Je Zone mindestens zwei sog. Name Server: 

stellen Informationen zur Namensauflösung zur Verfügung 

„autoritative Daten“ für die eigene Zone 

„glue data“ für den Übergang zu anderen Name Servers 

3. Format für die Daten zur Namensauflösung: 

sog. Resource Records (RRs) 



6-16


DNS-Zonen 

— Eine Zone ist ein zusammenhängender baumförmiger Teil des 

DNS-Namensraums, für den mindestens zwei Name Server 

(„primary/secondary“) Informationen (= RRs) bereithalten. 

— Eine Zone beginnt bei einem „top node“ (einschließlich) und geht bis zu ihren unteren 

Grenzen („cuts“). 

— Eine Zone wird identifiziert durch ihren „top node“. 

— Die unteren Grenzen werden gebildet 

durch Blattknoten des Namensraumes oder 

durch Verweise auf die Name Server unterlagerter Zonen: 

„delegated subzones“ 

— Der Begriff Zone bezeichnet nicht das gleiche wie der Begriff Domain: 

Der Knoten informatik.uni-kiel.de. ist in der 

Domain uni-kiel.de., aber nicht unbedingt 

in der Zone uni-kiel.de.! 



6-18


Aufteilung des Namensraums in Zonen 

Beispiel: 

unnamed root 

edu com gov mil ... de uk 

ibm 

heidelbg 

vesuv 

p-1 

pool 

… 

informatik 

… 

uni-kiel 

Zone „informatik.uni-kiel.de.“ 

donald 



jura 

… 

... 

med 

… 

Zone „uni-kiel.de.“

6-20


Zordnung von Name Servern zu Zonen 

Verweise auf 

die Name Server 

unterlagerter Zonen 

NS 

vesuv 

NS 

p-1 

pool 

… 

NS 

informatik 

… 

Zone „informatik.uni-kiel.de.“ 

uni-kiel 

donald 

de 

... 

Jeder Zone hat einen Name Server mit „Autorität für die Zone“; 

verweist auf die Name Server der Subzonen. 

NS 

root name server 



... 

jura 

… 

med 

… 

Zone „uni-kiel.de.“

6-22


Resource Records 

Domain Name 

RR 

RR 

… 

RR: ( ,[],[],, ) 

name: Domain Name 

ttl: time to live in [s] 

(nach dieser Zeit soll der RR aus dem Cache gelöscht werden) 

class: IN Internet 

ggf. noch weitere 

type: A Adresse 

CNAME „canonical name“ 

HINFO Information über den Host 

MX Mail Exchange für die Domain 

NS der autoritative Name Server 

SOA „Start of Zone Authority“ 

data: Typ- und Klassen-abhängige Daten 



6-24


A 

CNAME 

HINFO 

MX 

Ein A-RR gibt die Adresse eines Host an. 

Beispiel: 

donald.informatik.uni-kiel.de. A 134.245.199.10 

Ein CNAME-RR übersetzt den „Spitznamen“ eines 

Host in den offiziellen Namen. 

Beispiel: 

super-server CNAME donald.informatik.uni-kiel.de. 

Ein HINFO-RR gibt Information über Hardware und 

Software eines Host. 

Beispiel: 

donald HINFO HP9000-725 HP-UX2.1 

MX-RRs geben an, wohin Mail für eine Domain 

geliefert werden soll. Mit Angabe einer Priorität. 

Beispiel: 

informatik.uni-kiel.de. MX 10 donald.informatik.uni-kiel.de. 



6-26


SOA 

NS 

SOA-RRs definieren den „top node“ einer Zone und 

identifzieren damit die Zone. Außerdem enthalten sie 

Daten für das Zonen-Management. 

NS-RR = Verweis auf einen Name Server 

für die eigene Zone 

für eine „delegated subzone“. 

Beispiel: 

informatik.uni-kiel.de. NS donald.informatik.uni-kiel.de. 

NS sun1.rz.uni-kiel.de. 

Ein Name Server muß nicht in der Zone sein, für die 

er „zuständig“ ist. 



6-28


Systemadminstrator erstellt masterfile named.hosts mit RRs 

für die eigene Zone. 

primary 

zone 

transfers 

secondary 

named.hosts 

(in LINUX) 

Name 

Server 

Name 

Server 

Netzwerk 

query/response 

transfers 

Client 

Resolver 

local cache 



6-30


Aufbau einer Zonenbeschreibung 

Start 

Name Server 


Name Server für 

angrenzende Zonen* 

Autoritative Daten 


Address-RRs für 

die Name Server 

angrenzender Zonen* 

uni-kiel.de. SOA … 

NS aix.rz.uni-kiel.de. 

NS donald.informatik.uni-kiel.de. 

informatik NS donald.informatik.uni-kiel.de. 

NS aix.rz.uni-kiel.de. 

name-1 A 134.245. … 

name-2 … 

… 

donald.informatik.uni-kiel.de.A 134.245.199.10 

*) nicht-autoritative Information („glue records“) 



6-32


Wie wird der Name pc100.informatik.uni-kiel.de aufgelöst? 

resolver 

Name 

Server 

Verweis 

Verweis 

Verweis 

Adresse 

Root 

Name Server 

de 

Name Server 

uni-kiel.de 

Name Server 

informatik.uni-kiel.de 

Name Server 

Resolver fordert rekursive Auflösung an, 

Name Server fordert iterative Auflösung an. 



de 

uni-kiel 

informatik

6-34


Zonen-Management 

— Primary Name Server 

bezieht seine Informationen aus dem Master File, der vom 

Systemadministrator erstellt wird. 

— Secondary Name Server 

kopiert in regelmäßigen Abständen die Zonen-Information vom 

Primary Name Server: Zonen-Transfer 

— Update der NS-RRs und A-RRs der Subzonen 

RFC-1033: „The administrators of both zones should insure that 

the NS and glue RRs which mark both sides of the cut are consistent and remain so.“ 



6-36

DNS-Protokolle und -dienste (1) 

DNS-Protokoll 

— benutzt UDP oder TCP, Port 53 

— Query/Answer-Protokoll 

Resolver 

query 

answer 

Name 

Server 

request for 

zone transfer 

Name 

Server 

primary 

zone 

transfer 

secondary 



6-38


DNS-Protokoll: PDU-Format 

id flags 

# of questions # of answer RRs 

# of authority RRs # of additional RRs 

queries 

(name, qtype, qclass)* 

answer RRs 

authority RRs 

additional RRs 

*) qtype = 252 fordert Transfer einer kompletten Zone an. 



6-40


Dienstschnittstelle für die Namensauflösung 

— Funktionen der sog. Resolver Lib 

— programmiert: gethostbyname(…); 

— Kommando: nslookup 

mit Subkommandos zum Setzen von Anfrageparametern, z.B.: 

set norecurse 

set type = ns 

usw. 

ftp, 

E-mail, 

… 

domain name 

Resolver 

Lib 

IP address 

Datenbasis 

des 

Domain Name 

Service 

(Name Server) 



6-42

71-webApp-N-Tier.fm 

WEB APPLICATIONS 

7. N-TIER ARCHITECTURE 

1. Development of the N-Tier Architecture 

2. Serverseitige Schnittstellen 

3. CGI-Programmierung 




[1] Eberhart, A., Fischer, St.: 

Java-Bausteine für E-Commerce-Anwendungen. 

München, Wien (Hanser) 2000 

7-2

Development of the N-Tier Architecture (1) 

Wikipedia definition: 

In software engineering, multi-tier architecture (often referred to as 

n-tier architecture) is a client-server architecture in which an 

application is executed by more than one distinct software agent. 

For example, an application that uses middleware to service data 

requests between a user and a database employs multi-tier 

architecture. The most widespread use of „multi-tier architecture“ 

refers to three-tier architecture. 



7-4


WWW: a platform for distributed applications 

— decoupling of 

user interface: 

data presentation to the user via a Graphical User Interface (GUI), 

possibly for devices with different capabilities 

(memory, processing power, display size, …) 

business logic: 

translating client calls into database queries and other actions, 

and translating data from the database into client data in return. 

data storage and access: 

database management system, dedicated services 



7-6


C/S configuration as 2-tier architecture 

Client/ 

Browser 

presentation 

Internet/ 

Intranet 

HTTP/HTML 

Server 

Presentation Business 

Logic 

generate 

HTML page 

process user 

request 

Resources 

database or 

other services 



7-8


from 2-tier to 3-tier 

“Three-tier websites evolved from earlier two-tier websites which initially 

used webservers with both static and dynamic content, often Common 

Gateway Interface or CGI scripts, and a database back end. Separating 

out the static and dynamic page generation, and using software platforms 

with more programming features and structure, made website creation 

and management easier.” 

Wikipedia 



7-10


Two different kinds of requests 

HTTP 

Client 

— formally equal: 

HTTP Req. 

HTTP Reply 

request for a static HTML page: 

URL 

Tier 2 

Web 

Server 

request for an application server: 

URL + possibly additional parameters 

Appl. Req. 

configuration of the tier-2 server decides on URL interpretation 

static HTML 

pages 

Application 

Server 

(Tier 3) 



Development of the N-Tier Architecture 

Wenn von einem HTTP-Client ein HTTP-Request eintrifft, dessen URL auf ein CGI-Skript zeigt, liefert der HTTP-Server nicht den Inhalt 

dieser Datei an den Client, sondern führt das in einer Datei gespeicherte Skript aus. (Dabei werden – falls vorhanden – Ausführungsparameter 

übergeben.) Um eine Unterscheidung zwischen den Inhalten der unterschiedlichen Verzeichnisse treffen zu können, verfügt der 

Tier-2-Server über Verzeichnisbeschreibungen in seinen Konfigurationsdateien. 

Ein Beispiel: Dem Apache-Web-Server wird durch die folgenden Einträge in die Datei httpd.conf mitgeteilt, daß es sich bei den im 

Verzeichnis /usr/local/apache/share/cgi-bin gespeicherten Dateien um sog. CGI-Skripte (s.u.!) handelt: 

 

… 

Options ExecCGI 

SetHandler cgi-script 

 

7-12


Transformation into a 3-tier architecture 

Presentation 

Tier 1 

— tier 1: GUI 

HTTP request 

HTTP reply 

HTML page 

Tier 2 

— tier 2: interface objects, application processing: 

CGI, Active Server Pages (ASP), PHP (Personal Home Page), 

(Java-) Servlets (mit JDBC), ColdFusion, … 

— tier 3: typically a database 

Webserver 

with interface objects 

Servlet, 

ASP, 

CGI, 

… 

general resources, 

e.g. databases 

standard database protocols 

(SQL, JDBC, ODBC) 



Tier 3

7-14


a 4-tier architecture 

Presentation 

Transformation 

Tier 1 Tier 2 Tier 3 

Tier 4 

— end-system devices with different capabilities: 

PC, PDA, mobile phone (WAP), … 

Application Storage 



7-16


Advantages of the n-tier architecture 

— clear system structure: 

separation of application/business logic from presentation and storage 

(cf. model/view/controller design pattern) 

— Thin Clients: 

cheap end-user devices with minimal capabilities 

— configuration management can be centralized 

— security: 

global concept for Authentication, Authorisation, Accounting (AAA) 

— scalability: system can be upgraded stepwise 



7-18

Serverseitige Schnittstellen (1) 

Zwei verschiedene Arten von Requests 

HTTP 

Client 

HTTP Req. 

mit URL 

Tier 1 

Web- 

Server 

— aus Sicht des Browsers formal gleich 

Appl. Req. 

Request für eine HTML-Seite: 

Bezeichnung durch URL 

Request für einen Application Server: 

Bezeichnung durch URL + ggf. weitere Parameter 

HTML- 

Seiten 

Application 

Server 

Konfiguration des Tier-1-Servers entscheidet über Interpretation der URL 



7-20

Serverseitige Schnittstellen (2) 


— Programmiersprachen, häufig Skript-Sprachen: 

interpretative Abarbeitung, schwache Typisierung, 

keine komplexen Datenstrukturen, Einbettung von Betriebssystemkommandos, 

komfortable String-Operationen, Mitbenutzung externer Programme 

— Modellierung der Server-Umgebung 

APIs, Objekte, I/O-Schnittstellen, … 

— Anbindung an HTML 

Abgrenzung von statischen HTML-Anteilen und ausführbarem Programm, 

z.B. durch bei Active Server Pages (ASP) 

Ausgabe von HTML-Code, 

z.B. durch response.write ("Hello World!") in JScript 



7-22

CGI-Programmierung (1) 

Common Gateway Interface 

Zugriff 

auf Dokumente 

Request 

Response 

Tier-1-Server 

Weiterleiten von Requests an 

aktive Komponenten 

HTML 

Appl. Server 

Common Gateway 

Interface (CGI) 

— Konfiguration z.B. im Apache-Web-Server: 

 

… 

Options ExecCGI 

SetHandler cgi-script 

 



7-24


Beispiel: 



HTML-Code für die Beispiel-Seite 

Feedback 

 

 

 

Name: 

E-Mail-Adresse: 

 

 

 

 

 

verwendeter Browser: 

genutzte Internet-Dienste: 

 

 

Netscape 

Lynx 

Microsoft 

Arena 

Mosaic 

sonstige 

 

 

World Wide Web 

Electronic Mail 

File Transfer 

Remote Login 

Newsgroups 

sonstige 

 

Hauptinteressengebiet: 

weitere Interessengebiete: 

 

 

 

 

Software Hardware 

Netzwerke Sport 

Kultur Tiere 

Politik Wirtschaft 

Wissenschaft 

 

 

7-26


CGI: eine Schnittstellendefinition mit … 

— zwei Mechanismen zur Parameterübergabe vom Browser: 

Standardeingabe HTTP-Methode POST 

bei Datenmengen > 1024 byte 

Umgebungsvariablen HTTP-Methode GET 

durch "+" getrennte Parameter in der 

Umgebungsvariablen QUERY_STRING 

— einem Mechanismus zur HTML-Ausgabe: 

Standardausgabe 

— Umgebungsvariable REQUEST_METHOD zeigt POST oder GET an 

ausführendes Programm in beliebiger Programmiersprache 



HTML-Code für die Beispiel-Seite (2) 

 

 

Software Hardware 

Netzwerke Sport 

Kultur Tiere 

Politik Wirtschaft 

Wissenschaft 

 

 

 

 

Kommentar: 

 

 

 

 

 

 

 

 

 

7-28


hier: 

Methode POST, da Eingabedaten groß sein können 

Aufruf des CGI-Programms feedback.cgi 

gesetzte Umgebungsvariablen: 

DOCUMENT_ROOT /www/public 

GATEWAY_INTERFACE CGI/1.1 

HTTP_USER_AGENT Mozilla/3.01 (X11; I; Linux 2.0.33 i586) 

PATH /sbin:/bin:/… 

QUERY_STRING 

REMOTE_ADDR 141.7.11.12 

REMOTE_HOST lemming.stud.uni-kiel.de 

REQUEST_METHOD POST 

SCRIPT_FILENAME /www/public/CGI/feedback.cgi 

CONTENT_LENGTH 3416 

CONTENT_TYPE application/x-www-form-urlencode 

SERVER_ADMIN admin@trick-17.net 

SERVER_NAME www.trick-17.net 

SERVER_PORT 80 

SERVER_PROTOCOL HTTP/1.0 

SERVER_SOFTWARE Apache/1.2.6 



7-30


Beispielprogramm in tcl 

#!/usr/local/bin/tcl 

# CGI-Unterprogramme einbinden: 

source /www/include/cgi.tcl 

# Aufruf von CGI_Parameter leistet folgendes: 

# CGI-Parameter einlesen 

# Unterprogramm liefert folgende Datenstrukturen zurück: 

# CGI: Array mit Parametern als Indizes: liefert Werte 

# IST_LISTE: Array mit Parametern als Indizes: 

# 0 - Parameter ist keine Liste 

# 1 - Parameter ist eine Liste 

CGI_Parameter name email browser dienste hauptthema 

themen kommentar 

# Datei zum Anhängen öffnen: 

set LOG [open /www/save/feedback.txt a] 

# fremde Schreibzugriffe sperren 

flock $LOG 



7-32


Beispielprogramm (Forts.) 

# Datum und Zeit ermitteln: 

set datum [clock format [clock seconds] 

-format "%d. %m. %Y, %H:%M"] 

puts $LOG "--------------------------------------" 

puts $LOG "" 

puts $LOG $datum 

puts $LOG "Name: $CGI(name)" 

puts $LOG "EMail: $CGI(email)" 

puts $LOG "Browser: $CGI(browser)" 

if $IST_LISTE(dienste) { 

set i 1 

foreach el $CGI(dienste) { 

puts $LOG "Dienst$i: $el" 

incr i 

} 

} else { 

puts $LOG "Dienst: $CGI(dienste)" 

} 



7-34



puts $LOG "Hauptthema: $CGI(hauptthema)" 

if $IST_LISTE(themen) { 

set i 1 

foreach el $CGI(themen) { 

puts $LOG “Thema$i: $el" 

incr i 

} 

} else { 

puts $LOG “Thema: $CGI(themen)” 

} 

puts $LOG “Kommentar:” 

puts $LOG $CGI(kommentar) 

flush $LOG 

# fremde Schreibzugriffe freigeben (erfordert tclX) 

funlock $LOG 

# Datei schliessen 

close $LOG 



7-36



# Erfolgsmeldung 

HTTP_Header 

puts "" 

puts "" 

puts "Feedback abgeschickt" 

puts "" 

puts "" 

puts "" 

puts "Hallo $CGI(name)" 

puts "Dein Feedback hat uns erreicht." 

puts "Vielen Dank!" 

puts "" 

puts "" 



7-38

70-webApp-HTTP.fm 

WEB APPLICATIONS 

8. THE HYPERTEXT 

TRANSFER PROTOCOL 

1. Introduction 

2. HTTP Overview 

3. HTTP Protocol Headers 

4. HTTP Dialogues 




[1] R. Fielding, J. Gettys, J. Mogul, H. Frystyk, L. Masinter, P. Leach, T. Berners-Lee: 

Hypertext Transfer Protocol -- HTTP/1.1. 

RFC-.2616, June 1999. 

8-2

Introduction (1) 

WWW Cooperation Paradigm: Client/Server 

— Hypertext Transfer Protocol (http): Web’s application layer protocol 

client: browser that requests, receives, “displays” Web objects 

server: Web server sends objects in response to requests 

— Standards 

Web-Server 

Web-Server 

http1.0: RFC 1945 

http1.1: RFC 2616 

http port 80 (TCP) 

Internet 

Client 



8-4

Introduction (2) 

from the HTTP RFC: 

„HTTP is an application-level protocol with the lightness and speed 

necessary for distributed, collaborative, hypermedia information systems. It 

is a generic, stateless, object-oriented protocol which can be used for many 

tasks, such as name servers and distributed object management systems, 

through extension of its request methods (commands). A feature of HTTP is 

the typing and negotiation of data representation, allowing systems to be 

built independently of the data being transferred.“ 



8-6

HTTP Overview (1) 

Request/repsonse dialogues 

Client Server 

non-persistent communication (http 1.0): 

single request/response pair 

server closes connection 

TCP connection setup 

one request/response pair 

per data object 

TCP connection closing 

Client Server 

persistent communication (http 1.1): 

multiple request/response pairs 

client closes connection 



8-8


Request methods 

— GET 

„The GET method means retrieve whatever information (in the form of an entity) 

is identified by the Request-URI. If the Request-URI refers to a data-producing 

process, it is the produced data which shall be returned as the entity in the 

response und not the source text of the process, unless that text happens to be 

the output of the process.“ 

— HEAD 

„The HEAD method is identical to GET except that the server must not return 

any Entity-Body in the response. The metainformation contained in the HTTP 

headers in response to a HEAD request should be identical to the information 

sent in response to a GET request. This method can be used for obtaining 

metainformation about the resource identified by the Request-URI without 

transferring the Entity-Body itself. This method is often used for testing 

hypertext links for validity, accessibility, and recent modification.“ 



8-10


Request methods (cont’d.) 

— POST 

„The POST method is used to request that the destination server accept the 

entity enclosed in the request as a new subordinate of the resource identified by 

the Request-URI in the Request-Line. … 

Posting a message to a bulletin board, newsgroup, mailing list, … 

Providing a block of data, such as the result of submitting a form to a datahandling 

process 

Extending a database through an append operation.“ 



8-12

HTTP Protocol Headers (1) 

Clear-text ASCII protocol headers 

— sample GET request: 

GET /somedir/page.html HTTP/1.0 request line 

User-agent: Mozilla/4.0 header lines 

Accept: text/html, image/gif, image/jpeg 

Accept-language: de 

requesting browser, 

acceptable data types, 

language version 

end of request header 

— sample response 

HTTP/1.0 200 OK status line 

Date: Thu, 06 Aug 1998 12:00:15 GMT header lines 

Server: Apache/1.3.0 (Unix) 

Last-Modified: Mon, 22 Jun 1998 

Content-Length: 6821 

Content-Type: text/html 

end of response header 

data data data data data ... 



8-14


Request header format 

method sp url sp http version cr lf Request line 

header field name : value cr lf 

… 

… 

header field name 

cr lf 

: value cr lf 



Header 

lines 

Entity 

body

8-16


Request header format (cont’d.) 

— header lines 

General header lines, e.g. 

Connection (e.g. „close“ for non-persistent connection), Date, MIME-Version,… 

Pragma (e.g. „no-cache“), Referer, User-Agent, Cookie, … 

Request header lines, e.g. 

Authorization ( sent if required for access to requested object), 

From, If-Modified-Since, … 

Entity header lines, e.g. 

Content-Encoding, Content-Length, Content-Type, … 

— entity body: request parameters, e.g. 

form data 

click coordinates 



8-18


Request header format (cont’d.) 

— Request encodings 

GET 

GET /getPhoneNumber?name=Reuter HTTP/1.0 

POST 

POST /getPhoneNumber HTTP/1.0 

Content-Type: www-form-url-encoded 


name=Luttenberger 

XML 

POST /getPhoneNumber HTTP/1.0 

Content-Type: text/xml 


Luttenberger 



8-20


HTTP Response header format 

http version sp status code sp reason cr lf Status line 

header field name : value cr lf 

… 

… 

header field name 

cr lf 

: value cr lf 



Header 

lines 

Entity 

body

8-22


HTTP Response header format (cont’d.) 

— Status Line 

SP Status-Code 2xx − 5xx 

SP Reason-Phrase (human readable explanation) 

CRLF 

2xx successful 

3xx redirection (Der Client muß seinen Request an anderer Stelle vortragen) 

4xx client error 

5xx server error 

— Header lines 

General header lines 

Response header lines, e.g. 

Location (redirection), Server, WWW-Authenticate, Set-Cookie, … 

Entity header lines 



8-24

HTTP Dialogues (1) 

Authentication 

Client Server 

http request → 

← 

http response status 401 

WWW authenticate: 

http request 

Authorization: → 

← http response status 200 

http request 

Authorization: → 


— Authentication goal: control access 

to server documents 

— stateless: client must present authorization 

in each request 

— authorization: typically name, password 

— authorization: header line in request 

— if no authorization presented, 

server refuses access, 

sends WWW authenticate: 

header line in response 



8-26


Cookies 

Client Server 

http request → 

← 


Set-cookie: # 



http request 

Cookie: # → 

http request 

Cookie: # → 

— Cookie purpose: help server to remember 

client authentication data, user preferences, 

previous choices, … 

— server sends “cookie” to client 

in response message 

Set-cookie: 1678453 

— client presents cookie in later requests 

Cookie: 1678453 

— server matches presented cookie with 

server-stored info 



8-28


Conditional GET request 

Client Server 

http request 

If-modified-since: → 

← 

← 


Not Modified 

http request 

If-modified-since: → 


datadatadataS 

— Goal: don’t send object if client has 

up-to-date stored (cached) version 

— client: specify date of cached copy in http 

request: If-modified-since: 

— server: response contains no object if 

cached copy up-to-date: 

HTTP/1.0 304 Not Modified 



8-30

80-webServ-XML.fm 

WEB SERVICES 

9. EXTENSIBLE MARKUP 

LANGUAGE (XML) 

1. Einführung/Problemstellung 

2. XML — die wichtigsten Konzepte 

3. Dokumentenmodell 

4. Exkurs: URI 

5. Syntax 




[1] Holzner, St.: 

Inside XML. 

Indianapolis (New Riders) 2001, ISBN 0-7357-1020-1. 

[2] Eberhart, A., Fischer, St.: 

Java-Bausteine für e-Commerce-Anwendungen. 

München, Wien (Hanser) 2000, ISBN 3-446-21372-4. 

[3] Abiteboul, S., Buneman, P., Suciu, D.: 

Data on the Web. 

San Francisco (Morgan Kaufmann) 2000, ISBN 1-55860-622-X. 

[4] Tolksdorf, R.: 

XML und darauf basierende Standards: Die neuen Auszeichnungssprachen des Web. 

Informatik Spektrum, vol. 22 (1999), pp. 407–421. 

[5] W3C (Ed.): 

Extensible Markup Language (XML) 1.0 (Second Edition), W3C Recommendation 6 October 2000. 

http://www.w3c.org/XML/ 

9-2

Einführung/Problemstellung (1) 

der Umgang mit „Information“ in der „Informationsgesellschaft“ 

— Generierung neuer Information: ≈ 20% des Bruttosozialprodukts 

— ca. 90% der Information: in Dokumenten (nicht in Datenbanken) 

— Aufwandsanteile bei der Dokumentenerstellung 

ca. 30%: Informationssammlung 

ca. 40%: Aufbereitung des Inhalts 

ca. 30%: Formatierung für den Ausdruck auf Papier 

— Papierdokumente: eine Sackgasse! 

— Herausforderungen für die Zukunft 

durchgängige elektronische Dokumentenverteilung 

formatunabhängige Dokumentenverteilung u. -speicherung 

dauerhafte Dokumentenspeicherung 

(aus einem WWW-Dokument der Arbortext Inc. zu SGML) 



9-4


Definition eines einheitlichen Formats für die 

— Übertragung 

— Verarbeitung von Dokumenten 

— Speicherung 

— Präsentation (nach entsprechender Transformation) 

aufbauend auf der Trennung von 

— Inhalt 

— Struktur von Dokumenten 

— Layout 

erforderlich: flexibles Markup-Konzept 



9-6


Probleme von HTML 

— keine inhaltsorientierte Auszeichnung 

z.B. HTML hat inhaltsorientierte und layoutorientierte Tags: 

↔ 

layoutorientierte Tags ungeeignet für Extraktion von Daten aus Dokumenten 

— fixer Vorrat an Tags 

keine wählbare „Granularität“ der Beschreibung, z.B. 

Norbert Luttenberger 

oder 

Norbert 

Luttenberger 

— unterschiedliche Interpretationen durch Browser 



9-8

XML — die wichtigsten Konzepte (1) 

Hintergrund der XML-Entwicklung 

— Standard Generalized Markup Language (SGML) 

ISO 8879, entwickelt 1986 

komplex, schwierig zu beherrschen, Spezifikation umfaßt 155 Seiten 

bislang kein umfassender Erfolg, nur wenige Tools (z.B. FrameMaker) 

— HyperText Markup Language (HTML) 

eine Anwendung von SGML 

kann als „Standard“ für GUIs gesehen werden 

viele Tools 

— EXtensible Markup Language (XML) 

World Wide Web Consortium (W3C), Spez. Version 1.0, 1998 

eine Untermenge von SGML 

Spezifikation mit 45 Seiten 

Basis für zahlreiche Innovationen, u.a. Web Services Middleware 



Hintergrund der XML-Entwicklung 

„There is a real relationship between HTML and XML; both are based on Standard Generalized Markup Language (SGML). As its name 

implies, SGML is a very general markup language, with enormous capabilities. Because of the large number of things you can do with 

SGML, however, it can be very difficult to learn, and it hasn’t caught on in general use. XML is actually an easier-to-use subset of SGML 

(and technically speaking, HTML is called an application of SGML). You can read more about the relationship between SGML and XML at 

www.w3c.org/TR/NOTE-sgml-xml.“ (Holzner, S. 2) 

9-10


Was XML nicht ist … 

— XML ist keine Auszeichnungssprache für das WWW. 

stattdessen: XML definiert ein baumförmiges Dokumentenmodell und 

eine Notation für Markup-Sprachen. 

— XML ist keine Datenbeschreibungssprache. 

aber: XML-basierte Sprachen zur Beschreibung der Grammatik 

von Dokumenten, z.B. die W3C XML Schema Definition Language 

— XML ist keine neue Abfragesprache für Datenbanken. 

aber: XML-basierte Query Languages, z.B. XQuery 

— XML ist kein neues Datenformat für Textsysteme. 

aber: XML-basierte Sprachen zur Dokumententransformation, z.B. XSL(T); 

Anwendung unter Einschluß von Style Sheets z.B. in Open Office 



Was XML nicht ist … 

„Mit diesem Begriff fängt gleichzeitig die Begriffsverwirrung an: XML ist keine erweiterbare Auszeichnungssprache – sie ist eine standardisierte 

Sprache, in der sich die Syntax von Auszeichnungssprachen notieren lässt. Formaler ausgedrückt ist XML eine Metagrammatik für 

kontextfreie Grammatiken – also die Grammatik einer Sprache mit der sich die Regeln von Grammatiken notieren lassen. … Diese Grammatikdefinition 

wird im XML-Umfeld DTD („Document Type Definition“) genannt.“ (Tolksdorf, S. 408) 

9-12


vier elementare Konzepte 

1. logische Strukturierung von Daten 

anwendungsspezifische, inhaltsorientierte Auszeichnung von Dokumenten 

2. selbstbeschreibende Strukturierung 

eine vollgeklammerte Sprache: 

Alle Elemente eines Dokuments sind in Klammern (engl. tags) eingeschlossen, 

die Metainformation zur Dokumentenverarbeitung liefern. 

3. Semistrukturiertheit 

Variationen der Struktur von Elementen eines Dokuments sind zulässig. 

Bsp.: In einer Struktur Adresse können 

0 … n Elemente Telefonnummer auftauchen 



9-14


vier elementare Konzepte (Forts.) 

4. (optionale) Angabe einer kontextfreien Baumgrammatik („Schema“) für das Dokument 

oder 

in einer Document Type Definition (DTD) 

im Dokument enthalten oder extern (ganz oder teilweise), 

formuliert als Document Type Declaration:

9-16


Verarbeitung von XML-Dokumenten 

Dokument 

Parser 

syntakt. Korrektheit: 

well-formed XML doc. 

XSL(T)- 

Prozessor 

Schema 

Style Sheet 

validierender 

Parser 

grammat. Korrektheit: 

valid XML doc. 

Ausgabe 

auf Endgerät 

XSL(T)- 

Prozessor 

Extensible 

Style Sheet Lang. 

(Transformations) 

transformiertes 

Dokument 



9-18

Dokumentenmodell (1) 

vorab: ein einfaches Beispieldokument 

 

 

 

 

Norbert Luttenberger 

 

Universität Kiel 

Luttenberger 

Norbert 

Prof. Dr.-Ing. 

 

Christian-Albrechts-Platz 4 

24098 

Kiel 

 

0431-880-7291 

0173-2036632 

nl@informatik.uni-kiel.de 



9-20


Beispieldokument (Forts.) 

 

 

Luttenberger 

Norbert 

 

 

203040 

24105 

Kiel 

 

0431-8888235 

0173-2036632 

 



9-22


Baumstruktur 

eigner 

adressbuch 

eintrag 

+ 

? 

? 

* 

firma name portrait adresse kontakt 

seq. nachname 

choice 

vorname 

titel 

? 

? 

Kardinalität (→ Semistrukturiertheit): 

+ ein oder mehrere Elemente 

? null oder ein Element 

* null oder mehrere Elemente 

strasse | 

postfach 



plz 

? 

? 

stadt 

tel 

? 

? 

email 

fax 

? 

? 

?

9-24


Dokumentenbaum mit unterschiedlichen Arten von Knoten; die wichtigsten: 

— element: 

Each XML document contains one or more elements, the boundaries of which are either 

delimited by start-tags and end-tags, or, for empty elements, by an empty-element tag. 

Each element has a type, identified by name, sometimes called its "generic identifier" 

(GI), and may have a set of attribute specifications. An element type declaration constrains 

the element’s content. Element type declarations often constrain which element 

types can appear as children of the element. 

Beispiele: Luttenberger 

Norbert 

Luttenberger 

ist gleichbedeutend mit 

— document element: 

There is exactly one element, called the root, or document element, no part of which 

appears in the content of any other element. For all other elements, if the start-tag is in the 

content of another element, the end-tag is in the content of the same element. More simply 

stated, the elements, delimited by start- and end-tags, nest properly within each other. 



9-26


die wichtigsten Arten von Knoten im XML-Dokumentenbaum (Forts.) 

— content: 

The text between the start-tag and end-tag is called the element’s content. 

simple content: parsed character data 

unparsed character data („CDATA section“) 

complex content: element content with different content models: 

sequence, choice, union, all 

mixed content 

An element type has element content when elements of that type must contain only child 

elements (no character data), optionally separated by white space. In this case, the constraint 

includes a content model, a simple grammar governing the allowed types of the 

child elements and the order in which they are allowed to appear. The grammar is built on 

content particles, which consist of names, choice lists of content particles, or sequence 

lists of content particles. (Further content models defined in W3C XML Schema.) 



9-28



— attribute: 

Attributes are used to associate name-value pairs with elements. Attribute specifications 

may appear only within start-tags and empty-element tags. Note that the order of attribute 

specifications in a start-tag or empty-element tag is not significant. No attribute name may 

appear more than once in the same start-tag or empty-element tag. XML attribute types 

are of three kinds: a string type, a set of tokenized types, and enumerated types. The 

string type may take any literal string as a value; the tokenized types have varying lexical 

and semantic constraints. Enumerated attributes can take one of a list of values provided 

in the declaration. 

Beispiel: 



9-30



— comment: 

Comments may appear anywhere in a document outside other markup. They are not part 

of the document’s character data; an XML processor may, but need not, make it possible 

for an application to retrieve the text of comments. For compatibility, the string "--" 

(double-hyphen) must not occur within comments. 

— processing instructions: 

Processing instructions (PIs) allow documents to contain instructions for applications. PIs 

are not part of the document’s character data, but must be passed through to the application. 



9-32



— namespace: 

Zur Unterscheidung gleicher Namen können Namen mit einem sog. name space prefix 

versehen werden. Dieser Präfix steht als „Abkürzung“ für einen Universal Resource Identifier 

(URI). Schreibweise: prefix:name 

Bindung des prefix an einen URI über ein spezielles Attribut: das xmlns-Attribut, z.B. 

 

 

 

 



9-34

Exkurs: URI (1) 

— RFC-2396: 

„A Uniform Resource Identifier (URI) is a compact string of characters for identifying an 

abstract or physical resource. A resource can be anything that has identity. Familiar 

examples include an electronic document, an image, a service (e.g., "today's weather 

report for Los Angeles"), and a collection of other resources. … The resource is the conceptual 

mapping to an entity or set of entities, not necessarily the entity which corresponds 

to that mapping at any particular instance in time. Thus, a resource can remain 

constant even when its content – the entities to which it currently corresponds – changes 

over time, provided that the conceptual mapping is not changed in the process. 

An identifier is an object that can act as a reference to something that has identity. In the 

case of URI, the [identifier] is a sequence of characters with a restricted syntax. Having 

identified a resource, a system may perform a variety of operations on the resource, as 

might be characterized by such words as ’access', ’update', ’replace', or ’find attributes'. 



9-36

Exkurs: URI (2) 

— RFC-2396 (Forts.): 

A URI can be further classified as a locator, a name, or both. 

The term "Uniform Resource Locator" (URL) refers to the subset of URI that identify 

resources via a representation of their primary access mechanism (e.g., their network 

"location"), rather than identifying the resource by name or by some other attribute(s) of 

that resource. 

The term "Uniform Resource Name" (URN) refers to the subset of URI that are required to 

remain globally unique and persistent even when the resource ceases to exist or becomes 

unavailable.“ 



9-38


zusammenfassende Übersicht 

document 

element 

element 

namespace 

comment 

attribute 

processing 

instruction 

content 



9-40

Syntax (1) 

nur einige wichtige Regeln 

— Groß- und Kleinbuchstaben werden unterschieden: case-sensitive 

— Wert eines Attributs muß in Anführungszeichen gesetzt werden. 

— Bildung von Namen: 

Name ::= (Letter | ':' | '_' )(NameChar)* 

Letter ::= BaseChar | Ideographic 

-- "Letters are characters that are used to write words." -- 

NameChar ::= Letter | Digit | ':' | '_' | '.' | '-' 

Digit ::= [0–9] 



9-42

Syntax (2) 

wohlgeformte XML-Dokumente 

1. Das Dokument als ganzes genügt der folgenden Produktion: 

document ::= prolog element Misc* 

Folge von 

Prolog (optional): enthält die XML-Deklaration (optional) 

und die DTD (bzw. einen Verweis auf eine DTD) (optional) 

das Wurzel-Element (kann rekursiv weitere Elemente enthalten) 

optionale weitere Angaben, z.B. Kommentare 

2. Es werden alle well-formedness constraints (WFCs) berücksichtigt. 

Angabe der XML-Grammatik in einer EBNF mit 

zusätzlichen Einschränkungen → WFCs (in Klartext formuliert) 

3. Alle referenzierten entities sind wohlgeformt. 

Entities sind weitere interne/externe/vordefinierte Text-/Datenobjekte: 

Einbringen in das jeweilige XML-Dokument per textueller Ersetzung 



9-44

Syntax (3) 

Prolog 

— xml-Deklaration (optional) 

Misc 

XMLDecl ::= ’’ 

VersionInfo gibt die Version der benutzten XML-Spec. an 

EncodingDecl gibt den verwendeten Zeichensatz an 

SDDecl standalone-Deklaration: ein SD-Dokument enthält unmittelbar 

alle erforderlichen Deklarationen 

Beispiel: 

(UTF-8 ist eine Zeichenkodierung für das Unicode-System; Kodierung mit n × 8 bit mit n=1…4; 

Voreinstellung für XML) 

— Kommentare, z.B. 

— Verarbeitungsanweisung (Processing Instructions, PI): 

werden unbearbeitet an die genannte Applikation weitergereicht: 

 



9-46

Folien zur Vorlesung 2

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?