OMD im Clusterbetrieb - Nagios-Wiki
OMD im Clusterbetrieb - Nagios-Wiki
OMD im Clusterbetrieb - Nagios-Wiki
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>OMD</strong> <strong>im</strong> <strong>Clusterbetrieb</strong><br />
Stefan Senftleben<br />
itsc System Service GmbH & Co. KG
Überblick<br />
• Installation der Clusterknoten<br />
• DRBD- und Pacemaker-Konfiguration<br />
• Einrichtung der Ressourcen<br />
• Agent für <strong>OMD</strong> in Pacemaker<br />
• Start und Stop der <strong>OMD</strong>-Site<br />
• Stolpersteine
Installation der<br />
Clusterknoten<br />
• Identische Hardware und Konfiguration an 2<br />
Standorten<br />
– 2 x 6-Core 2,67 GHz, 12 x 15k SAS, 400 GB<br />
Raid 10, 3 x 1 Gbit NICs<br />
• 2 DWDM-Strecken (10 & 2 Gbit) zw.<br />
Standorten<br />
• Ubuntu 10.04 LTS 64 Bit<br />
• 2 Logical-Volumes<br />
– 1. für Systemdisk mit ext4<br />
– 2. für DRBD-Device
DRBD<br />
• Distributed Replicated Block Device<br />
• Konfiguration des 2. LV für DRBD-<br />
Ressource „nagios“<br />
– Ext4-Filesystem<br />
– IP-Adresse und TCP-Port definieren<br />
– Max. Netzwerktransferrate festlegen<br />
– Verschlüsselung
Pacemaker / Corosync<br />
• Corosync als Kommunikationsschicht<br />
zwischen den Knoten<br />
– Übern<strong>im</strong>mt Verfügbarkeitsprüfung der Knoten<br />
– Hat 2 Netzwerkringe (Redundanz)<br />
• Pacemaker als Cluster-Manager<br />
– Verwaltung und Steuerung der Ressourcen<br />
und der CIB (Cluster Information Base)
Startreihenfolge der<br />
Clusterressourcen<br />
• 1. DRBD-Device<br />
– Master / Slave<br />
• 2. ext4-Mount<br />
• 3. Cluster-IP für <strong>OMD</strong>-Webinterface<br />
• 4. Apache-Daemon<br />
• 5. Ping-Clone (prüfen Verfügbarkeit)<br />
• 6. <strong>OMD</strong>-Site<br />
• A. Mailto-Ressourcen
<strong>OMD</strong>-Agent<br />
• Ressourcen-Agent von S<strong>im</strong>on Meggle<br />
– Prüft den Gesamt-Status der <strong>OMD</strong>-Site<br />
(„Overall state: running“) und regelt nach<br />
– http://blog.s<strong>im</strong>on-meggle.de/<br />
• Anpassung in <strong>OMD</strong><br />
– <strong>Nagios</strong>-Reload statt –Restart bei WATO-<br />
Neustart
Start und Stop der <strong>OMD</strong>-Site<br />
• Shell-Ebene<br />
• „cmk –O –v“ nutzbar<br />
• „crm resource stop omd_site“<br />
– Ressourcen-Agent führt „omd stop<br />
site_name“ aus<br />
• „crm resource start omd_site“<br />
– Ressourcen-Agent führt „omd start<br />
site_name“ aus
Clusterstatus „crm_mon –rf“
Ansicht in LCMC
Überwachung des Clusters<br />
• Prüfung der <strong>OMD</strong>-Sites mit cmk<br />
• Andere Plugins:<br />
– Filesystem<br />
– <strong>Nagios</strong>-Prozesse<br />
– <strong>Nagios</strong>stats<br />
– Open file descriptor<br />
– Überwachung der mod_gearman-Queues<br />
• Mails durch Corosync bei Split-Brain<br />
• Start-, Stop-Mails durch Mailto-Ressourcen
Cluster-Monitoring
Knoten-Monitoring
Cluster-Schwenk<br />
Split-Brain beheben<br />
• Eingriff durch Admin<br />
• Festlegen des Secondary‘s<br />
• Start der<br />
Neusynchronisierung
Stolpersteine<br />
• Abschalten der autom. FS-Überprüfung nach<br />
Mounts und Tagen (tune2fs)<br />
• Anheben des ul<strong>im</strong>it-Wertes (too many open<br />
Files)<br />
• Reboot bei Kernel-Panics durch sysctl.conf-<br />
Konfiguration<br />
• DRBD-Sync-Rate anpassen<br />
• Leistungsfähiges Disk-Subsystem<br />
– batteriegepuffertes Raid; DRBD dahingehend<br />
opt<strong>im</strong>ieren
Fragen?<br />
• Ja? Ufff… ;-)<br />
• Nein? „crm resource stop Praesi“