PostgreSQL Production-Rescue-Checkliste

Eine langsame PostgreSQL-Datenbank unter Produktionsdruck lädt zum Raten ein, und Raten ist, wie Rescues schieflaufen. Ein Index hinzufügen, eine Memory-Einstellung erhöhen oder einen Server neu starten kann den echten Bottleneck verdecken und neues Risiko einführen. Die Arbeit, die wirklich trägt, beginnt mit Evidenz und ändert eine Sache nach der anderen.

Wann das Problem auftritt

Der Anruf kommt meist, wenn etwas Sichtbares bricht: Seiten laufen zur Spitzenzeit in Timeouts, Background Jobs stauen sich, ein nächtlicher Report wird nicht mehr fertig, oder die Verbindungszahl steigt, bis die Anwendung keine neuen Sessions öffnen kann. Oft hat sich an der Query nichts geändert, nur das Datenvolumen. Manchmal hat ein Deploy eine harmlos aussehende Query hinzugefügt, die einen Sequential Scan über eine Tabelle macht, die leise auf zehn Millionen Zeilen gewachsen ist. Die erste Aufgabe ist nicht, etwas zu reparieren. Es ist, den Vorfall präzise zu beschreiben.

Häufige Fehlermodi

Einstellungen tunen, bevor man Queries liest. work_mem oder shared_buffers zu erhöhen fühlt sich produktiv an, aber wenn ein Query-Plan falsch ist, verteilt die serverweite Stellschraube nur die Kosten. Erst Evidenz, dann Einstellungen.

Indizieren nach Intuition. Indizes, die zu keiner echten Query passen, fügen Schreib-Overhead und Bloat hinzu, ohne Reads zu helfen. Ungenutzte Indizes sind ein Kostenfaktor, keine Versicherung.

Locks und lange Transaktionen ignorieren. Eine einzige lang laufende Transaktion kann Autovacuum blockieren, Locks halten und alles dahinter stauen. Das langsame Symptom ist oft ein Lock-Problem im Performance-Kostüm.

Bloat und Autovacuum driften lassen. Tabellen und Indizes blähen sich auf, wenn Autovacuum nicht nachkommt, und Bloat degradiert langsam jede Query darauf. Es ist unsichtbar, bis man es misst.

Produktion blind ändern. Ein Fix, der auf einem kleinen Datensatz funktioniert, kann sich gegen produktionsgroße Daten ganz anders verhalten. Ohne produktionsnahen Test ist “lokal lief es” keine Beruhigung.

Wie man untersucht

Beginnen Sie mit der Form des Vorfalls, dann verengen Sie mit Evidenz.

Beschreiben Sie das Symptom präzise

Langsame Seiten, verzögerte Jobs, Lock Waits, hohe CPU, IO-Druck, Connection-Erschöpfung oder steigende Latenz weisen je auf einen anderen Pfad. Das Symptom zu benennen verengt die Suche, bevor Sie etwas anfassen.

Lesen Sie die Queries

Finden Sie die langsamen Statements, sehen Sie sich die Ausführungspläne an, vergleichen Sie Zeilenschätzungen mit der Realität und prüfen Sie auf fehlende Indizes, ungenutzte Indizes und wiederholte Full Scans. Eine Handvoll Pläne erzählt meist klarer als generische Tuning-Ratschläge.

Prüfen Sie die operative Ebene

Untersuchen Sie Locks, lange Transaktionen, Autovacuum-Gesundheit, Tabellen- und Index-Bloat, das Verhalten jüngster Migrationen, Connection Pooling und den Druck der Background Jobs. Eine langsame Datenbank ist häufig ein Systemproblem, nicht nur ein SQL-Problem.

Operative Checkliste

Der Vorfall hat ein benanntes Symptom, nicht nur “die Datenbank ist langsam”.
Langsame Queries sind aus Evidenz identifiziert, mit erfassten Plänen.
Zeilenschätzungen werden mit Ist-Zeilen verglichen, um veraltete Statistiken zu erkennen.
Locks und lange Transaktionen wurden ein- oder ausgeschlossen.
Autovacuum-Gesundheit und Bloat sind gemessen, nicht angenommen.
Connection Pooling und Job-Concurrency sind berücksichtigt.
Jede vorgeschlagene Änderung hat einen Rollback und eine Verifikationsmöglichkeit.

Ein sicherer Weg nach vorn

Messen, einen Bottleneck isolieren, die kleinste nützliche Sache ändern, unter produktionsnahen Bedingungen verifizieren und Rollback-Optionen klar halten. Widerstehen Sie dem Drang, fünf Änderungen gleichzeitig zu machen; wenn sich etwas verbessert, wissen Sie nicht, welche Änderung es war, und wenn etwas bricht, nicht, welche Sie zurücknehmen müssen. Eine Änderung, eine Messung, Wiederholung.

Diese Datenbankarbeit kommt meist als Teil der Modernisierung und Infrastruktur-Rescue. Sie verbindet sich mit unseren breiteren Services und mit dem Modernisierungsdenken aus der Rails-Modernisierungs-Checkliste. Wenn eine Produktionsdatenbank unter Druck steht, schreiben Sie uns, was bricht, und wir beginnen mit Evidenz.

Dieser Artikel ist allgemeine Engineering-Orientierung, kein Rat für ein bestimmtes System. Ein echtes Rescue sollte immer mit Messungen aus Ihrer eigenen Produktionsumgebung beginnen.