Configura un sistema de Alta Disponibilidad en PostgreSQL

estudios

Sobre el curso

Este curso enseña a diseñar y operar arquitecturas de alta disponibilidad sobre PostgreSQL combinando replicación nativa, herramientas de orquestación de failover y balanceadores de conexión. Aborda el ciclo completo desde la configuración inicial hasta la operación en producción y las pruebas de tolerancia a fallos.

El programa cubre replicación física por streaming entre primario y réplicas, replication slots, archive_mode y point-in-time recovery (PITR), failover automático con Patroni y un cluster de etcd como coordinador, balanceo y pooling de conexiones con pgpool-II y HAProxy, y monitorización con herramientas dedicadas como pgwatch2.

Está orientado a administradores de bases de datos, DevOps y desarrolladores backend con responsabilidades de operación que necesitan garantizar disponibilidad continua del servicio, planificar RPO/RTO acordes al negocio y disponer de procedimientos probados de failover y recuperación ante incidentes reales.

Conocimientos adquiridos

El curso me ha permitido desarrollar las siguientes capacidades:

Configurar streaming replication entre primario y réplicas
Habilitar hot standby para servir lecturas desde réplicas
Definir replication slots para evitar pérdida de WAL
Configurar archive_mode y archive_command para PITR
Realizar backups en caliente con pg_basebackup
Restaurar a un punto en el tiempo (PITR) ante incidentes
Diseñar topología primario-réplicas con replicación síncrona o asíncrona
Instalar y configurar Patroni para gestión del cluster
Operar un cluster etcd como almacén de coordinación
Definir healthchecks y reglas de promoción automática
Ejecutar failovers automáticos sin intervención manual
Realizar switchovers planificados con tiempo de corte mínimo
Desplegar pgpool-II como pooler y router de conexiones
Configurar HAProxy para balanceo y descubrimiento de primario
Aplicar connection pooling con PgBouncer
Monitorizar el cluster con pgwatch2 o herramientas equivalentes
Configurar alertas sobre lag de replicación y estado de nodos
Definir métricas de RPO y RTO acordes al negocio
Realizar pruebas regulares de failover y recuperación
Diagnosticar split-brain y prevenirlo con quorum
Migrar bases existentes a una arquitectura HA sin downtime
Aplicar tuning básico (max_connections, work_mem, shared_buffers)
Documentar runbooks de incidentes y procedimientos
Mantener réplicas de lectura para descargar al primario

Este conocimiento permite operar PostgreSQL en escenarios donde la pérdida de servicio no es aceptable, manteniendo continuidad ante caídas de hardware, actualizaciones planificadas o pérdida de un nodo, y proporciona un marco probado para escalar lecturas y para definir compromisos formales de disponibilidad ante el negocio.