Capítulo 23. Gestión del Estado Crítico: Consenso Distribuido para la Fiabilidad

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Los procesos se bloquean o es necesario reiniciarlos. Fallan los discos duros. Las catástrofes naturales pueden acabar con varios centros de datos de una región. Los Ingenieros de Fiabilidad del Sitio tienen que anticiparse a este tipo de fallos y desarrollar estrategias para que los sistemas sigan funcionando a pesar de ellos. Estas estrategias suelen implicar el funcionamiento de dichos sistemas en varios emplazamientos. Distribuir geográficamente un sistema es relativamente sencillo, pero también introduce la necesidad de mantener una visión coherente del estado del sistema, que es una tarea más matizada y difícil.

Los grupos de procesos pueden querer ponerse de acuerdo de forma fiable sobre cuestiones como:

  • ¿Qué proceso es el líder de un grupo de procesos?

  • ¿Cuál es el conjunto de procesos de un grupo?

  • ¿Se ha consignado correctamente un mensaje a una cola distribuida?

  • ¿Un proceso tiene un contrato de alquiler o no?

  • ¿Qué es un valor en un almacén de datos para una clave determinada?

Hemos comprobado que el consenso distribuido es eficaz para construir sistemas fiables y de alta disponibilidad que requieren una visión coherente de algún estado del sistema. El problema del consenso distribuido consiste en llegar a un acuerdo ...

Get Ingeniería de Fiabilidad del Sitio now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.