Capítulo 80. El yin y el yang de la escalabilidad de los macrodatos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Paul Brebner

Las tecnologías modernas de big data, como Apache Cassandra y Apache Kafka, consiguen una escalabilidad masiva utilizando clusters de muchos nodos (servidores) para ofrecer escalabilidad horizontal. La escalabilidad horizontal funciona compartiendo las cargas de trabajo entre todos los nodos de un clúster, particionando los datos de modo que cada nodo tenga un subconjunto de los datos, permitiendo aumentar el rendimiento simplemente añadiendo más nodos, y replicando los datos en más de un nodo para mayor fiabilidad, disponibilidad y durabilidad.

Al ser intrínsecamente escalables, Cassandra y Kafka son opciones populares de código abierto para ejecutar aplicaciones de baja latencia, alto rendimiento y gran volumen de datos, que pueden escalarse fácilmente. Recientemente hemos diseñado, probado y escalado una aplicación de demostración de detección de anomalías con Cassandra para la capa de almacenamiento, Kafka para la capa de streaming y Kubernetes para el escalado de la aplicación. La siguiente figura muestra el diseño de la aplicación, los clústeres y los "mandos" de la tubería de detección de anomalías.

¡La escalabilidad también es difícil! ...

Get 97 cosas que todo ingeniero de datos debe saber now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.