Capítulo 3. Arquitecturas de streaming
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
La implementación en de un sistema distribuido de análisis de datos tiene que ocuparse de la gestión de un conjunto de recursos informáticos, como clusters de máquinas propios o capacidad reservada basada en la nube, para satisfacer las necesidades informáticas de una división o incluso de toda una empresa. Dado que los equipos y los proyectos rara vez tienen las mismas necesidades a lo largo del tiempo, los clusters de ordenadores se amortizan mejor si son un recurso compartido entre unos cuantos equipos, lo que requiere ocuparse del problema de la multitenencia.
Cuando las necesidades de dos equipos difieren, es importante dar a cada uno un acceso justo y seguro a los recursos del clúster, asegurándose al mismo tiempo de que los recursos informáticos se utilizan de la mejor manera posible a lo largo del tiempo.
Esta necesidad ha obligado a las personas que utilizan grandes clústeres a abordar esta heterogeneidad con modularidad, haciendo que varios bloques funcionales surjan como piezas intercambiables de una plataforma de datos. Por ejemplo, cuando nos referimos al almacenamiento de bases de datos como bloque funcional, el componente más común que ofrece esa funcionalidad es una base de datos relacional como PostgreSQL o MySQL, pero cuando la aplicación de streaming necesita escribir datos a un rendimiento muy alto, una ...
Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.