Parte III. Llevar Hadoop a la nube

En los capítulos anteriores hemos estudiado cómo construir clusters Hadoop que cumplan los requisitos de la empresa; ahora centraremos nuestra atención en conseguir lo mismo en la nube. La tecnología en la nube permite consumir toda la pila de tecnologías de la información como servicios totalmente programables y automatizados. Por ejemplo, el almacenamiento, las redes y los servidores se convierten en infraestructura como servicio (IaaS), y el software a nivel de plataforma, como las implementaciones de bases de datos o el software de gestión de accesos, se convierte en plataforma como servicio (PaaS). El alto grado de programabilidad y automatización permite un autoservicio casi completo para que el cliente controle y personalice cada capa, desde IaaS hasta PaaS.

Antes de que la computación en nube pública a gran escala formara parte de la corriente dominante en TI, la virtualización para Hadoop se consideraba mayoritariamente un antipatrón. Esto se debía en gran parte a la naturaleza distribuida de Hadoop y a su gran dependencia de los discos locales en cada servidor para un funcionamiento eficiente. Por tanto, ejecutar Hadoop en nubes a menudo se reduce a una pregunta: ¿puedo almacenar todos mis datos en la nube y procesarlos de forma eficiente? La respuesta es sí.

Los proveedores de nubes públicas operan a tal escala (a menudo llamada hiperescala), que los entornos Hadoop y su gran demanda de rendimiento de E/S pueden acomodarse a precios ...

Get Arquitectura de plataformas de datos modernas now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.