Capítulo 4. Escalas de color

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Hay tres casos fundamentales de uso del color en las visualizaciones de datos: podemos utilizar el color para distinguir grupos de datos entre sí, para representar valores de datos y para resaltar. Los tipos de colores que utilizamos y la forma en que los utilizamos son bastante diferentes para estos tres casos.

El color como herramienta para distinguir

A menudo utilizamos el color como medio para distinguir elementos discretos o grupos que no tienen un orden intrínseco, como distintos países en un mapa o distintos fabricantes de un determinado producto. En este caso, utilizamos una escala de colores cualitativa. Una escala de este tipo contiene un conjunto finito de colores específicos que se eligen para que parezcan claramente distintos entre sí y, al mismo tiempo, sean equivalentes entre sí. La segunda condición exige que ningún color destaque sobre los demás. Además, los colores no deben crear la impresión de un orden, como sería el caso de una secuencia de colores cada vez más claros. Tales colores crearían un orden aparente entre los elementos coloreados, que por definición no tienen orden.

Existen muchas escalas de color cualitativas adecuadas. La Figura 4-1 muestra tres ejemplos representativos. En particular, el proyecto ColorBrewer proporciona una buena selección de escalas de color cualitativas, que incluyen colores bastante claros y bastante oscuros [Brewer 2017].

fodv 0401
Figura 4-1. Ejemplo de escalas cualitativas de color. La escala Okabe Ito es la escala por defecto utilizada a lo largo de este libro [Okabe e Ito 2008]. La escala ColorBrewer Dark2 la proporciona el proyecto ColorBrewer [Brewer 2017]. La escala de tonos ggplot2 es la escala cualitativa por defecto del software de trazado ggplot2, ampliamente utilizado.

Como ejemplo de cómo utilizamos las escalas de color cualitativas, considera la Figura 4-2. Muestra el porcentaje de crecimiento de la población de 2000 a 2010 en los estados de EEUU. He ordenado los estados según su crecimiento demográfico, y los he coloreado por regiones geográficas. Esta coloración pone de relieve que los estados de las mismas regiones han experimentado un crecimiento demográfico similar. En concreto, los estados del Oeste y del Sur han experimentado los mayores aumentos de población, mientras que los estados del Medio Oeste y del Nordeste han crecido mucho menos.

fodv 0402
Figura 4-2. Crecimiento de la población en EEUU de 2000 a 2010. Los estados del Oeste y del Sur han experimentado los mayores aumentos, mientras que los estados del Medio Oeste y del Nordeste han experimentado aumentos mucho menores (o incluso, en el caso de Michigan, un descenso). Fuente de los datos: Oficina del Censo de EEUU.

Color para representar valores de datos

El color también puede utilizarse para representar valores de datos cuantitativos, como ingresos, temperatura o velocidad. En este caso, utilizamos una escala de colores secuencial. Una escala de este tipo contiene una secuencia de colores que indican claramente qué valores son mayores o menores que otros, y lo distantes que están entre sí dos valores concretos. El segundo punto implica que la escala de colores debe percibirse como si variara uniformemente en toda su gama.

Las escalas secuenciales pueden basarse en un único tono (por ejemplo, del azul oscuro al azul claro) o en varios tonos (por ejemplo, del rojo oscuro al amarillo claro)(Figura 4-3). Las escalas multitono tienden a seguir gradientes de color que pueden verse en el mundo natural, como del rojo, verde o azul oscuro al amarillo claro, o del morado oscuro al verde claro. Lo contrario (por ejemplo, de amarillo oscuro a azul claro) parece poco natural y no constituye una escala secuencial útil.

fodv 0403
Figura 4-3. Ejemplo de escalas de color secuenciales. La escala ColorBrewer Blues es una escala monocromática que varía del azul oscuro al azul claro. Las escalas Calor y Viridis son escalas multitono que varían del rojo oscuro al amarillo claro y del azul oscuro a través del verde al amarillo claro, respectivamente.

Representar los valores de los datos como colores es especialmente útil cuando queremos mostrar cómo varían los valores de los datos entre regiones geográficas. En este caso, podemos dibujar un mapa de las regiones geográficas y colorearlas según los valores de los datos. Estos mapas se llaman coropletas. La Figura 4-4 muestra un ejemplo en el que he representado la renta media anual de cada condado de Texas en un mapa de esos condados.

En algunos casos, necesitamos visualizar la desviación de los valores de los datos en una de las dos direcciones respecto a un punto medio neutro. Un ejemplo sencillo es un conjunto de datos que contenga números positivos y negativos. Puede que queramos mostrarlos con colores diferentes, para que sea inmediatamente obvio si un valor es positivo o negativo, así como cuánto se desvía de cero en una u otra dirección. La escala de colores adecuada en esta situación es una escala de colores divergente. Podemos pensar en una escala divergente como dos escalas secuenciales cosidas en un punto medio común, que suele representarse con un color claro(Figura 4-5). Las escalas divergentes deben estar equilibradas, de modo que la progresión desde los colores claros en el centro hasta los colores oscuros en el exterior sea aproximadamente la misma en ambas direcciones. De lo contrario, la magnitud percibida de un valor de datos dependería de si cae por encima o por debajo del valor del punto medio.

fodv 0404
Figura 4-4. Mediana de ingresos anuales en los condados de Texas. Las rentas medias más altas se observan en las principales áreas metropolitanas de Texas, en particular cerca de Houston y Dallas. No se dispone de una estimación de la renta media del condado de Loving, en el oeste de Texas, por lo que ese condado aparece en gris. Fuente de los datos: Encuesta Quinquenal de la Comunidad Estadounidense de 2015.
fodv 0405
Figura 4-5. Ejemplo de escalas de color divergentes. Las escalas divergentes pueden considerarse como dos escalas secuenciales unidas por un punto medio de color común. Entre las opciones de color habituales para las escalas divergentes se incluyen el marrón al azul verdoso, el rosa al amarillo verdoso y el azul al rojo.

Como ejemplo de aplicación de una escala de colores divergente, considera la Figura 4-6, que muestra el porcentaje de personas que se identifican como blancas en los condados de Texas. Aunque el porcentaje es siempre un número positivo, aquí está justificada una escala divergente, porque el 50% es un valor medio significativo. Los números por encima del 50% indican que los blancos son mayoría y los números por debajo del 50% indican lo contrario. La visualización muestra claramente en qué condados los blancos son mayoría, en cuáles son minoría y en cuáles hay blancos y no blancos en proporciones aproximadamente iguales.

fodv 0406
Figura 4-6. Porcentaje de personas que se identifican como blancas en los condados de Texas. Los blancos son mayoría en el norte y el este de Texas, pero no en el sur ni el oeste. Fuente de los datos: Censo Decenal de EE UU de 2010.

El color como herramienta para resaltar

El color también puede ser una herramienta eficaz para resaltar elementos concretos de los datos. Puede haber categorías o valores específicos en el conjunto de datos que contengan información clave sobre la historia que queremos contar, y podemos reforzar la historia destacando los elementos relevantes de la figura para el lector. Una forma fácil de conseguir este énfasis es colorear estos elementos de la figura con un color o conjunto de colores que destaquen vivamente sobre el resto de la figura. Este efecto puede conseguirse con escalas de colores de acento, que son escalas de colores que contienen un conjunto de colores tenues y un conjunto correspondiente de colores más fuertes, oscuros y/o saturados(Figura 4-7).

fodv 0407
Figura 4-7. Ejemplos de escalas de colores de acento, cada una con cuatro colores base y tres colores de acento. Las escalas de colores de acento se pueden derivar de varias formas: (arriba) podemos tomar una escala de colores existente (por ejemplo, la escala Okabe Ito, Figura 4-1) y aclarar y/o desaturar parcialmente algunos colores mientras oscurecemos otros; (centro) podemos tomar valores de gris y emparejarlos con colores; (abajo) podemos utilizar una escala de colores de acento existente (por ejemplo, la del proyecto ColorBrewer).

Como ejemplo de cómo los mismos datos pueden sustentar historias diferentes con distintos enfoques de coloración, he creado una variante de la Figura 4-2 en la que ahora destaco dos estados concretos, Texas y Luisiana(Figura 4-8). Ambos estados están en el Sur, son vecinos inmediatos, y sin embargo uno de ellos (Texas) fue el quinto estado con mayor crecimiento dentro de EEUU de 2000 a 2010, mientras que el otro fue el tercero con menor crecimiento.

fodv 0408
Figura 4-8. De 2000 a 2010, los dos estados vecinos del sur, Texas y Luisiana, experimentaron uno de los mayores y menores crecimientos de población de EEUU. Fuente de los datos: Oficina del Censo de EEUU.

Cuando se trabaja con colores de acento, es fundamental que los colores de base no compitan por la atención. Fíjate en lo monótonos que son los colores de base enla Figura 4-8, aunque funcionan bien para apoyar el color de acento. Es fácil cometer el error de utilizar colores de base demasiado vistosos, que acaban compitiendo por la atención del lector con los colores de acento. Sin embargo, hay un remedio fácil: basta con eliminar todo el color de todos los elementos de la figura, excepto las categorías o puntos de datos resaltados. En la Figura 4-9 se ofrece un ejemplo de esta estrategia.

fodv 0409
Figura 4-9. Los atletas de pista se encuentran entre los más bajos y delgados de los atletas profesionales masculinos que participan en deportes populares. Fuente de los datos: [Telford y Cunningham 1991].

Get Fundamentos de la visualización de datos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.