Introducción
¿Por qué visualización de datos?
En este libro, aprenderás a crear visualizaciones de datos verdaderas y significativas a través de capítulos que combinan principios de diseño y tutoriales paso a paso para que tus análisis y argumentos basados en la información sean más perspicaces y convincentes. Del mismo modo que las frases se vuelven más persuasivas con pruebas de apoyo y notas sobre las fuentes, tus escritos basados en datos se vuelven más poderosos cuando se emparejan con tablas, gráficos o mapas apropiados. Las palabras nos cuentan historias, pero las visualizaciones nos muestran historias de datos transformando patrones cuantitativos, relacionales o espaciales en imágenes. Cuando las visualizaciones están bien diseñadas, atraen nuestra atención hacia lo más importante de los datos de formas que serían difíciles de comunicar sólo mediante texto.
Nuestro libro presenta un número creciente de herramientas digitales gratuitas y fáciles de aprender para crear visualizaciones de datos. A grandes rasgos, definimos este término principalmente como gráficos, que codifican los datos como imágenes, y mapas, que añaden una dimensión espacial. Aunque las tablas no ilustran los datos del mismo modo, las incluimos en este libro por nuestra necesidad pragmática de dirigir a los nuevos alumnos a través de un proceso de toma de decisiones que a menudo desemboca en la creación de uno de estos tres productos. Además, en esta era digital definimos las visualizaciones de datos como imágenes que pueden reutilizarse fácilmente modificando la información subyacente, normalmente almacenada en un archivo de datos, en contraste con las infografías que suelen diseñarse como obras de arte de un solo uso.1
Como educadores, hemos diseñado Visualización práctica de datos para introducir conceptos clave y proporcionar tutoriales paso a paso a los nuevos alumnos. Puedes enseñarte a ti mismo, o utilizar el libro para enseñar a otros. Además, a diferencia de muchos libros técnicos que se centran únicamente en una herramienta, nuestro libro te orienta sobre cómo elegir entre más de 20 herramientas de visualización gratuitas y fáciles de usar que recomendamos. Por último, mientras que otros libros se centran únicamente en visualizaciones estáticas que sólo pueden distribuirse en papel o en documentos PDF, en demostramos cómo diseñar tablas, gráficos y mapas interactivos, e incrustarlos en la web. Las visualizaciones interactivas atraen a un público más amplio en Internet, invitándoles a interactuar con los datos, explorar patrones que les interesen, descargar archivos si lo desean y compartir fácilmente tu trabajo en las redes sociales.
Las visualizaciones de datos se han extendido ampliamente por Internet en la última década. Hoy, en nuestros navegadores web, encontramos más gráficos y mapas digitales de los que veíamos en el pasado sólo impresos. Pero el rápido crecimiento también plantea graves problemas. La "era de la información" se solapa ahora con la "era de la desinformación". Ahora que casi cualquiera puede publicar en Internet, ¿cómo tomar decisiones sensatas sobre en quién confiar? Cuando se te presentan historias con datos contradictorios sobre cuestiones políticas divisivas, como la desigualdad social o el cambio climático, ¿a cuál crees? En la siguiente sección, profundizaremos en este espinoso tema explorando qué tipos de pruebas te persuaden, y por qué. Y compartiremos este pequeño y sucio secreto sobre la visualización de datos: ilumina nuestro camino en busca de la verdad, pero también nos faculta para engañar y mentir.
¿Qué puedes creer?
Para empezar, ¿cómo sabes si debes creernos a nosotros, los autores de este libro? ¿Podríamos estar mintiéndote? ¿Cómo determinas qué información es veraz? Empecemos con una simple afirmación de una sola frase.
Ejemplo I-1.
La desigualdad económica ha aumentado considerablemente en Estados Unidos desde la década de 1970.
¿Crees en esta afirmación, o no? Quizás nunca antes habías pensado en el tema de esta forma concreta (y si es así, hay mucha información ahí fuera para ayudarte). Es posible que tu respuesta dependa de si esta afirmación encaja con tus creencias previas o las contraría. O tal vez te hayan enseñado a ser escéptico ante las afirmaciones que carecen de pruebas (y si es así, da las gracias a tus profesores). Así que pasemos a una afirmación de dos frases más compleja, que cite una fuente.
Ejemplo I-2.
En 1970, el 10% de los adultos estadounidenses con mayores ingresos percibía una renta media de unos 135.000 $ en dólares actuales, frente al 50% con menores ingresos, que ganaba unos 16.500 $. Esta brecha de desigualdad creció bruscamente durante las cinco décadas siguientes, ya que los ingresos del nivel superior ascendieron a unos 350.000 $, mientras que la mitad inferior apenas se movió hasta unos 19.000 $, según la Base de Datos Mundial sobre Desigualdad.2
¿Es el Ejemplo I-2 más creíble que el Ejemplo I-1? Hace una afirmación más precisa al definir la desigualdad económica en términos de ingresos medios del 10% superior frente al 50% inferior a lo largo del tiempo. Además, el Ejemplo I-2 vincula sus afirmaciones a una fuente concreta, y nos invita a seguir leyendo siguiendo la nota a pie de página. Pero, ¿cómo influyen estos factores en su capacidad de persuasión? ¿Te lleva el Ejemplo I-2 a preguntarte sobre la fiabilidad de la fuente y cómo define "ingresos"? ¿La redacción te hace preguntarte por el otro 40% de la población que se encuentra entre los dos extremos?
Para responder a algunas de esas preguntas, complementemos el Ejemplo I-2 con un poco más de información, como se muestra en la Tabla I-1.
Nivel de ingresos en EE.UU. | 1970 | 2019 |
---|---|---|
El 10% más alto |
$136,308 |
$352,815 |
40% medio |
$44,353 |
$76,462 |
Fondo 50% |
$16,515 |
$19,177 |
a Se muestra en dólares estadounidenses constantes de 2019. Renta nacional de los individuos de 20 años o más, antes de impuestos y transferencias, pero incluye cotizaciones y distribuciones de pensiones. Fuente: Base de Datos Mundial sobre Desigualdad 2020. |
¿La Tabla I-1 hace que el Ejemplo I-2 sea más persuasivo? Dado que la tabla contiene esencialmente la misma información que las dos frases sobre los niveles de renta superior e inferior, no debería haber ninguna diferencia. Pero la tabla comunica las pruebas de forma más eficaz y presenta un caso más convincente.
Para muchas personas, es más fácil leer y comprender la relación entre los números cuando están organizados en una cuadrícula, en lugar de en frases complejas. A medida que tus ojos recorren las columnas, te das cuenta automáticamente del enorme salto en los ingresos del 10% superior, que casi se triplicaron con el tiempo, mientras que el 50% inferior apenas se movió. Además, la tabla aporta más información que faltaba en el texto sobre el 40% intermedio, cuyos ingresos crecieron con el tiempo, pero no tanto como los del nivel superior. Además, la nota al final de la tabla añade un poco más de contexto sobre cómo los datos se muestran en dólares estadounidenses constantes de 2019, lo que significa que las cifras de 1970 se ajustaron para tener en cuenta los cambios en el coste de la vida y el poder adquisitivo de los dólares a lo largo de medio siglo. La nota también menciona brevemente otros términos utilizados por la Base de Datos Mundial sobre la Desigualdad para calcular la renta (como impuestos, transferencias y pensiones), aunque tendrías que consultar la fuente para obtener definiciones más claras. Los científicos sociales utilizan diferentes métodos para medir la desigualdad de ingresos, pero generalmente informan de resultados similares a los que se muestran aquí.3
Algunas imágenes son más persuasivas
Ahora sustituyamos la tabla por una visualización de datos, concretamente el gráfico de líneas de la Figura I-1, para comparar cuál es más persuasiva.
¿Es la Figura I-1 más persuasiva que la Tabla I-1? Dado que el gráfico lineal contiene los mismos puntos históricos de inicio y fin que la tabla, no debería haber ninguna diferencia. Pero el gráfico lineal también comunica una poderosa historia de datos visualizados sobre las diferencias de ingresos que capta tu atención de forma más eficaz que la tabla.
A medida que tus ojos siguen las líneas de color horizontalmente a través de la página, llama la atención la creciente desigualdad entre los niveles superiores frente a los medios e inferiores. El gráfico también contiene mucha información granular en una sola imagen. Si te fijas bien, también te darás cuenta de cómo el nivel de ingresos del nivel superior se mantuvo relativamente estable durante la década de 1970, luego subió vertiginosamente desde la década de 1980 hasta la actualidad, y se distanció cada vez más de las demás líneas. Mientras tanto, a medida que los ingresos del nivel medio aumentaban ligeramente con el tiempo, el destino del nivel inferior se mantuvo relativamente plano, alcanzó su máximo en 2007 y luego volvió a descender durante gran parte de la década pasada. Los ricos se hicieron más ricos y los pobres más pobres, como dice el refrán. Pero el gráfico revela lo rápido que crecieron esas riquezas, mientras que la pobreza se mantuvo recalcitrante en los últimos años.
Ahora insertemos la Figura I-2, que contiene los mismos datos que la Figura I-1, pero presentados en un formato diferente. ¿Qué gráfico debes creer? Recuerda que te advertimos que tuvieras cuidado con las personas que utilizan las visualizaciones de datos para decir mentiras.
¿Qué ocurre? Si la Figura I-2 contiene los mismos datos que la Figura I-1, ¿por qué parecen tan diferentes? ¿Qué ha pasado con el sorprendente crecimiento de las brechas de desigualdad, que ahora parecen haberse suavizado? ¿Desapareció de repente la crisis? ¿Fue un engaño?
Aunque el gráfico de la Figura I-2 es técnicamente exacto, lo hemos diseñado intencionadamente para confundir a los lectores. Fíjate bien en las etiquetas del eje vertical. La distancia entre la primera y la segunda cifras (1.000 $ a 10.000 $) es la misma que la distancia entre la segunda y la tercera (10.000 $ a 100.000 $), pero esos saltos representan cantidades de dinero muy diferentes (9.000 $ frente a 90.000 $). Eso se debe a que este gráfico se construyó con una escala logarítmica, que es la más adecuada para mostrar el crecimiento exponencial.
Quizá recuerdes haber visto escalas logarítmicas durante la pandemia del COVID-19, cuando se utilizaron adecuadamente para ilustrar tasas de crecimiento muy elevadas, difíciles de mostrar con una escala lineal tradicional. Este segundo gráfico es técnicamente exacto, porque los puntos de datos y las etiquetas de las escalas coinciden, pero es engañoso porque no hay ninguna buena razón para interpretar estos datos de ingresos utilizando una escala logarítmica, salvo para engañarnos sobre esta crisis. La gente puede utilizar los gráficos para iluminar la verdad, pero también para disfrazarla.
Diferentes matices de la verdad
Ampliemos nuestro análisis de la desigualdad de ingresos más allá de las fronteras de una nación. El Ejemplo I-3 presenta pruebas comparativas y su fuente. A diferencia de los ejemplos anteriores de EEUU, que mostraban datos históricos de tres niveles de renta, este ejemplo global se centra en el año más actual de datos disponibles para el 1% superior de cada nación. Además, en lugar de medir la renta en dólares estadounidenses, esta comparación internacional mide el porcentaje de la renta nacional que posee el 1% más rico. En otras palabras, indica cómo de grande es el trozo del pastel que se come el 1% más rico de cada nación.
Ejemplo I-3.
La desigualdad de ingresos es más grave en EEUU, donde el 1% más rico de la población recibe actualmente el 20% de la renta nacional. En cambio, en la mayoría de las naciones europeas, el 1% más rico recibe una parte menor, que oscila entre el 6% y el 15% de la renta nacional.4
Siguiendo con la misma línea de pensamiento, complementemos el Ejemplo I-3 con una visualización para evaluar su capacidad de persuasión. Aunque podríamos crear una tabla o un gráfico, no serían las formas más eficaces de mostrar rápidamente la información de las más de 120 naciones de nuestro conjunto de datos. Como se trata de datos espaciales, transformémoslos en un mapa interactivo que nos ayude a identificar cualquier patrón geográfico y anime a los lectores a explorar los niveles de ingresos en todo el mundo, como se muestra en la Figura I-3.
¿Es la Figura I-3 más persuasiva que el Ejemplo I-3? Aunque el mapa y el texto presentan los mismos datos sobre la desigualdad de ingresos en EE.UU. frente a Europa, no debería haber ninguna diferencia. Pero el mapa te arrastra a una poderosa historia que ilustra vívidamente las diferencias entre ricos y pobres, de forma similar al ejemplo del gráfico anterior. Los colores del mapa señalan una crisis porque el rojo expresa urgencia en muchas culturas. La desigualdad de ingresos en EE.UU. (junto con varios otros países, como Rusia y Brasil) destaca en rojo oscuro en el nivel más alto de la leyenda, donde el 1% superior posee el 19% o más de la renta nacional. Por el contrario, a medida que tu ojo flota a través del Atlántico, casi todas las naciones europeas aparecen en colores beige y naranja más claros, lo que indica que no hay crisis urgente, ya que su nivel superior posee una parte menor de la renta nacional.
Ahora presentemos el mapa alternativo de la Figura I-4, que contiene los mismos datos que la Figura I-3, pero se muestra en un formato diferente. ¿Qué mapa deberías creer?
¿Por qué el segundo mapa de la Figura I -4 tiene un aspecto diferente del primer mapa de la Figura I-3? En lugar de rojo oscuro, EEUU es ahora de color azul medio, más cercano en el espectro a Canadá y la mayoría de las naciones europeas. ¿La crisis de desigualdad simplemente se desvaneció en EEUU y se trasladó al Brasil azul oscuro? ¿Qué mapa dice la verdad?
Esta vez, ninguno de los dos mapas es engañoso. Ambos hacen interpretaciones veraces de los datos con elecciones de diseño razonables, aunque creen impresiones muy diferentes a nuestros ojos. Para entender por qué, fíjate bien en las leyendas de los mapas. El primer mapa clasifica a las naciones en tres categorías (menos del 13%, 13-19% y 19% y más), mientras que el segundo mapa muestra toda la gama en un gradiente de color verde-azul. Dado que la cuota de EE.UU. es del 20,5%, en el primer mapa cae en la categoría superior con el color rojo más oscuro, pero en el segundo mapa cae más cerca del centro como azul medio. Sin embargo, ambos mapas son igualmente válidos porque ninguno viola una norma definitiva en el diseño de mapas, ni estamos disfrazando datos intencionadamente. La gente puede engañar con los mapas, pero también es posible hacer más de un retrato de la verdad.
La naturaleza interpretativa de la visualización de datos plantea un serio desafío. Como autores de este libro, nuestro objetivo es guiarte en la creación de gráficos y mapas veraces y significativos. Te indicaremos los principios del buen diseño, fomentaremos hábitos mentales reflexivos e intentaremos enseñar con el ejemplo. De vez en cuando, incluso te diremos lo que no debes hacer. Pero la visualización de datos es un tema escurridizo de enseñar, a veces más arte que ciencia. Sabemos que los gráficos y los mapas pueden manipularse -al igual que las palabras- para engañar a tu público, y te mostraremos las técnicas de engaño más comunes para ayudarte a detectarlas en el trabajo de otras personas, y a evitarlas conscientemente en el tuyo propio. Pero los recién llegados pueden sentirse frustrados por las reglas algo difusas de la visualización de datos. A menudo no hay una única respuesta correcta a un problema, sino varias soluciones plausibles, cada una con sus propios puntos fuertes y débiles.
Como aprendiz, tu trabajo consiste en buscar continuamente mejores respuestas sin esperar necesariamente encontrar la única respuesta correcta, especialmente a medida que los métodos y herramientas de visualización siguen evolucionando y la gente inventa nuevas formas de mostrar la verdad.
Organización del Libro
Hemos organizado los capítulos de este libro para que sirvan de guía introductoria y práctica a la visualización de datos, desde las hojas de cálculo hasta el código. Además, no asumimos más conocimientos previos que una familiaridad general con el manejo de un ordenador y un vago recuerdo de las matemáticas de secundaria, junto con una curiosidad innata por contar historias con datos. Imagina el libro en cuatro partes.
En la Parte I, desarrollarás habilidades básicas sobre cómo imaginar tu historia de datos, junto con las herramientas y los datos que necesitarás para contarla. Pasaremos gradualmente de los Capítulos 1, 2, 3, 4 y 5. Estos capítulos incluyen tutoriales prácticos para enriquecer el aprendizaje práctico.
En la Parte II, construirás montones de visualizaciones con herramientas de arrastrar y soltar fáciles de aprender, y descubrirás qué tipos funcionan mejor con diferentes historias de datos. Empezaremos con los Capítulos 6, 7 y 8, y desarrollaremos tu comprensión del estilo interpretativo que cada uno enfatiza. En el Capítulo 9, aprenderás a insertar todas estas visualizaciones interactivas en plataformas web comunes, para invitar a los lectores a explorar tus datos y compartir tu trabajo más ampliamente.
En la Parte III, pasarás a trabajar con herramientas más potentes, concretamente con plantillas de código que te dan más control sobre la personalización del aspecto de tus visualizaciones y sobre dónde alojarlas en línea. Empezaremos con el Capítulo 10, y te guiaremos a través de la sencilla interfaz web de una popular plataforma de codificación de código abierto. Luego construirás utilizando los Capítulos 11 y 12, y descubrirás herramientas espaciales más avanzadas en el Capítulo 13. Al final del libro, incluimos el Apéndice: Solucionar Problemas Comunes para que lo consultes cuando rompas accidentalmente tu código, que también es una forma estupenda de aprender cómo funciona el código.
En la Parte IV, concluiremos todas las habilidades de visualización que has desarrollado volviendo al tema central de esta introducción: contar historias verdaderas y significativas con datos. En el Capítulo 14, aprenderás a mentir con gráficos y mapas para contar mejor la verdad. Por último, el Capítulo 15 hace hincapié en que el objetivo de la visualización de datos no es simplemente hacer imágenes sobre números, sino elaborar una narración veraz que convenza a los lectores de cómo y por qué importa tu interpretación.
Resumen
Ahora tienes una idea más clara de nuestro objetivo principal para este libro. Pretendemos que aprendas a contar historias verdaderas y significativas con visualizaciones de datos interactivas, siendo consciente al mismo tiempo de las formas en que la gente puede utilizarlas para engañar. En el próximo capítulo, vamos a empezar a aclarar la historia de datos que deseas contar y los factores a tener en cuenta a la hora de elegir las herramientas para hacer el trabajo.
1 Ten en cuenta que otros libros de visualización de datos pueden utilizar estos términos de forma diferente. Por ejemplo, todas las visualizaciones se definen como "gráficos" en Alberto Cairo, How Charts Lie: Getting Smarter About Visual Information (W.W. Norton & Company, 2019), https://oreil.ly/wXcBX, p. 23.
2 Base de datos de la desigualdad mundial, "Desigualdad de ingresos, EE.UU., 1913-2019", consultada en 2020, https://oreil.ly/eUYZn.
3 La Base de Datos Mundial sobre la Desigualdad se basa en el trabajo de los economistas Thomas Piketty, Emmanuel Saez y sus colegas, que han construido datos históricos sobre los ingresos en EEUU basándose no sólo en encuestas autodeclaradas, sino también en grandes muestras de declaraciones de la renta presentadas al Servicio de Impuestos Internos. Véanse los métodos de la WID en Base de Datos Mundial sobre Desigualdad, "Metodología", 2020, https://oreil.ly/F4SNk. Véase la visión general de los enfoques metodológicos en Chad Stone et al., "A Guide to Statistics on Historical Trends in Income Inequality" (Center on Budget and Policy Priorities, 13 de enero de 2020), https://oreil.ly/uqAzm. Véanse conclusiones comparables sobre la desigualdad de ingresos en EE.UU. del Pew Charitable Trust en "Trends in US Income and Wealth Inequality" de Julia Menasce Horowitz, Ruth Igielnik y Rakesh Kochhar (Proyecto de Tendencias Sociales y Demográficas del Centro de Investigación Pew, 9 de enero de 2020), https://oreil.ly/W5nPq.
4 Base de Datos Mundial sobre Desigualdad, "Top 1% National Income Share", 2020, consultada en 2020, https://oreil.ly/fwQQV.
Get Visualización práctica de datos now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.