Capítulo 4. La organización del analista

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Un analista de datos realmente bueno debería entusiasmar a la gente... Sabía que era el primero en obtener los datos, así que era el primero en conocer la historia. Es divertido descubrir cosas.

Dan Murray

El componente humano de una gran organización basada en datos es una gran organización analítica. ¿Quiénes son esas personas y cómo deben organizarse?

En este capítulo, me ocuparé de la propia organización analítica: los tipos de personal que la componen y las competencias que deben poseer. Examinaré la amplitud de los puestos de analista, y conoceremos a algunas de las personas que desempeñan esas variadas funciones. Además, hay varias formas de organizar a los analistas, cada una con un conjunto diferente de pros y contras, por lo que pasaré revista a varias estructuras organizativas .

Tipos de analistas

Una organización basada en datos es probable que tenga una variedad de funciones de analista, normalmente organizadas en varios equipos. Diferentes personas describen las distintas funciones de los analistas de forma diferente, y muchas de las habilidades se solapan entre ellas, pero esbozaré una descripción general de mi versión de los analistas de datos, ingenieros de datos y análisis, analistas empresariales, científicos de datos, estadísticos, cuantos, contables y analistas financieros, y especialistas en visualización de datos. Para cada uno de ellos, describiré los tipos de habilidades que suelen poseer, las herramientas que utilizan y daré un ejemplo de alguien que desempeñe esa función. Tu organización puede tener un conjunto diferente de títulos, pero las habilidades aquí descritas suelen ser necesarias para sacar el máximo partido a tus datos.

Analista de datos

Este es el término más amplio y común de , al menos en comparación con las funciones más especializadas que se tratan a continuación. En muchos casos, tienen forma de T: poseen una experiencia menos profunda en un amplio espectro de habilidades, pero profundas habilidades y conocimientos de dominio en un área dominante. Los analistas de datos van desde los puestos de nivel inicial, que suelen centrarse más en la recopilación y preparación de datos, hasta los analistas altamente cualificados y muy especializados. Estos analistas suelen ser expertos en un dominio, y se centran en una gran cantidad de áreas diferentes, como la voz del cliente, los programas de fidelización, el marketing por correo electrónico, la inteligencia militar geoespecializada o determinados segmentos del mercado bursátil. Las funciones concretas de una organización dependen de su tamaño, madurez, dominio y mercado. En todas estas funciones, es probable que su producción sea una mezcla de informes y análisis. Además de la amplitud del ámbito, los analistas varían mucho en su nivel de conocimientos técnicos.

En un extremo están los analistas que trabajan únicamente en el mundo de Excel y los cuadros de mando de los proveedores. En el otro extremo hay personas, como Samarth, que escriben código Scala contra almacenes de datos brutos a gran escala en Etsy. Samarth tiene formación en ciencias políticas, pero adquirió su formación analítica mientras trabajaba en la campaña de reelección de Barack Obama en 2012. Allí aprendió R, SQL y Python, el tríptico típico de los científicos de datos, para realizar experimentos web y de correo electrónico. Ahora es analista de datos en Etsy, en Nueva York, donde sigue trabajando en experimentos web y de correo electrónico, pero también en el análisis del flujo de clics, el análisis de tendencias y la redacción de informes y libros blancos. Trabaja con diversos jefes de producto, ingenieros y diseñadores de toda la empresa para ayudar a diseñar experimentos, analizarlos con Scala/Scalding, R y SQL, e interpretar los resultados. También redacta libros blancos generales para toda la empresa, así como memorandos más específicos para que los ejecutivos comprendan las tendencias, el comportamiento de los usuarios o características concretas.

Una analista con un perfil muy diferente es Samantha. Es licenciada en contabilidad y trabaja como analista de datos para Progressive Insurance en Cleveland, Ohio, en su equipo financiero de control de siniestros. Gestiona el proceso de confiscación (transferencia al estado de bienes no reclamados o abandonados) de siniestros mediante auditorías, análisis y cumplimiento de las leyes estatales de confiscación. Eso implica crear informes para hacer un seguimiento de los bienes abandonados, analizar los giros pendientes y resumir el riesgo financiero asociado a ellos. Utiliza una mezcla de SAS, Excel y Oracle, así como herramientas específicas del sector, como ClaimStation. Tiene un amplio conjunto de "clientes" internos que confían en su trabajo, entre los que se encuentran los responsables de Impuestos, Operaciones Financieras, TI y Reclamaciones, así como representantes de reclamaciones sobre el terreno, y le motiva, dice, "ver que mis análisis redundan en beneficio económico tanto de Progressive como de nuestros clientes asegurados". Al pertenecer a un sector muy regulado y tener la responsabilidad particular de garantizar que Progressive cumpla las leyes estatales, la atención al detalle es un rasgo especialmente importante en su función.

Ingenieros de datos e ingenieros analíticos

Principalmente responsable de obtener, limpiar y munir datos y ponerlos en un formato al que los analistas puedan acceder y analizar. Son responsables de cuestiones operativas, como el rendimiento, el escalado, los picos de carga y el registro, y también pueden ser responsables de crear herramientas de inteligencia empresarial que utilicen los analistas.

Conoce a Anna. Mientras trabajaba para obtener un doctorado en física, se dio cuenta de que su verdadera pasión estaba en la ciencia de datos y se unió a Bitly como científica de datos, dejando su programa de posgrado con un máster. En Bitly creó visualizaciones a partir de grandes conjuntos de datos, procesó datos con Hadoop e implementó algoritmos de aprendizaje automático. Después se incorporó a Rent The Runway y ahora es ingeniera de datos. Utilizando herramientas como SQL, Python, Vertica y bash, ahora mantiene la infraestructura de datos que da soporte a los analistas, desarrolla nuevas herramientas para que los datos sean más fiables, oportunos y escalables, y actúa como punto de contacto con el resto de ingenieros de la organización para comprender cualquier cambio que estén realizando y que pueda afectar a los datos.

Analistas de negocio

Analistas que suelen servir de interfaz entre las partes interesadas de la empresa (como los jefes de departamento) y el departamento de tecnología (como los desarrolladores de software). Su función es mejorar los procesos empresariales o ayudar a diseñar y desarrollar funciones nuevas o mejoradas en sistemas backend o frontend, como un flujo de pago mejorado en un sitio web orientado al cliente.

Lynn es analista empresarial senior de Macys.com. Licenciada en Bellas Artes, con experiencia como desarrolladora de aplicaciones y certificación Project Management Professional, Lynn tiene una década de experiencia en gestión de proyectos y análisis empresarial, sobre todo en comercio electrónico de venta de libros. Su papel consiste en analizar los requisitos de los proyectos, comprender las necesidades de los clientes, mejorar los procesos y gestionar los proyectos, a menudo con un enfoque ágil. "No hay un día típico", dice. "Algunos días hablo con los usuarios" (es decir, los comerciantes que utilizan el sistema de gestión de información de productos de Macy's) "sobre sus necesidades, otros días reviso las historias de usuario con los desarrolladores, o respondo a preguntas del control de calidad o de los desarrolladores sobre las historias de usuario".

Científicos de datos

Un término amplio de que tiende a incluir al personal con mayor inclinación matemática o estadística, normalmente con titulaciones superiores (a menudo en materias cuantitativas, como matemáticas, ciencias e informática) y habilidades desarrolladas de codificación. Me gustala concisa definiciónde Josh Wills de : "Científico de datos (n. f.): Persona que es mejor en estadística que cualquier ingeniero de software y mejor en ingeniería de software que cualquier estadístico". Sin embargo, no capta del todo su función, que puede consistir en crear "productos de datos", como motores de recomendación que utilicen el aprendizaje automático, o en hacer modelos predictivos y procesamiento del lenguaje natural.1

Trey, científico de datos sénior en Zulily, un sitio web de ofertas diarias con sede en Seattle, es uno de esos científicos de datos. Con un máster en sociología, Trey divide su tiempo trabajando en una variedad de proyectos que van desde la creación de modelos estadísticos y algoritmos de recomendación que mejoran la experiencia del cliente hasta ayudar a los gestores de productos a interpretar los resultados de una prueba A/B. Utiliza sobre todo Python (con bibliotecas como pandas, scikit-learn y statsmodels) y extrae datos para analizarlos con SQL y Hive. Aunque posee las habilidades técnicas para construir modelos estadísticos, considera que la capacidad de explicar esos modelos a los no expertos es una habilidad crucial de la ciencia de datos. Este amor por la enseñanza se refleja en su afición, el spread, un blog que enseña conceptos de ciencia de datos utilizando datos de fútbol americano, así como la forma de convertirse en consumidores más informados de estadísticas deportivas.

Estadísticos

Personal cualificado de que se dedica a la elaboración de modelos estadísticos en toda la organización. Suelen tener al menos un máster en estadística y son especialmente frecuentes en seguros, sanidad, investigación y desarrollo, y administración pública. Una cuarta parte de los estadísticos de EE.UU. trabajan para la administración federal, estatal y local. A menudo participan no sólo en el análisis, sino también en el diseño de encuestas, experimentos y protocolos de recopilación para obtener los datos brutos.

Te presentamos a Shaun, estadístico de apoyo al marketing cuantitativo en la oficina de Google en Boulder. Licenciado en Matemáticas y Ciencias Computacionales y doctor en Estadística, Shaun desempeña ahora una variada función de apoyo a los empleados de otros equipos, pasando a menudo de un proyecto a otro según surgen las necesidades. Por un lado, su trabajo puede consistir en extraer, limpiar, visualizar y verificar la calidad de una nueva fuente de datos. Por otro, aprovecha sus conocimientos estadísticos para desarrollar algoritmos de agrupación con el fin de mejorar los geoexperimentos de búsqueda en línea, desarrollar modelos bayesianos de series temporales estructurales o estimar la audiencia a nivel individual a partir de datos domésticos mediante bosques aleatorios. Pasa la mayor parte de su tiempo en R, especialmente para analizar y visualizar datos (sobre todo paquetes como ggplot2, plyr/dplyr y data.table). Sin embargo, también extrae datos con lenguajes tipo SQL y utiliza algo de Python y Go.

Quants

Matemáticamente analistas cuantitativos cualificados que suelen trabajar en el sector de los servicios financieros modelando valores, gestión de riesgos y movimientos bursátiles tanto en el lado comprador como en el vendedor del mercado. Por ejemplo, un fondo de pensiones puede contratar a un quant para que elabore una cartera óptima de bonos para hacer frente a las obligaciones futuras del fondo. A menudo provienen de las matemáticas, la física o la ingeniería, y algunos -especialmente los analistas de negociación algorítmica (el mejor pagado de todos los puestos de analista)- son especialmente buenos programadores en lenguajes, como el C++, que pueden procesar datos y generar acciones con muy baja latencia.

Satish es un experto en Bloomberg en Nueva York, con una sólida formación en matemáticas aplicadas e ingeniería eléctrica, incluido un doctorado. Utiliza R (ggplot2, dplyr, reshape2), Python (scikit-learn, pandas) y Excel (para tablas dinámicas) para construir una serie de modelos estadísticos y luego C/C++ para poner algunos de ellos en producción. Esos modelos suelen abarcar el valor relativo de diversas clases de activos de renta fija. Sin embargo, también trabaja como consultor interno y, por tanto, se pone a trabajar en un conjunto diverso de problemas que van desde modelos de crédito para valores respaldados por hipotecas hasta la predicción del suministro de energía eólica en el Reino Unido. "Las enormes cantidades de datos y análisis financieros disponibles en Bloomberg no tienen parangón en el sector", afirma. "Como tal, es extremadamente gratificante saber que la mayoría de los modelos que construimos son cosas que aportan valor a todos nuestros clientes". Uno de los retos de trabajar con datos financieros es que tienen muchas colas largas y, por tanto, los modelos deben manejar con elegancia esos acontecimientos raros y extremos.

Contables y analistas financieros

Personal especializado en estados financieros internos, auditoría, previsiones, análisis del rendimiento empresarial, etc. Conoce a Patrick. Licenciado en Filosofía, Política y Economía y con experiencia como analista de mercados de capital de deuda en RBS Securities, Patrick es ahora director de estrategia y finanzas minoristas de Warby Parker en Nueva York. Es responsable de la planificación y el análisis financiero minorista y de apoyar el desarrollo de la estrategia de implantación de tiendas de la empresa. Se pasa el día metido en Excel gestionando las pérdidas y ganancias y los indicadores clave de rendimiento de las tiendas, desarrollando modelos de rendimiento futuro, profundizando en la varianza de los modelos y analizando el desarrollo del mercado. En la actualidad, dedica un 60% de su tiempo a la elaboración de informes y el resto al análisis, pero este último se está desplazando hacia el análisis a medida que mejoran su acceso, su comodidad y sus habilidades con las herramientas de inteligencia empresarial de la empresa.

Especialistas en visualización de datos

Personas con una fuerte estética de diseño que crean infografías, cuadros de mando y otros activos de diseño. También pueden codificar en tecnologías como JavaScript, CoffeeScript, CSS y HTML, trabajando con bibliotecas de visualización de datos, como D3 (una biblioteca de visualización muy potente y hermosa tratada en Visualización Interactiva de Datos para la Web (O'Reilly) de Scott Murray) y HTML5.

Te presento a Jim (Jim V en la Figura 4-1). Tras obtener un máster en informática, especializado en bioinformática y aprendizaje automático, Jim trabajó para Garmin desarrollando interfaces gráficas para sus dispositivos GPS y, posteriormente, en un centro de investigación biológica analizando datos de secuencias a gran escala. Fue allí donde descubrió D3 y comenzó a bloguear sobre él, desarrollando tutoriales claros e instructivos. Ahora es ingeniero de visualización de datos y científico de datos en el laboratorio de datos de Nordstrom en Seattle. Utilizando una mezcla de Ruby, algo de Python y R (especialmente los paquetes ggplot2 y dplyr), divide su tiempo entre el apoyo a los sistemas de personalización y recomendación y la visualización de datos, siendo su audiencia principal los empleados de otros equipos.

En organizaciones más grandes, puedes encontrar funciones especializadas adicionales, como las que se dedican únicamente a generar informes, o que se especializan en el uso de una herramienta de inteligencia empresarial concreta. Otros pueden centrarse sólo en tecnologías de big data, como Hadoop o Spark.

Como puedes ver, hay un gran solapamiento de estas funciones y términos. La mayoría manipulan datos con algún tipo de lenguaje similar al SQL. Algunos codifican más que otros. Muchas funciones implican la creación de modelos estadísticos, a menudo con SAS o R. La mayoría implica una mezcla de informes y análisis .

La analítica es un deporte de equipo

La analítica es un deporte de equipo . Una organización bien engrasada y orientada a los datos va a tener tanto una gama de personal analítico con distintas funciones como personal con aptitudes complementarias. Tiene que considerar la "cartera" de habilidades del equipo y el perfil de las nuevas contrataciones que mejor funcionaría para completar y reforzar las áreas que falten o sean débiles en ese equipo.

Por ejemplo, la Figura 4-1 muestra el perfil del equipo del laboratorio de datos de Nordstrom en 2013. Puedes distinguir fácilmente a los matemáticos y estadísticos más fuertes del equipo (Elissa, Mark y Erin), a los desarrolladores más fuertes (David y Jason W) y a su experto en visualización de datos, Jim V, perfilado anteriormente. Pregunté a Jason Gowans, director del laboratorio, en qué piensa a la hora de contratar a una nueva incorporación. "La primera es que somos partidarios de la regla de las dos pizzas de Jeff Bezos", dijo. "Por lo tanto, es poco probable que seamos mucho más grandes de lo que somos actualmente. Creemos que eso nos ayuda a mantenernos centrados en lo que creemos que son las grandes oportunidades. La segunda es que cada miembro aporta algo único al equipo y puede ayudar a los demás a "subir de nivel"."

Tomaron una decisión inteligente al principio de la historia del equipo al contratar a un experto en visualización de datos, algo que muchos equipos dejan para más adelante. Contar con productos de datos de prueba de concepto bellos y pulidos ayudó al equipo a ganar tracción y aceptación dentro de la organización en general. "Jim ha sido un ingrediente clave en nuestra capacidad para generar entusiasmo por nuestro trabajo y darle vida con sus habilidades de visualización de datos", dijo Jason.

Los científicos de datos, que a menudo proceden de una formación académica, tienen especialmente forma de T. Cuando tienen dos áreas dominantes, se les denomina en forma de Pi. Puedes pensar en la contratación y la formación de equipos como en el Tetris de la analítica.

Alt Text
Figura 4-1. Perfil del equipo del laboratorio de datos de Nordstrom (en Strata 2013). ML = aprendizaje automático. Devops es un término relativamente nuevo que surge del desarrollo ágil de software y representa una mezcla de TI, administración de sistemas e ingeniería de software.

Una encuesta realizada en 2012 por Harris et al. sobre cientos de datos de autoinforme del personal abarcó cinco grupos de aptitudes:

  • Empresa
  • Investigación matemática/operativa
  • Aprendizaje automático/Grandes datos
  • Programación
  • Estadísticas

Identificaron cuatro grupos de funciones:

Empresarios de datos

"Bastante en forma de T con las mejores aptitudes en Empresariales, y aptitudes moderadas en el resto".

Investigadores de datos

Profundo en estadística y menos amplio con clasificaciones bajas en aprendizaje automático/big data, negocios y programación.

Desarrolladores de datos

En forma de Pi con fuertes conocimientos de programación y relativamente fuertes conocimientos de aprendizaje automático/big data y conocimientos moderados en los otros tres grupos.

Creativos de datos

El grupo con forma de T menos "que no eran, por término medio, ni los más fuertes ni los más débiles en ningún grupo de habilidades".

Sus perfiles medios se muestran en la Figura 4-2. Es fácil observar la gran variación entre los cuatro tipos.

Estas cuatro funciones se corresponden de forma imprecisa con los títulos de los puestos de analista(Tabla 4-1); las organizaciones con más personal y complejidad pueden tener un mayor número de funciones definidas; las operaciones más pequeñas probablemente tendrán menos personas que lleven más sombreros. También merece la pena señalar que, aunque Harris et al. descubrieron que los creativos de datos "no eran ni los más fuertes ni los más débiles en ningún grupo de habilidades", no categorizaron la visualización y la comunicación como un grupo de habilidades, y es un grupo vital para un equipo de trabajo. También cabe señalar que, como problema de la ciencia de datos, éste es un punto débil de las encuestas: se limitan a las categorías que prevén los diseñadores de la encuesta. En este caso, había conocimiento del dominio para darse cuenta de que los creativos de datos formaban parte de equipos de éxito, pero no exactamente claridad sobre lo que añadían.

Tabla 4-1. Correspondencia de las funciones de los analistas enumeradas anteriormente en este capítulo con las de Harris et al. 2013
Empresario de datos Datos creativos Desarrollador de datos Investigador de datos
Analistas empresariales Especialistas en visualización de datos Científicos de datos Estadísticos
Analistas de datos Ingenieros de datos Quants
Contables y analistas financieros
Alt Text
Figura 4-2. El perfil de competencias de los cuatro grupos de encuestados (Figura 3-3 de Harris et al., 2013).

Idealmente, al contratar, los directivos tienen que pensar a tres niveles:

Nivel individual

¿Es esta persona adecuada? ¿Posee las aptitudes, el potencial y el empuje que buscamos?

A nivel de equipo

¿Complementa esta persona al resto del equipo y llena los huecos que faltan o apuntala un punto débil?

Nivel de trabajo

¿Cómo se ajusta el perfil del equipo al trabajo que se necesita? Es decir, ¿cuál es el perfil de equipo que mejor se ajusta a lo que intentamos conseguir? Por ejemplo, el trabajo que se centra principalmente en modelos predictivos financieros puede tener un conjunto de aptitudes de personal óptimo diferente del trabajo centrado en optimizar el servicio al cliente .

Habilidades y cualidades

¿Cuáles son los rasgos que hacen a un gran analista?2

Numerar

No es necesario que tengan un doctorado en matemáticas o estadística, pero al menos deberían sentirse cómodos con la estadística descriptiva (mediana, moda, cuartiles, etc.; véase el Capítulo 5) y estar dispuestos a aprender más.

Orientado al detalle y metódico

Si estas cifras, informes y análisis llegan a la alta dirección para tomar una decisión empresarial importante, más vale que sean correctos. Los analistas deben ser del tipo "medir dos veces, cortar una".

Apropiadamente escéptico

Los grandes analistas cultivan un buen "sentido arácnido" para saber cuándo algo parece erróneo en los datos brutos o agregados o en el propio análisis. En primer lugar, pensarán proactivamente en la gama de valores que tendrían sentido. En segundo lugar, cuestionarán proactivamente la validez de los datos y volverán a comprobar los datos de origen y los cálculos cuando una métrica sea mayor o menor de lo esperado.

Confianza

Los analistas no sólo necesitan confianza para presentar sus conclusiones a grupos de colegas (de alto nivel), sino que si las conclusiones son sorprendentes o ponen al descubierto graves ineficiencias, sus datos y análisis pueden ponerse en tela de juicio. Tienen que tener confianza en su trabajo para defenderlo.

Curioso

Parte de la función de un analista es buscar perspectivas procesables, por lo que necesita ser curioso para estar siempre desarrollando hipótesis o cuestionando aspectos potencialmente interesantes de los datos.

Buenos comunicadores y narradores

El trabajo de un analista no vale nada si no se transmite bien a los responsables de la toma de decisiones y a los propietarios de empresas que pueden actuar en función de las recomendaciones. Tienen que contar una historia convincente y coherente en torno a los datos y las conclusiones. Por tanto, deben tener una gran capacidad de expresión escrita, verbal y de visualización de datos. (Más sobre esto en el Capítulo 7.)

Paciente

Hay muchas cosas que escapan al control directo de un analista. Esto incluye la exactitud o disponibilidad de la fuente de datos brutos, los datos que faltan, los requisitos cambiantes o los sesgos ocultos en los datos que se revelan tarde en un análisis y que pueden significar que tengan que desechar o rehacer sus análisis. Los analistas necesitan paciencia.

Amantes de los datos

De la misma forma que a muchos programadores informáticos les encanta codificar y el dominio es casi irrelevante, a algunas personas les encantan los datos como recurso, como forma de dar sentido a su mundo y tener un impacto. Les encanta profundizar. Contrata a esas personas.

Aprendices de la vida

Esto no es específico de los analistas, pero los que aman aprender, los que siempre están leyendo los últimos artículos y libros de texto y tomando clases para desarrollar sus conocimientos y habilidades, lo harán bien.

Pragmático y conocedor de los negocios

Tienes que centrarte en las preguntas adecuadas. Puede ser demasiado fácil dejarse arrastrar por una madriguera y dedicar demasiado tiempo a indagar en un caso de perímetro inferior al 1% que no tiene un impacto real en la empresa. Al igual que los buenos editores, tienen que tener en mente el panorama general y saber cuándo acabar con una historia y pasar a otra que suponga un mejor uso del tiempo .

Le pregunté a Daniel Tunkelang, jefe de calidad de búsqueda de en LinkedIn, qué busca cuando contrata analistas:

Busco tres cosas en los analistas/científicos de datos. En primer lugar, tienen que ser solucionadores de problemas inteligentes y creativos, que no sólo tengan capacidad analítica, sino que sepan cómo y cuándo aplicarla. En segundo lugar, tienen que ser implementadores y demostrar que tienen tanto la capacidad como la pasión para construir soluciones utilizando las herramientas adecuadas. En tercer lugar, tienen que tener suficiente sentido del producto, ya sea por instinto o por experiencia, para navegar en el espacio problemático en el que van a trabajar y hacer las preguntas adecuadas.

Ken Rudin, jefe de análisis de en Facebook, dice:

Puedes utilizar la ciencia, la tecnología y la estadística para averiguar cuáles son las respuestas, pero sigue siendo un arte averiguar cuáles son las preguntas adecuadas... Ya no basta con contratar a personas que tengan un doctorado en estadística. También tienes que asegurarte de que las personas con las que cuentas tienen "conocimientos empresariales". Creo que el conocimiento de los negocios se está convirtiendo en uno de los activos más importantes, una de las habilidades más importantes que debe tener cualquier analista.

¿Cómo averiguas si un analista potencial al que estás mirando tiene conocimientos empresariales? Cuando les entrevistes, no te centres sólo en cómo calculamos esta métrica. Dales un caso práctico, un caso práctico de tu propio negocio, y pregúntales: "en este escenario, ¿cuáles son las métricas que crees que sería importante mirar?". Así es como puedes llegar a eso.

Una herramienta más

En términos de habilidades prácticas, no hace falta decir que la mayoría de los analistas de todo el mundo utilizan Word, Excel y PowerPoint de Microsoft como sus principales caballos de batalla. Son herramientas muy potentes. Sin embargo, es sorprendente cómo unas pocas herramientas adicionales pueden marcar una gran diferencia en términos de productividad.

Consejo

Esta sección pretende ser un reto para dos públicos principales. Si eres analista, desafíate a ti mismo a aprender una herramienta o utilidad más en el próximo mes o trimestre. Si eres director de analistas, haz que se desafíen a sí mismos de esta manera. Compruébalo y averigua qué impacto ha tenido. Te sorprenderás.

Aquí tienes algunas áreas a tener en cuenta.

Análisis Exploratorio de Datos y Modelización Estadística

R es un entorno cada vez más popular para la computación estadística y dispone de excepcionales bibliotecas de visualización de datos (como ggplot2). Por ejemplo, puedes leer un CSV y visualizar la relación entre todos los pares de variables posibles en sólo dos comandos:

data<-read.csv(filename.csv);
pairs(data)

La Figura 4-3 muestra la salida de esos comandos. En el segundo panel de la fila superior, podemos ver la relación entre la anchura de los sépalos (eje x) y la longitud de los sépalos (eje y) de las flores del iris.

Alt Text
Figura 4-3. Ésta es la salida del comando pairs(iris) en R. Iris es un conjunto de datos muy conocido, recopilado por Edgar Anderson pero hecho famoso por el estadístico R. A. Fisher, que consiste en mediciones de 50 muestras de tres especies de flores de iris. Las correlaciones entre las variables y las diferencias entre las tres especies son evidentes cuando puedes ver las relaciones de forma holística como ésta.

Como tal, puede ser inestimable para un rápido análisis exploratorio de datos. (Los no abiertos SAS y SPSS también son populares y potentes.) Existen unos 6.700 paquetes para todo tipo de tipos de datos, modelos, dominios y visualizaciones, y es gratuito y de código abierto.3 Si ya conoces R, aprende un nuevo paquete R y amplía tu conjunto de habilidades .

Consultas a la base de datos

Aunque Excel puede ser increíblemente potente, tiene problemas de escalado: a partir de cierto tamaño de datos y número de VLOOKUPS, puede poner de rodillas a tu ordenador. Por este motivo, SQL es una herramienta valiosa en el conjunto de herramientas de cualquier analista. SQL es una habilidad transferible; y aunque existen algunas pequeñas diferencias en el lenguaje entre bases de datos (como MySQL, PostgreSQL y Access), está bastante estandarizado, por lo que una vez que conozcas SQL podrás cambiar fácilmente entre diferentes bases de datos relacionales. Luego puedes consultar datos de forma escalable (procesar millones de filas), puedes compartir consultas con colegas (compartiendo pequeñas consultas de texto y no enormes trozos de datos sin procesar), y tienes un proceso que es repetible (puedes volver a ejecutar análisis fácilmente).

Hay muchos libros y cursos offline y online que te ayudarán a iniciarte en SQL. Un curso online gratuito que yo recomendaría es el Tutorial de SQL de W3Schools, porque puedes ejecutar consultas en el propio navegador. Otra forma de empezar es instalar una base de datos en tu máquina local. Instalar y configurar bases de datos corrientes, como MySQL y PostgreSQL, puede ser complicado. Por ello, te recomiendo encarecidamente que empieces con SQLite4-muchas aplicaciones de tu smartphone utilizan SQLite para almacenar los datos de la aplicación. Es gratuito, casi trivial de instalar, guarda tus datos en un único archivo transportable y te permitirá empezar a escribir consultas SQL en cuestión de minutos.

En caso de que te preocupe que se trate de una tecnología antigua que pronto será sustituida por un enfoque nuevo y brillante, en la Encuesta Salarial sobre Ciencia de Datos 2014 de O'Reilly, King y Magoulas señalan que "SQL fue la herramienta más utilizada... Incluso con la rápida afluencia de nueva tecnología de datos, no hay indicios de que SQL vaya a desaparecer".

Inspección y manipulación de archivos

Si el equipo de análisis debe trabajar con archivos de datos en bruto grandes o numerosos, entonces alguien -no tienen por qué ser todos, porque el análisis es un deporte de equipo- debería adquirir algunas habilidades sencillas de línea de comandos Unix para el filtrado y la manipulación de archivos. Como alternativa, un lenguaje de programación, como Python, te proporcionará esas herramientas y muchas más.

Consulta el Capítulo 5 para un debate más completo.

Qué herramienta o utilidad aprender depende de tus habilidades actuales y de su(s) punto(s) débil(es). Sin embargo, todo el mundo tiene un punto débil. Acepta el reto.

Si necesitas más incentivos, la Encuesta salarial sobre ciencia de datos 2013 de O'Reilly, realizada entre los asistentes a dos grandes conferencias sobre Strata en 2012 y 2013, reveló lo siguiente:

Los salarios se correlacionaron positivamente con el número de herramientas utilizadas por los encuestados. El encuestado medio seleccionó 10 herramientas y tenía unos ingresos medios de 100.000 $; los que utilizaban 15 herramientas o más tenían un salario medio de 130.000 $.

Esto se presentó de forma más clara y descarnada en su encuesta de 2014(Figura 4-4).

Alt Text
Figura 4-4. Relación entre el número de herramientas diferentes y el salario de la ciencia de datos. Esta es la Figura 1-13 de la Encuesta Salarial sobre Ciencia de Datos 2014 de O'Reilly.

En 2013, concluyeron además:

Parece muy probable que saber utilizar herramientas como R, Python, marcos Hadoop, D3 y herramientas escalables de aprendizaje automático cualifique a un analista para puestos mejor pagados, más que saber SQL, Excel y plataformas RDB [base de datos relacional]. También podemos deducir que cuantas más herramientas conozca un analista, mejor: si estás pensando en aprender una herramienta del grupo Hadoop, es mejor que aprendas varias.

Por último, la encuesta de 2014 muestra un aumento de unos 15.000 $ para los analistas que codifican frente a los que no codifican. Si eres un analista que no codifica, hazte un favor y ¡aprende a codificar!

Estructura de Analytics-org

Habiendo considerado en los tipos de funciones y competencias de los analistas, ahora considero cómo se organizan en el contexto de la organización más amplia.

En primer lugar, consideremos los dos extremos comunes.

Centralizado

Hay un equipo central de análisis al que informan todos los analistas. Esto tiene muchas ventajas. En primer lugar, el equipo puede estandarizar las habilidades, la formación y las herramientas, y pueden compartir recursos y reducir los costes de las licencias de software. En segundo lugar, pueden promover más fácilmente el uso de la analítica y la analítica avanzada dentro de la organización. Tercero, los analistas pueden comunicarse fácilmente, aprender unos de otros o servir de mentores, y sentir que forman parte de un equipo con ideas afines. En cuarto lugar, existe, o puede existir, la percepción de una mayor objetividad, ya que es poco probable que su éxito o sus recompensas estén alineados con el éxito de los proyectos que analizan. Por último, pueden ayudar a promover las fuentes de datos maestros como fuentes únicas de la verdad. En el lado negativo, pueden estar algo alejados de los propietarios de las empresas y de sus objetivos, tienden a ser muy reactivos a las peticiones de trabajo5,6 pueden ser más burocráticos. Como señala Piyanka Jain, "todo tiene que entrar en el pipeline, priorizarse y obtener recursos asignados para ello".7

Descentralizado

Una organización analítica descentralizada integra a los analistas en equipos individuales. Esos analistas informan a esos equipos y comparten sus objetivos. En otras palabras, viven los objetivos, informes y métricas de esos equipos. El inconveniente es que pueden estar algo alejados de otros analistas. Existe la posibilidad de redundancia de esfuerzos, divergencia de herramientas, habilidades, definiciones de métricas y aplicación. También puede haber una falta de comunicación e intercambio entre analistas de distintos equipos. El modelo descentralizado es el más común, con un 42% de respuestas en una encuesta, un factor que Davenport et al. (p. 108) consideran que refleja "inmadurez analítica". No aclaran ni defienden explícitamente esa postura, pero mi interpretación es que es difícil sobresalir en algunos de los niveles más altos de la analítica, como un departamento de investigación de operaciones que trabaje en problemas difíciles de optimización o predicción, sin cierta coordinación, experiencia y supervisión más centralizadas.

Hay muchos pros y contras de estas dos estructuras (resumidos en la Tabla 4-2). Al formar parte de una organización de analistas más grande y centralizada, los analistas tienen más apoyo local, tutoría y una trayectoria profesional más clara. Sin embargo, en una estructura descentralizada, el responsable de la línea de negocio dispone de recursos dedicados y, presumiblemente, de un tiempo de respuesta más rápido.

Tabla 4-2. Los pros de la estructura analítica centralizada frente a la descentralizada. (Los contras están implícitos como lo opuesto a los pros en la otra columna). Un mayor conocimiento del dominio podría ir en cualquier dirección (véase el texto para la explicación).
Pro Centralizado Descentralizado
Trayectoria profesional clara
Acceso directo y a tiempo completo
Tiempo de respuesta más rápido
Mayor redundancia del conocimiento del dominio
Conjunto de herramientas y formación normalizados
Métricas estandarizadas: números que concuerdan
Menos burocracia
Objetividad (percibida)
Mayor conocimiento del dominio ? ?

Un 63% más de organizaciones transformadas que de organizaciones con aspiraciones (recordemos el Capítulo 1) "utilizan una unidad empresarial centralizada como fuente principal de analítica". Como antes, hay variables de confusión en juego -en particular, el tamaño de la empresa y el número total de analistas-, porque también es más probable que las organizaciones transformadas utilicen la analítica en las unidades de negocio.8

Cabría esperar que los analistas de la organización descentralizada acumularan un mayor conocimiento del dominio, como la comprensión profunda de los datos de la voz del cliente, los procesos analíticos y las métricas. Sin embargo, esa concentración de conocimientos puede representar un riesgo para la empresa en su conjunto si esos pocos individuos se marchan. (En una organización centralizada, es más probable que haya redundancia de conocimientos de dominio, ya que los analistas cambian entre distintas líneas de negocio). Esto puede significar que el conocimiento del dominio sea en realidad menor, por término medio, en una estructura descentralizada si esos analistas se marchan con frecuencia para ser sustituidos por novatos que requieren una formación de varios años desde cero.

Curiosamente, Jeb Stone9 argumenta que en una organización centralizada con unas pocas tecnologías estándar,

Para aumentar el valor para la organización, un analista debe dominar estas tecnologías adicionales, formarse en estas líneas de negocio específicas y acercarse al nivel y la calidad del trabajo que ya tienen como referencia los analistas senior. Sin una trayectoria profesional, tus analistas se verán muy incentivados a aprender una tecnología muy demandada a tu costa -independientemente de que tu organización la necesite o no-, y luego se irán a un empleador que les compense por esa habilidad. Y lo que es aún más importante: los analistas estrella evitarán a los empleadores con una función de Análisis descentralizada, porque saben que tardarán más en ponerse al día y que probablemente no haya un programa de incentivos al rendimiento específico para sus logros.

En un intento de encontrar una estructura que aproveche el mayor número de pros y minimice los contras, existe una forma intermedia, denominada modelo híbrido . Este modelo, como el empleado en Facebook, tiene un equipo analítico centralizado, y así tienes las ventajas de la formación estandarizada, las herramientas y similares, pero los analistas se sientan físicamente con los distintos equipos empresariales y además comparten los objetivos de esos equipos. Así, tienes la ventaja de una estrecha alineación y normas analíticas. El inconveniente es que se introduce una situación en la que los analistas pueden estar informando a más de un responsable, uno de la parte empresarial y otro de la parte analítica. Esto introduce la posibilidad muy real de mensajes contradictorios o confusos.

Cuando tienes un modelo descentralizado, necesitas alguna forma de reunir a los analistas para que desarrollen habilidades comunes, asistan a cursos de formación sobre herramientas, discutan las fuentes de datos, las métricas, los análisis en los que se está trabajando, etc. Un enfoque, y que empleamos en Warby Parker, es formar un gremio de analistas, "un grupo organizado de personas que se han unido porque comparten el mismo trabajo o interés". Consigue que analistas de distintos equipos, y en nuestro caso de distintos edificios, hablen entre sí, discutan temas y hagan "show and tells". También permite a mi equipo de datos impartir formación sobre herramientas de inteligencia empresarial y estadística.

Un gremio de este tipo lo hace más matricial, pero requiere el apoyo de los directores o jefes de departamento de los que dependen los analistas y/o de los altos directivos. Los jefes deben animar a los analistas a ausentarse de su trabajo para asistir y participar en el gremio.

Otras estructuras organizativas10,11 más comunes en organizaciones más grandes, incluyen

Consulta

En algunas organizaciones, el modelo centralizado de se modifica de forma que los analistas se contratan a departamentos con los cargos adecuados, en una estructura consultiva. Con un liderazgo ejecutivo deficiente, existe el inconveniente potencial de que los analistas sigan al dinero o a los ejecutivos más ruidosos, y de que no trabajen necesariamente en proyectos que aporten el mayor valor a la organización.

Funcional

Una forma de centralización en serie en la que un grupo central se asienta en una unidad de negocio funcional, atendiendo principalmente a esa unidad, pero puede prestar algunos servicios a otras partes de la organización. Luego pueden migrar en masa a otra unidad de negocio cuando surja la necesidad.

Centro de excelencia

Es similar a la estructura híbrida de , pero a mayor escala, y alberga un conjunto de expertos analíticos, como estadísticos, en el núcleo central. Así, tienes análisis que se realizan tanto en las unidades individuales como desde el personal central.

La Tabla 4-3 resume las distintas estructuras organizativas y enumera algunos ejemplos de organizaciones de cada tipo. Sin embargo, hay que subrayar que estas etiquetas identifican estructuras idealizadas y, en realidad, hay líneas muy difusas entre ellas, y existen muchas formas intermedias. Por ejemplo, Warby Parker es principalmente una forma descentralizada en la que los analistas sólo informan a los directores de línea de negocio, pero hay algunos elementos de un modelo de centro de excelencia con un equipo central de datos que acoge a científicos de datos y proporciona cierto apoyo en términos de análisis avanzado (así como herramientas de inteligencia empresarial, formación de analistas e impulso de normas). Sin embargo, se espera que esa estructura cambie a medida que madure la organización analítica.

Tabla 4-3. Resumen y ejemplos de las distintas estructuras de organización analítica
Estructura organizativa Los analistas informan o comparten objetivos con Ejemplos
Analista central org Empresarios
Centralizado Mars, Expedia, One Kings Lane
Descentralizado PBS, Dallas Mavericks
Híbrido/integrado Facebook, Ford, Booz Allen Hamilton
Funcional Fidelidad
Consulta eBay, United Airlines
Centro de excelencia Capital One, Bank of America

No hay una respuesta a "¿Cuál es la mejor estructura?". Depende. Depende del tamaño de la organización y del sector. Por ejemplo, una forma de centro de excelencia analítica tiene poco sentido cuando hay, digamos, cinco analistas. Son más frecuentes en organizaciones con más de 25.000 empleados. Una forma puede tener más sentido en un momento dado, pero a medida que la empresa crece, se le queda pequeña y puede necesitar una reorganización a una forma más adecuada.

Sin embargo, basándose en una encuesta de Accenture y en el análisis de más de 700 analistas de ,12 Davenport et al. (p. 106) sí afirman:

Creemos que los modelos centralizado y de centro de excelencia (o un modelo federado que combine elementos de ambos) ofrecen el mayor beneficio potencial para las organizaciones dispuestas a adoptar un enfoque empresarial de la analítica. Los analistas de un modelo centralizado o de centro de excelencia tienen niveles significativamente más altos de compromiso, satisfacción laboral, apoyo y recursos organizativos percibidos e intención de quedarse que los analistas descentralizados o los que trabajan en unidades de consultoría.13

En el Capítulo 11, hablaremos de la posición de estos equipos en la estructura organizativa general y de los ejecutivos de la C-suite a los que están subordinados. Antes, sin embargo, consideremos más detenidamente lo que hacen los analistas de : analizar.

1 Conway, D., "El diagrama de Venn de la ciencia de datos", 30 de septiembre de 2010.
Anderson, C., "¿Qué es un científico de datos?". 3 de diciembre de 2012.

2 El libro Now You See It (Analytics Press) de Stephen Few contiene un buen debate sobre este tema, pp. 19-24.

3 Puedes encontrar excelentes herramientas de código abierto para el análisis en Data Analysis with Open Source Tools, de P. K. Janert (O'Reilly).

4 Un libro introductorio es Using SQLite de J. A. Kreibich (O'Reilly).

5 "Ken Rudin 'Big Impact from Big Data'", 29 de octubre de 2013, videoclip, YouTube.

6 Davenport, T. H., y J. G. Harris. Analytics at Work. Boston: Harvard Business Press, 2007.

7 Jain, P., "Centralizar o no la analítica, esa es la cuestión", Forbes, 15 de febrero de 2013.

8 LaValle, S., M. S. Hopkins, E. Lesser, R. Shockley y N. Kruschwitz, "Analytics: the New Path to Value", MIT Sloan Management Review 52, nº 2 (2010): Figura 9.

9 Stone, J., "Analítica centralizada frente a descentralizada: Todo lo que necesitas saber", 22 de abril de 2012.

10 Davenport, T. H., y J. G. Harris. Analytics at Work. Boston: Harvard Business Press, 2007.

11 Khalil, E., y K. Wood, "Aligning Data Science - Making Organizational Structures Work", (Tysons Corner, VA: Booz Allen Hamilton, Inc., 2014).

12 Harris, J. G., E. Craig y H. Egan, "Cómo organizar tu talento analítico" (Dublín: Instituto Accenture de Alto Rendimiento, 2009).

13 Davenport, T. H., Harris, J. G., y Morison, R. Competir en analítica. Boston: Harvard Business Press, 2010.

Get Crear una organización basada en datos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.