Capítulo 1. Introducción a los Catálogos de Datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En este capítulo aprenderás cómo funciona un catálogo de datos, quién lo utiliza y por qué. En primer lugar, repasaremos las funcionalidades básicas de un catálogo de datos y cómo crea una visión general del panorama informático de tu organización, cómo se organizan los datos y cómo facilita la búsqueda de tus datos. La búsqueda suele estar infrautilizada e infravalorada como parte de un catálogo de datos, lo que supone un gran perjuicio para los catálogos de datos. Por ello, hablaremos de tu catálogo de datos como un motor de búsqueda que desbloqueará el potencial de éxito.

En este capítulo, también conocerás las ventajas de un catálogo de datos en una organización: un catálogo de datos mejora la descubribilidad de los datos, garantizando posteriormente la gobernanza de los datos y potenciando la innovación impulsada por los datos. Además, aprenderás a crear un equipo de descubrimiento de datos y sabrás quiénes son los usuarios de tu catálogo de datos. Concluiré este capítulo explicando las funciones y responsabilidades en el catálogo de datos.

Bien, vamos allá.

Funcionalidad básica de un catálogo de datos

En su esencia, un catálogo de datos es un inventario organizado de los datos de tu empresa. Eso es todo.

El catálogo de datos sólo proporciona una visión general a nivel de metadatos, por lo que no se exponen los valores reales de los datos. Ésta es la gran ventaja de un catálogo de datos: puedes dejar que todo el mundo lo vea todo sin miedo a exponer datos confidenciales o sensibles. En la Figura 1-1, puedes ver una descripción de alto nivel de un catálogo de datos.

Figura 1-1. Vista de alto nivel de un catálogo de datos

Un catálogo de datos es básicamente una base de datos con metadatos que han sido empujados o extraídos de fuentes de datos del entorno informático de una empresa determinada. El catálogo de datos también tiene en su interior un motor de búsqueda que permite buscar los metadatos recogidos de las fuentes de datos. Un catálogo de datos casi siempre tendrá muchas más funciones, pero la Figura 1-1 ilustra los componentes básicos necesarios. Y en este libro sostengo que la capacidad de búsqueda es la característica más importante de los catálogos de datos.

En esta sección, hablaremos de las tres características clave del catálogo de datos, a saber: crea una visión general de los datos de tu entorno informático, organiza tus datos y te permite buscar en ellos. Veamos brevemente cómo lo hacen los catálogos de datos.

Nota

Con un catálogo de datos, toda tu organización tiene la posibilidad de ver los datos que posee. Utilizada correctamente, esa transparencia puede ser muy útil. Por ejemplo, los científicos de datos ya no pasarán la mitad de su tiempo buscando datos, y tendrán una visión mucho mejor de los datos que realmente pueden aportar valor. Imagina las posibilidades. Podrían utilizar su nuevo tiempo para analizar esos datos y descubrir ideas que podrían llevar a la empresa a desarrollar mejores productos.

Crear una visión general del panorama informático

Crear una visión general de tu entorno informático implica encontrar y mostrar todas las fuentes de datos que hay en él, junto con una lista de las personas o funciones vinculadas a ellas.

Un catálogo de datos puede extraer metadatos con un rastreador integrado que explore tu entorno informático. Alternativamente, puede recibir metadatos empujados, haciendo que tus sistemas de datos informen de los metadatos a tu catálogo. En los Capítulos 2 y 6 hablaremos con más detalle de las funciones "push" y "pull".

Al panorama informático que se refleja en tu catálogo de datos se le añadirá la terminología empresarial como "etiquetas" -términos que se crean en el catálogo de datos y se organizan en glosarios. Hablaremos de los términos de los glosarios en el Capítulo 2 y de cómo buscar con ellos en el Capítulo 3. Además de los términos de glosario, también puedes mejorar los activos de tu catálogo de datos con metadatos, con descripciones adicionales, clasificaciones y mucho más.

Además, un catálogo de datos tiene varios roles y permisos incorporados, como administrador de datos, propietario de datos (los catálogos de datos tienen distintos nombres de tipo de rol) y otros roles que realizan tareas específicas en el catálogo de datos. Te describiré esos roles al final de este capítulo.

Una vez que hayas extraído/impulsado tu panorama informático y le hayas asignado términos seleccionados, otros metadatos y funciones, se podrá buscar en el catálogo.

Ningún empleado puede ver todos los datos del entorno informático. Aún más confuso: ningún empleado puede ver qué datos pueden ver los demás. Básicamente, nadie conoce todos los datos del entorno informático: es opaco.1 Esta realidad también se conoce como silos de datos.

Nota

Lossilos de datos surgen cuando varios grupos de empleados trabajan con sus propios datos en sus propios sistemas, aislados y sin conocer los datos del resto de la organización.

Este estado -el estado de silo de datos- es la causa fundamental de un inmenso conjunto de problemas en muchas organizaciones, que el catálogo de datos aborda y, en última instancia, resuelve. Estos problemas incluyen el análisis de datos aplicado a datos que carecen de calidad, conjuntos de datos incompletos y datos a los que les faltan etiquetas de seguridad y sensibilidad.

Consejo

Esta perspectiva también puede invertirse: los silos de datos están conectados, pero nadie puede verlo ni sabe cómo. Esto hace que el estado de silo de datos sea aún más peligroso, pero como verás, las capacidades del catálogo de datos pueden ayudar a mapear los datos.

En el catálogo de datos, la situación es totalmente opuesta a la del propio entorno informático. Todo lo que hay en el catálogo de datos es visible para todos los empleados. Todos pueden verlo todo, a nivel de metadatos. Y en consecuencia, todos los empleados pueden hacerse una idea de todos los datos de su empresa, basándose en esos metadatos. Son conscientes de los datos que hay fuera de su propio silo de datos, ya pasado.

Cuanto más se amplíe el catálogo de datos, más podrá ver todo el mundo. Si esto te hace pensar que un catálogo de datos encierra un potencial extraordinario, no te equivocas, y descubrirás la magnitud de ese potencial en este libro.

Basándome en mi experiencia, te sugiero que organices los datos en un catálogo de datos de la siguiente manera.

Organizar los datos

Como un catálogo de datos rastrea el entorno informático, organiza los metadatos de las entidades de datos dentro del entorno como activos pertenecientes a una fuente de datos y los almacena en dominios. Sin embargo, tú juegas un papel importante en esto: debes diseñar los dominios y parte de los metadatos que se asignan a los activos. Y ten en cuenta que la mayoría de los catálogos de datos ofrecen la automatización de este proceso: no debería ser una tarea manual añadir metadatos a los activos.

¿Qué es un activo en? Un activo es una entidad de datos que existe en tu entorno informático. Puede ser un archivo, carpeta o tabla, almacenado en una fuente de datos como una aplicación o base de datos, etc. Los activos son, por ejemplo, documentos en un lago de datos, tablas SQL en una base de datos, etc. Cuando el catálogo de datos recopila metadatos sobre el activo, ya sea por métodos push o pull, obtiene información como el nombre del activo, la fecha de creación, el propietario, el nombre de la columna, el nombre del esquema, el nombre del archivo y la estructura de la carpeta. En general, los metadatos recopilados dependen de la fuente de datos y de los datos que contenga. Debes añadir metadatos al activo más allá de lo que se rellenó con la operación de inserción/extracción. Hablaremos más de esto en el Capítulo 5.

Y ¿qué es una fuente de datos? En pocas palabras, una fuente de datos se refiere a la procedencia de los datos que se exponen a nivel de metadatos en el catálogo de datos. Puede ser un sistema informático, una aplicación o una plataforma, pero también puede ser una hoja de cálculo. En el contexto de este libro, el tipo de fuente de datos es irrelevante, porque todas las fuentes de datos pueden tratarse del mismo modo.

Debes tener en cuenta que los catálogos de datos que rastrean los entornos informáticos (es decir, que tiran, no empujan) vienen con conectores estándar sólo para un conjunto seleccionado de fuentes de datos. Por tanto, no todo será rastreable por el catálogo de datos. Por eso, a veces, los activos útiles tienen que ser introducidos manualmente por los administradores u otros expertos en la materia.

Un dominio es un grupo de activos que lógicamente pertenecen juntos. Estos activos pueden proceder de una o varias fuentes de datos. Por ejemplo, un dominio con datos financieros puede tener fuentes de datos analíticos y fuentes de datos presupuestarios. Es fundamental que definas tus dominios con cuidado, porque deben ser intuitivos para los empleados que no pertenezcan a ese dominio, y deben ser intrigantes de explorar para esos empleados: ¡un catálogo de datos es un paso inicial para romper los silos de datos!

Nota

Hasta ahora, los catálogos de datos sólo se han descrito en la literatura sobre gestión de datos. En esa literatura, la comprensión de los dominios se refiere únicamente a domain-driven design (DDD), como un intento de llevar el pensamiento DDD al mapeo de datos en todo el panorama informático. En este libro, encontrarás el pensamiento de dominios ampliado a la tradición centenaria de estudios de dominios en la ciencia de la información. Esto te proporcionará una comprensión más profunda y funcional de los dominios que en la literatura normal sobre gestión de datos; encontrarás todo esto en el Capítulo 2.

Ahora que tienes una idea más clara de cómo funcionan los activos, las fuentes de datos y los dominios, veamos algunos ejemplos de cómo encajan todos. La Figura 1-2 muestra una tabla de una base de datos (también conocida como fuente de datos, en un catálogo de datos) y cómo es visible como activo en el catálogo de datos.

Figura 1-2. Tabla en una fuente de datos y cómo es visible como activo en el catálogo de datos

Como puedes ver a la derecha de la figura, no se incluye ningún valor en el activo del catálogo de datos. En este caso, los datos sensibles -nombres de clientes- no son visibles en el catálogo de datos como lo son en la fuente de datos. En el catálogo de datos, sólo se muestra el nombre de la columna. De este modo, todo el mundo puede ver todo lo que hay en el catálogo de datos. Son los valores reales de, por ejemplo, las tablas, los que han impedido tener una visión completa de los datos de tu empresa. Con el catálogo de datos, esos días se han acabado, y puedes impulsar la innovación basada en datos y mejorar la gobernanza de los datos.

Advertencia

Los nombres de conjuntos de datos, nombres de columnas y otros metadatos visibles en el catálogo de datos también pueden contener datos sensibles o confidenciales. Cuando introduzcas o introduzcas metadatos en tu catálogo de datos, debes disponer de métodos para asegurarte de que dichos metadatos no sean visibles para los usuarios del catálogo de datos.

Puedes añadir metadatos a tu activo -en este caso, una tabla- tanto a nivel de tabla como para cada columna. Cada metadato que añadas a tu activo lo inscribirá en un contexto relevante para el universo de conocimiento de tu organización. Esto hará que tu activo sea más fácil de buscar. Hablaremos más sobre cómo organizarlo en el Capítulo 2 y cómo buscarlo en el Capítulo 3.

Además, es importante comprender que los activos deben organizarse en estructuras verticales, horizontales y relacionales, como puede verse en la Figura 1-3 y más exhaustivamente en la Figura 2-12 del Capítulo 2.

La organización vertical te permite determinar exactamente qué tipo de datos representa tu activo. Esto se consigue mediante dominios y subdominios. En el activo Detalles de ventas de productos de la Figura 1-3, la organización vertical especifica de qué parte de la empresa proceden los datos; por ejemplo, finanzas.

La organización horizontal de los activos te permite visualizar cómo se mueve el activo en tu entorno informático. Esto se hace con linaje de datos. El linaje de datos muestra cómo viajan los datos de un sistema a otro y, en el mejor de los casos, cómo se transforman a medida que viajan. En los Detalles de ventas de productos de la Figura 1-3, el linaje mostraría, por ejemplo, que el conjunto de datos reside en una base de datos y que se utiliza en un informe de inteligencia empresarial (BI), indicado por una flecha a la derecha del activo, apuntando hacia el informe BI.

La organización relacional de los activos muestra cómo se relacionan las partes de cualquier activo con otros activos y, si se hace correctamente, puede representar estas relaciones en una base de datos gráfica. En los activos Detalles de ventas de productos de la Figura 1-3, la organización relacional de la columna Tamaño podría, por ejemplo, relacionarse con otros datos de métricas de volumen de otros activos, por ejemplo, de datos de fabricación, referidos a la capacidad de volumen de la máquina, etc.

En conjunto, un activo de tabla totalmente organizado en un catálogo de datos se representa en la Figura 1-3.

Figura 1-3. Un activo totalmente organizado en un catálogo de datos

Una vez organizados tus activos en ordenadas estructuras verticales, horizontales y relacionales (para ver ejemplos, consulta el Capítulo 2), puedes tener la tentación de pensar que tu trabajo ha terminado y que ya no necesitas trabajar en tu mágico catálogo de datos. Pero no es así. No debes considerar que un catálogo de datos es un repositorio que sólo hay que organizar una vez. Siempre debes estar abierto a reorganizar los activos y mejorar la calidad y cobertura de los metadatos. Esto no sólo garantizará que las cosas estén limpias y ordenadas, sino que optimizará tus activos para la búsqueda.

En consecuencia, echemos un primer vistazo a la búsqueda en un catálogo de datos.

Habilitar la búsqueda de datos de la empresa

Buscar en es una de las funcionalidades clave de un catálogo de datos. A menudo se trata como una simple función, pero puede ser mucho más que eso si la conviertes en el factor impulsor de tu estrategia de catálogo de datos. Piensa en tu catálogo de datos como en un motor de búsqueda, el mismo tipo de motor de búsqueda que utilizarías para navegar por la web. Un catálogo de datos y un motor de búsqueda web se parecen en que ambos rastrean e indexan sus paisajes y te permiten buscar en ese paisaje. La principal diferencia es que, mientras un motor de búsqueda web cubre la web como paisaje, un catálogo de datos cubre el paisaje informático de tu organización.

Entonces, ¿qué aspecto tiene cuando tratas tu catálogo de datos como un motor de búsqueda? Veamos uno en acción.

Nota

A lo largo de este libro, examinaremos el catálogo de datos de Hugin & Munin. Hugin & Munin es una empresa ficticia de arquitectura escandinava especializada en construcción sostenible que utiliza madera de bosques cercanos a sus obras.

El catálogo de datos de Hugin & Munin gira en torno a la organización de los datos y su búsqueda. La Figura 1-4 muestra la interfaz del catálogo Hugin & Munin. La barra de búsqueda te permite introducir términos para hacer una búsqueda normal en el catálogo de datos, pero puedes pulsar el botón Avanzado para hacer una búsqueda más detallada. La lupa te permite utilizar la función de buscador y un icono de una pila de libros te da acceso a los glosarios. Ten en cuenta que tiene un aspecto muy similar al de la mayoría de los buscadores web más populares.

Figura 1-4. La interfaz del catálogo de datos en Hugin y Munin

Veamos cómo podrías utilizar este catálogo de datos. Supongamos que eres empleado de Hugin & Munin y oyes por casualidad a un grupo de personas en la cantina durante el almuerzo.2 Hablan de un inteligente científico de datos llamado Kris, mencionando que es administrador de algunos activos de tablas SQL en el catálogo de datos de tu empresa (aprenderás sobre los administradores de activos más adelante en este capítulo; ahora mismo no es importante). Esas tablas SQL podrían ser útiles en los proyectos en los que estás trabajando actualmente. Antes de que puedas preguntar al grupo cómo ponerse en contacto con Kris, ya han recogido su comida y se han ido de la cantina. De vuelta a tu mesa, buscas en el catálogo de datos como se muestra en la Figura 1-5.

Figura 1-5. Primera búsqueda de Kris

Esa búsqueda arroja un enorme número de resultados. Lo más probable es que la Kris que buscas esté en alguna parte, pero hay demasiados resultados imprecisos como para revisarlos todos. En lugar de eso, reduce la búsqueda para buscar sólo administradores de activos, como se muestra en la Figura 1-6.

Figura 1-6. Segunda búsqueda de Kris

Eso es definitivamente mejor, pero sigue habiendo tantas personas diferentes llamadas Kris que necesitas otra forma de encontrar lo que buscas. ¿Quizás puedas buscar el término "ciencia de datos" en el glosario central? Inténtalo, como se muestra en la Figura 1-7.

Figura 1-7. Búsqueda del término "ciencia de datos" en el glosario

Y recibes toneladas de visitas. Pero, ¡espera! Puedes filtrar por tipos de activos, y recuerdas el grupo de personas que mencionan tablas SQL. Filtras sobre tablas SQL etiquetadas con el término "ciencia de datos". Y entonces, se te ocurre clasificar esos resultados alfabéticamente por el administrador del activo: ¡sí! Ya está, ¡ves los activos asociados a Kris en la pantalla! Están todos muy bien ordenados; a cada columna de las tablas SQL se le han dado descripciones y términos de glosario. Sin duda te gustaría echar un vistazo a estos datos, así que pulsas el botón "solicitar acceso" que envía un ping a Kris para tu solicitud. Lo has conseguido. Entonces, te das cuenta de que podrías haber utilizado una búsqueda avanzada en como en la Figura 1-8.

Figura 1-8. Búsqueda avanzada de la información exacta que necesitas

En el ejemplo has podido ver cómo funciona la búsqueda, pero ésta se describe en profundidad en el Capítulo 3. Cuanto mayor sea la capacidad de búsqueda de tus datos, más habilitarás la única gran ventaja de un catálogo de datos: el descubrimiento de datos.

Descubrimiento de datos

Un catálogo de datos permite a todos los empleados buscar todos los datos de su empresa. Buscar y encontrar datos se denomina descubrimiento de datos, y de eso trata un catálogo de datos.

Sin embargo, rara vez se piensa en el descubrimiento de datos como una búsqueda de datos, sino a menudo como una búsqueda en los datos, en las bases de datos, para encontrar nuevas perspectivas sobre los clientes, los productos, etc.

La búsqueda de datos puede consistir en conversaciones fortuitas con colegas, de memoria, o puede ser estructurada, lo que significa que la búsqueda de datos tiene lugar de manera formalizada en una solución diseñada con el propósito de buscar datos,3 por ejemplo, un catálogo de datos. La diferencia entre buscar datos y buscar en los datos puede parecerte poco importante, ¡pero lo es! Y la trataremos en detalle en el Capítulo 3.

En pocas palabras, el descubrimiento de datos comienza con el descubrimiento de que ciertos datos existen, no de lo que hay dentro de ellos. Una vez que pongas en marcha tu catálogo de datos, acelerarás exponencialmente el descubrimiento de datos en los datos, porque la búsqueda precedente de datos es notablemente más eficaz con un catálogo de datos que sin él.

El descubrimiento de datos, en un catálogo de datos, tiene un estado objetivo distinto: ambient findability. Este término fue acuñado por Peter Morville en la primera literatura que arrojó luz intelectual sobre los potentes motores de búsqueda en la web que surgieron en 1995-2005:

La encontrabilidad ambiental describe un mundo rápidamente emergente en el que podemos encontrar a cualquier persona o cosa desde cualquier lugar y en cualquier momento.4

Hoy en día, los catálogos de datos se están convirtiendo en el equivalente empresarial de los buscadores web. Y los catálogos de datos, también, deben esforzarse por la encontrabilidad ambiental. Así de fluido debe ser el descubrimiento de datos: en tu catálogo de datos, deberías poder encontrar a cualquier persona o cosa desde cualquier lugar y en cualquier momento, en tu empresa.

Nota

La encontrabilidad ambiental no tiene nada que ver con la forma de buscar en los datos. La búsqueda en los datos es tan meticulosa y sutil que se ha desarrollado todo un campo a partir de ella: la ciencia de los datos. En el Capítulo 3 hablo ampliamente de ello.

El descubrimiento de datos en un catálogo de datos tiene dos finalidades:

  • Análisis de datos

  • Gobernanza de datos

Laanalítica de datos apoyada en un catálogo de datos es bastante sencilla: los científicos de datos -analistas y perfiles similares- necesitan datos. Sin una visión global y unificada de todos los datos de tu empresa, estos empleados tan bien pagados sólo trabajan con los datos que conocen -en su silo de datos- y no con los datos más adecuados para lo que quieren hacer. Puedes cambiar eso con un catálogo de datos y crear una visión completa de todos los datos de tu empresa. Esto significa que la innovación impulsada por los datos puede acelerarse y aportar mucho más valor.

La gobernanza de datos apoyada en un catálogo de datos tiene muchas ventajas, que trataré en profundidad en el Capítulo 4. La más importante es la capacidad de clasificar todos los datos de tu entorno informático, tanto en términos de sensibilidad como de confidencialidad. Esto será de gran valor para tu responsable de protección de datos (DPO) de y tu director de seguridad de la información (CISO); en realidad, para toda tu empresa. Un catálogo de datos aplica reglas a su capacidad pull/push para que a todos sus activos se les asigne automáticamente una clasificación de sensibilidad y otra de confidencialidad. Puedes echar un vistazo al Capítulo 2 sobre esto para obtener más detalles. Por ahora, sólo recuerda que el poder de la clasificación automatizada de sensibilidad y confidencialidad directamente en tu entorno informático es una característica deslumbrante que no será difícil de vender.

Consejo

Los catálogos de datos también los utilizan personas que no tienen muchos conocimientos técnicos; a continuación hablo de ellos como usuarios finales cotidianos.

El Equipo de Descubrimiento de Datos

Un trabajo de gestión de datos en -incluida la gestión de un catálogo de datos- no es tarea de una sola persona. Más bien, es el trabajo de todo un equipo para implantar, mantener y promover el uso del catálogo de datos en toda tu organización. Aunque podrías llamarlo equipo de catálogo de datos, te animo a que lo llames equipo de descubrimiento de datos. Esto indica a todo el mundo no sólo qué tecnología utilizas, sino qué capacidad ofreces, que es el descubrimiento de datos.

Consejo

Los equipos de descubrimiento de datos pueden centrarse únicamente en los catálogos de datos o, más ampliamente, en todos los repositorios de metadatos. Deberías apostar por esto último: preferiblemente, el equipo de descubrimiento de datos posee y conserva todos los repositorios de metadatos, como la CMDB (base de datos de gestión de la configuración), el sistema de acuerdos de compartición de datos, etc., que describen todo dentro del entorno de TI. De este modo, puede promover el descubrimiento de datos a partir de la totalidad de las fuentes en las que éstos se exponen a nivel de metadatos.

¿Quién trabaja en un equipo de descubrimiento de datos? Puedes dividir a los miembros del equipo de descubrimiento de datos en dos perfiles básicos: arquitectos, para el frontend, e ingenieros, para el backend.

Arquitectos de datos

Un arquitecto de datos de asesora a todos los usuarios finales del catálogo de datos y trabaja en el frontend del catálogo de datos. Los arquitectos de datos asesoran en contextos específicos de organización de datos y búsqueda en ellos. Tienen la responsabilidad última del mapa del panorama informático en dominios lógicos, y supervisan la ampliación del mapa según esa estructura. Los arquitectos de datos son responsables del monitoreo del ciclo de vida de los activos. En ese contexto, se aseguran de que no queden activos sin funciones relevantes asignadas y de que los tiempos de retención de los activos se gestionen correctamente.

Una tarea que lleva mucho tiempo a los arquitectos de datos es educar a los usuarios finales para que sean independientes y trabajen con un apoyo mínimo del propio equipo de descubrimiento de datos. En consecuencia, los arquitectos de datos diseñan e imparten cursos en el catálogo de datos sobre cómo organizar los datos y buscar en ellos:

Organiza los datos

Este incluye temas que harán que los usuarios finales sean capaces de añadir y gestionar ellos mismos sus fuentes de datos en el catálogo, como por ejemplo

  • Introducir/extraer fuentes de datos en el catálogo de datos. Esto incluye identificar la fuente de datos, asignarle todos los roles y utilizar reglas para la clasificación automatizada de los datos. (Hablaremos de las funciones y responsabilidades más adelante en este capítulo).

  • Diseñar y aplicar procesos automatizados de adición de metadatos a los activos. Por ejemplo, descripciones y terminología de los glosarios, mediante el uso de API o mediante funciones integradas en el frontend del catálogo de datos.

  • Crear y gestionar términos de glosario.

Buscar datos

Esto incluye enseñar a los usuarios finales a buscar datos utilizando técnicas como:

  • Búsqueda simple, qué hace y cómo puedes utilizarla. Lo más probable es que la búsqueda simple no sea tan fluida e intuitiva como los motores de búsqueda de la web, pero hay formas de acercarse a ese estado.

  • Navegación en todas las dimensiones, es decir, vertical en dominios y subdominios, horizontal en linaje de datos y relacional en estructuras asociativas conectadas a tu activo.

  • El lenguaje de consulta de recuperación de información (IRQL) que hay detrás de la función de búsqueda avanzada y para qué permite y no sirve este lenguaje de consulta, en comparación con la búsqueda simple y la navegación.

Además, se pueden asignar dos tareas adicionales a los arquitectos de datos, en configuraciones en las que el equipo de descubrimiento de datos se oriente más hacia la gobernanza de los datos:

Prestar apoyo de segundo nivel en toda la empresa bajo las inspecciones de las autoridades

Si el catálogo de datos se utiliza en una industria muy regulada, puede ser una herramienta poderosa para responder a preguntas complejas de los inspectores. Las preguntas de una autoridad inspectora suelen estar sujetas a plazos cortos: necesitan respuestas rápidas. Cada departamento debe ser capaz de buscar sus propios datos en el catálogo de datos y responder a las preguntas durante las inspecciones. Pero si no encuentran lo que buscan, el administrador del catálogo de datos funciona como un soporte de segundo nivel, capaz de buscar absolutamente cualquier cosa en el catálogo de datos.

Ejecuta o diseña consultas para realizar todas las retenciones legales en toda la empresa

Las retenciones legales obligan a una empresa a no borrar datos, denominados información almacenada electrónicamente (ESI), por las Normas Federales de Procedimiento Civil de EEUU. Para ello, es necesario identificar los datos y bloquear su eliminación. En consecuencia, un catálogo de datos puede desempeñar un papel vital a la hora de abordar y aplicar correctamente las retenciones legales.

Por último, los arquitectos de datos mantienen la visión más conceptual del catálogo de datos, denominada metamodelo. Puedes ver un ejemplo de metamodelo en la Figura 1-9. El metamodelo es el modelo que proporciona una visión general de todas las entidades del catálogo de datos. El metamodelo también incluye todas las relaciones entre las entidades. Por ejemplo, los departamentos tienen personas, realizan procesos y se apoyan en la tecnología. Básicamente, el metamodelo define cómo puedes estructurar físicamente tu catálogo de datos, basándote en estructuras conceptuales de metadatos.

Figura 1-9. Ejemplo de metamodelo en un catálogo de datos

Considera el metamodelo de la Figura 1-9. En este ejemplo hipotético, una empresa tiene dos entidades, departamentos y dominios. Los departamentos y los dominios no son iguales, como veremos en el Capítulo 2. Un departamento tiene personas, realiza un proceso y se apoya en la tecnología. Además, un departamento posee una capacidad. La capacidad define un dominio, y el dominio agrupa los datos que contiene la tecnología.

A primera vista, un metamodelo puede provocar vértigo. Pero el metamodelo está ahí para proporcionar la mejor estructura posible a los datos que se representan en el catálogo de datos. Organiza los datos en sus dimensiones más relevantes para que sea lo más fácil posible buscarlos.

Los metamodelos difieren sustancialmente de un proveedor a otro, desde metamodelos muy sencillos a otros muy complejos. Los metamodelos sencillos no son menos deseables que los complejos; ambos tienen pros y contras. Los metamodelos sencillos hacen que tu catálogo de datos sea fácil de implementar, pero pueden mostrar debilidades en cuanto al refinamiento de la organización de tu catálogo de datos a largo plazo. Los metamodelos complejos proporcionan esto último, pero pueden ser excesivamente intrincados y difíciles de implementar.

Nota

Los catálogos de datos basados en grafos de conocimiento tienen metamodelos flexibles. El metamodelo de estos catálogos de datos puede visualizarse, ampliarse y buscarse sin límites. Es probable que esta tecnología gane más influencia en el mercado de los catálogos de datos, ya que atiende con gran potencia a la característica más importante de un catálogo de datos: la búsqueda.

Ingenieros de datos

Los ingenieros de datos trabajan en el backend del catálogo de datos y ayudan al arquitecto de datos en cuestiones más técnicas para organizar los datos, buscarlos y proporcionar acceso a ellos.

El ingeniero del catálogo de datos ayuda a los arquitectos de datos y a los usuarios finales a configurar la introducción/extracción real de fuentes de datos en el catálogo de datos. Esto puede incluir el uso de una API para curar activos con metadatos, linaje o similares. Supervisan la funcionalidad de las reglas que clasifican y perfilan los datos al introducirlos o extraerlos del catálogo de datos, y crean reglas adicionales para clasificar los datos. El ingeniero se limita a garantizar que las reglas funcionan, basándose en los comentarios y conversaciones con el arquitecto de datos, que recopila conocimientos de conversaciones con usuarios finales y empleados de las funciones CISO y DPO.

El ingeniero del catálogo de datos se asegura de que la actividad de búsqueda del catálogo de datos se registre y mida adecuadamente para que el asesor del catálogo de datos tenga la mejor oportunidad de mejorar las características de búsqueda del catálogo.

Una vez que los usuarios finales descubren los datos a los que quieren acceder, el ingeniero del catálogo de datos se implica en proporcionar orientación y ayuda práctica si es necesario. Las solicitudes de acceso más sencillas pueden incluir simplemente que el solicitante de acceso se cree como usuario final en/de la fuente de datos. Pero si la fuente de datos debe utilizarse en un contexto de software, en el que los datos de la fuente deben exponerse o procesarse, entonces aumenta la complejidad de proporcionar acceso a la fuente. Hay tres formas de hacer llegar los datos desde la fuente de datos a quien los solicita: los almacenes de datos de sólo lectura (RDS), las API y el streaming.

Por último, el ingeniero del catálogo de datos gestiona los entornos del catálogo de datos en prueba, desarrollo y producción (si existe más de un entorno), incluidos todos los aspectos de seguridad y la gestión de backend de los perfiles de usuario.

Configuración del Equipo de Descubrimiento de Datos

El equipo de descubrimiento de datos puede configurarse de tres formas distintas, centrándose en el apoyo:

  • Gobernanza de datos

  • Director de datos (CDO)

  • Análisis de datos

Los analizo en profundidad en el Capítulo 5. Pero, brevemente, las ventajas de cada forma pueden describirse como sigue:

La gobernanza de datos garantiza que los datos se gestionan de acuerdo con la normativa y las normas. También se centra en aspectos de calidad de los datos, propiedad, etc. La ventaja de situar al equipo de descubrimiento de datos en una parte de la empresa dedicada a la gobernanza de los datos es que mejora la conformidad de los datos y la eficacia de la columna vertebral operativa. Garantizarás la protección de los datos confidenciales y sensibles. Sin embargo, si se utiliza este enfoque, un catálogo de datos debe considerarse simplemente como un gasto para garantizar la gobernanza de los datos, y no como el componente clave que se pretende que sea para la innovación impulsada por los datos.

Tener en un CDO responsable del equipo de descubrimiento de datos es lo ideal, pero también una configuración poco habitual para un catálogo de datos. En este caso, el equipo de descubrimiento de datos es una función del personal del CDO. El CDO redacta y pone en marcha la estrategia ejecutiva de datos de una empresa y, por tanto, debe tener una visión completa de todos los datos a su alcance. En tal caso, la estrategia ejecutiva de datos se basa en hechos empíricos, y los resultados son mensurables.

Colocar el catálogo de datos en una unidad de negocio de análisis de datos de pone el catálogo de datos directamente en acción allí donde aporta más valor: la innovación. Sin embargo, el riesgo de esta configuración es la falta de control. Sin un gobierno firme de los datos, el catálogo de datos puede correr el riesgo de exponer datos confidenciales o procesar datos sensibles de un modo que sea una responsabilidad para tu empresa o de un modo que los interesados no hayan consentido. También puede crear dificultades para la calidad de los datos, que es un esfuerzo que requiere mucho tiempo y que un equipo enérgico que busca resultados podría verse tentado a descuidar.

Funciones y responsabilidades del usuario final

Final Los usuarios de un catálogo de datos se dividen en tres categorías:

  • Usuarios finales de análisis de datos

  • Gobernanza usuarios finales

  • Usuarios finales cotidianos (eficiencia)

Los usuarios finales de análisis de datos buscan en el catálogo de datos fuentes de datos para informar la innovación, y su descubrimiento de datos no termina en el catálogo de datos cuando buscan datos. El descubrimiento de datos para los datos conduce al descubrimiento de datos y a la exploración de datos en los datos, como veremos en el Capítulo 3. Los usuarios finales de análisis de datos deben considerarse los usuarios finales más importantes del catálogo, ya que serán los que proporcionen el retorno de la inversión (ROI) del catálogo de datos. Lo hacen innovando nuevas ofertas a los clientes, basadas en los datos que han buscado, encontrado, analizado y utilizado para las oportunidades de negocio y el crecimiento.

Los usuarios finales de la gobernanza buscan principalmente en el catálogo de datos datos confidenciales o sensibles -o ambos- para protegerlos. Lo hacen tanto cuando el catálogo se amplía con nuevas fuentes de datos (hablo de ello en el Capítulo 5) como de forma continua, al realizar evaluaciones de riesgos y durante las operaciones diarias. También utilizan el catálogo de datos para tener un enfoque más controlado de quién puede ver qué datos en la organización. El catálogo de datos les permitirá aumentar la gobernanza de los datos de la empresa, pero es más difícil documentar un ROI en comparación con los usuarios finales de la analítica de datos.

Los usuarios finales cotidianos se convertirán probablemente en el grupo más importante de usuarios finales en el futuro. Puedes ir al Capítulo 8 para comprobar cómo es ese futuro en detalle. En el momento en que el catálogo de datos evolucione realmente para convertirse en un motor de búsqueda de la empresa, los empleados van a utilizarlo para las necesidades cotidianas de información. Éstas se expresan con búsquedas sencillas y están orientadas a informes, documentos estratégicos, PNT y acceso básico a sistemas. Actualmente, los usuarios finales cotidianos de un catálogo de datos no son un grupo muy grande. Pero puedes planificar tu implantación de forma que los usuarios finales cotidianos aumenten en número, con el efecto de que el catálogo de datos adquiera más tracción en tu empresa. Hablaré de ello en el Capítulo 5.

Todos los usuarios finales tienen una o varias de las siguientes funciones y responsabilidades en el catálogo de datos:

Propietario de la fuente de datos

El propietario de la fuente de datos también se conoce simplemente como propietario del sistema o custodio de los datos en la gestión de datos tradicional.

Titular del dominio

Un propietario de dominio gestiona una colección específica de activos. El propietario del dominio define en última instancia qué activos pertenecen al dominio y quién debe tener las distintas funciones en el dominio.

Administrador de dominios

Un administrador del dominio se encarga de tareas más prácticas, como realizar entrevistas con los próximos propietarios de las fuentes de datos, gestionar la arquitectura del dominio y proporcionar acceso a los datos.

Propietario del activo

El propietario de los activos de es el propietario de los datos de la fuente de datos. Normalmente, la propiedad de los datos abarca varias fuentes de datos (al igual que la propiedad de los datos abarca varios sistemas), y también puede abarcar, en raras ocasiones, varios dominios. Es el propietario del activo el que concede el acceso a los datos previa solicitud.

Administrador de activos

Un administrador de activos de tiene experiencia en un subconjunto concreto de activos (una fuente de datos completa o partes de fuentes de datos) de un dominio.

Titular del plazo

Propietarios de términos suelen ser propietarios de una gran parte de los glosarios relacionados con uno o varios dominios del catálogo de datos.

Término administrador

Administradores de plazos se encargan de gestionar los ciclos de vida de los plazos. (Para más detalles, consulta el capítulo 7 ).

Usuario final cotidiano

Los usuarios finales de todos los días pueden buscar en el catálogo de datos y solicitar datos a los propietarios de activos.

Consejo

Colectivamente, los usuarios finales de un catálogo de datos constituyen una red social. Si pueden trabajar en grupos independientes del equipo de descubrimiento de datos, el catálogo de datos aportará el máximo valor. Consulta el Capítulo 5 para más detalles al respecto.

Resumen

Ya has tenido la primera impresión de un catálogo de datos. Esta herramienta única representa un poderoso paso para tu empresa hacia un uso mejor y más seguro de tus datos.

Aquí están los puntos clave del capítulo:

  • Los catálogos de datos se organizan en dominios que contienen activos. Los activos son representaciones de metadatos de datos en sistemas fuente. Los activos se han extraído (rastreado) o introducido en el catálogo de datos.

  • Organizado al máximo de su capacidad, tu catálogo de datos podrá atender a una búsqueda totalmente libre y flexible, desde la búsqueda simple, pasando por varias formas de navegación, hasta la búsqueda avanzada.

  • La ventaja estratégica de un catálogo de datos es el descubrimiento de datos. Por primera vez, las empresas pueden descubrir todos sus datos de forma estructurada y sin fin.

  • El descubrimiento de datos sirve a la innovación impulsada por los datos y a la gobernanza de los datos. La innovación es lo más importante y es la razón por la que surgieron los catálogos de datos en primer lugar. El gobierno de los datos, por otra parte, no es tan rentable, pero es importante por sí mismo: asegura los datos.

  • En consecuencia, los tipos de usuarios finales se dividen en categorías de análisis de datos, gobernanza y usuarios cotidianos. Los usuarios finales pueden tener funciones y responsabilidades diferentes e incluso múltiples en el catálogo de datos.

  • En lugar de tener un "equipo de catálogo de datos", promociona la capacidad que ofrece dicho equipo llamándolo "equipo de descubrimiento de datos". El equipo de descubrimiento de datos está formado por arquitectos que trabajan en el frontend del catálogo de datos e ingenieros en el backend.

  • Hay tres configuraciones posibles para los equipos de descubrimiento de datos:

    • El equipo puede centrarse en la gobernanza de los datos, con el riesgo de perder el potencial innovador del catálogo de datos.

    • El equipo puede centrarse en la innovación, con el riesgo de comprometer la gobernanza de los datos.

    • La mejor configuración posible es como función del personal de un CDO, que debe tomar todas las decisiones estratégicas basándose en los datos que hay realmente en la empresa, ya sea con fines innovadores o de gobierno.

En el próximo capítulo hablaremos de cómo organizar los datos en el catálogo de datos.

1 Si tu departamento de informática está muy bien organizado, unos pocos empleados pueden tener una visión general de muy alto nivel de todo tipo de datos mediante herramientas como una base de datos de gestión de la configuración (CMDB) y un Directorio Activo (AD). Recuerda que la Figura 1-1 ilustra los estados de la gran mayoría de los empleados de la empresa, no de los pocos elegidos de un departamento de informática.

2 En algunos países europeos, es habitual que las empresas mantengan una pequeña cafetería o merendero en sus instalaciones, donde los empleados pueden comprar comida y comer juntos.

3 G. G. Chowdhury, Introducción a la recuperación de información moderna (Nueva York: Neal-Schuman Publishers, 2010), caps. 1 y 2.

4 Peter Morville, Ambient Findability: What We Find Changes Who We Become (Sebastopol, CA: O'Reilly, 2005), 6.

Get El Catálogo de Datos de la Empresa now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.