Capítulo 1. Introducción a la IA Generativa y al Servicio Azure OpenAI

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Este primer capítulo cubre los fundamentos de la inteligencia artificial (IA) como forma de contextualizar los nuevos desarrollos con IA generativa. Incluye algunos temas agnósticos de la tecnología que serán útiles para cualquier tipo de implementación, pero se centra en Azure OpenAI Service como el bloque de construcción clave para permitir el desarrollo de aplicaciones nativas en la nube con IA generativa.

¿Qué es la Inteligencia Artificial?

Esta sección se centra en la evolución histórica de las tecnologías de IA y los casos de uso relacionados, como forma de desmitificar cómo es realmente la IA, y de conectar los enfoques tradicionales con las nuevas técnicas y capacidades de la IA generativa.

Empecemos por sus orígenes. El término "IA" se acuñó en la década de 1950. Concretamente, el profesor John McCarthy definió la inteligencia artificial en 1955 como "la ciencia y la ingeniería de fabricar máquinas inteligentes". También es justo decir que el profesor Alan Turing introdujo previamente la noción de máquinas pensantes. En 1956, el Dartmouth College acogió la conferencia del Proyecto de Investigación de Verano sobre IA, con un grupo de participantes de las universidades y empresas más relevantes. Aquella conferencia fue dirigida por el Prof. McCarthy y otros investigadores de renombre, y fue el inicio del área de investigación de la IA. En el tiempo transcurrido desde entonces, ha habido múltiples ciclos de exageraciones, decepciones debidas a expectativas poco realistas (periodos denominados a menudo inviernos de IA debido a la reducción de la financiación y del interés general por los temas de IA), expectativas renovadas y, finalmente, una amplia comercialización de soluciones basadas en la IA, como altavoces asistentes personales, aspiradoras autónomas inteligentes, etc.

Dicho esto, la IA ha evolucionado mucho durante las dos últimas décadas, pero la realidad es que inicialmente fue adoptada principalmente y sólo por algunas de las mayores empresas, como Microsoft (¡no, no necesariamente por su famoso Clippy!), Google, Amazon, Uber y otros unicornios tecnológicos. Esa primera oleada de adopción creó una gran línea de base para que pudieran ofrecer estas mismas capacidades como servicios gestionados en la nube a otros adoptantes de la IA, lo que les dio una clara ventaja competitiva. Esto inició la etapa de democratización de los datos y la IA que estamos viviendo actualmente, en la que empresas más pequeñas están desarrollando o aprovechando servicios habilitados para la IA, y esas soluciones ya forman parte de nuestro día a día.

Antes de entrar en detalles, demos un paso atrás y analicemos el contexto de lo que es hoy la inteligencia artificial, y lo que significa para las empresas y las personas.

Nivel actual de adopción de la IA

El término "adopción de la IA" describe el modo en que las organizaciones de todo el mundo están implantando sistemas de IA o aprovechando las herramientas de IA de otras empresas. El nivel de adopción de cada empresa depende realmente de varios factores, como la madurez tecnológica, el tipo de organización (empresas grandes o pequeñas, administración pública, startups, etc.), la geografía, etc. McKinsey indica que el nivel de adopción de la IA en 2022 (a partir de su informe sobre el estado de la IA) era del 50% entre todos sus encuestados, con un aumento interesante a nivel internacional, y un aumento aún más significativo para los países en desarrollo. Además, también estiman que la IA generativa podría añadir a la economía mundial el equivalente de 2,6 a 4,4 billones de dólares anuales.

Además, Boston Consulting Group definió el nivel de éxito y madurez de la IA como una combinación de la adopción interna más el conocimiento de la IA dentro de la organización, y sólo el 20% de las organizaciones son realmente pioneras en términos de adopción de la IA. Por último, pero no por ello menos importante, Gartner predice que para 2025, el 70% de las empresas identificarán el uso sostenible y ético de la IA entre sus principales preocupaciones, y el 35% de las grandes organizaciones tendrán un Director de IA que dependerá del Director General o del Director de Operaciones.

Estas cifras muestran que, aunque el nivel de adopción global está aumentando, sigue habiendo diferencias en la forma en que las empresas utilizan la IA y en el éxito que tienen. Las siguientes secciones mostrarán múltiples ejemplos de sistemas basados en la IA, tanto a nivel tecnológico como de casos de uso.

Las múltiples tecnologías de la IA

Hay distintas formas de definir la inteligencia artificial, pero la realidad es que no hay una única tecnología bajo el paraguas de la IA. Exploremos las principales tecnologías de IA:

Aprendizaje automático (AM)

Un tipo de IA que se basa en modelos estadísticos avanzados que aprenden de datos pasados para predecir situaciones futuras. Tomemos un caso de uso sencillo de clasificación de frutas basado en sus imágenes existentes. Para describir una manzana al sistema, diríamos que tiene una forma algo redonda y que su color es un tono variado de rojo, verde o amarillo. En cuanto a las naranjas, la explicación es similar excepto por el color. El algoritmo toma entonces estos atributos (basados en ejemplos anteriores) como pautas para comprender cómo es cada una de las frutas. Al exponerse a más y más muestras, desarrolla una mayor capacidad para diferenciar las naranjas de las manzanas y mejora en su correcta identificación. Existen multitud de modelos de ML en función del tipo de algoritmo y del tipo de tarea, pero algunos ejemplos relevantes son los bosques de decisión, la agrupación de k-means, las regresiones y las máquinas de vectores de soporte (nota: si quieres explorar esta familia de modelos de IA, echa un vistazo a la Hoja de trucos sobre algoritmos de ML de Microsoft, que explica el tipo de tareas de los distintos modelos y sus requisitos de datos).

Aprendizaje profundo (AD)

Aprendizaje profundo puede definirse como un subconjunto del aprendizaje automático, con modelos que se basan en principios de álgebra y cálculo. El carácter diferenciador del aprendizaje profundo es que el algoritmo utiliza una red neuronal para extraer características de los datos de entrada y clasificarlos basándose en patrones para proporcionar una salida sin necesidad de introducir definiciones manualmente. El aspecto clave aquí son las redes neuronales. La idea de las redes neuronales proviene del hecho de que imitan el modo en que funciona el cerebro, como un sistema multicapa que realiza cálculos matemáticos. Con múltiples niveles de algoritmos diseñados para detectar patrones, las redes neuronales interpretan los datos revisando y etiquetando su salida. Si consideramos nuestro ejemplo de la fruta, en lugar de tener que proporcionar los atributos del aspecto de cada fruta, tenemos que introducir muchas imágenes de las frutas en el modelo de aprendizaje profundo. Las imágenes se procesarán y el modelo creará definiciones como las formas, los tamaños y los colores.

Procesamiento del lenguaje natural (PLN)

La PNL combina la lingüística computacional (modelado del lenguaje humano basado en reglas) con modelos estadísticos, de aprendizaje automático y de aprendizaje profundo. Al principio, este tipo de modelos sólo estaban disponibles en inglés (por ejemplo, BERT de Google AI), pero la tendencia actual es crear versiones locales o modelos multilingües para admitir otros como el español, el chino, el francés, etc. Dicho esto, la PNL ha experimentado una enorme evolución en los últimos 20 años. Los algoritmos de PNL solían ser específicos de una tarea, pero las arquitecturas modernas les han permitido generalizarse mejor a diferentes tareas e incluso adquirir capacidades emergentes para las que no fueron entrenados. Desde la perspectiva de Microsoft Azure, tanto el Servicio Azure OpenAI como los recursos Azure AI Language se basan en modelos de PNL.

Automatización robótica de procesos (RPA)

Se trata de un conjunto de tecnologías que reproducen las interacciones manuales de los agentes humanos con interfaces visuales. Por ejemplo, imagina que trabajas en RRHH y tienes que hacer la misma tarea cada semana, que podría ser comprobar cierta información relacionada con los empleados a través de una plataforma interna, luego rellenar algunos datos y, por último, enviar un correo electrónico personalizado. Las herramientas de RPA son fáciles de implantar, reducen la pérdida de tiempo y aumentan la eficiencia interna, para que los empleados puedan centrarse en tareas de valor añadido y evitar el trabajo monótono.

Investigación operativa (IO)

La investigación operativa es un área muy importante, a menudo incluida en la familia de las tecnologías de IA, y muy relacionada con el ML y los enfoques reforzados antes mencionados. La Universidad de Montreal define la investigación operativa como "un campo en la encrucijada de la informática, las matemáticas aplicadas, la gestión y la ingeniería industrial. Su objetivo es proporcionar sistemas automatizados de toma de decisiones basados en la lógica, generalmente para tareas de control u optimización, como la mejora de la eficacia o la reducción de costes en la industria."

La OR suele basarse en un conjunto de variables y restricciones que guían algún tipo de simulación que puede utilizarse para distintos tipos de actividades de planificación: gestión de la asistencia sanitaria limitada en los hospitales, optimización de los horarios de los servicios, planificación del uso de la energía, planificación de los sistemas de transporte público, etc.

Éstas son las principales categorías de tecnologías de IA, pero la lista puede cambiar dependiendo de la interpretación de lo que signifique IA. Independientemente de los detalles, es importante tener en cuenta estas tecnologías como un conjunto de capacidades para predecir, interpretar, optimizar, etc. basándose en entradas de datos específicas. Veamos ahora cómo se aplican estas diferentes tecnologías de IA a todo tipo de casos de uso, que probablemente aprovechen una tecnología o las combinen dependiendo del enfoque de implementación.

Casos típicos de uso de la IA

Independientemente del nivel de complejidad técnica, hay muchos tipos diferentes de implementaciones de IA, y su utilidad suele depender de los casos de uso específicos que las organizaciones decidan implementar. Por ejemplo, una organización podría decir "nos gustaría recibir notificaciones automáticas cuando haya un patrón específico en nuestras cifras de facturación" y desarrollar algún modelo básico de detección de anomalías, o incluso uno básico basado en reglas, y esto podría considerarse una IA. Otras necesitarán desarrollos más avanzados (incluida la IA generativa), pero tendrán que tener una justificación empresarial detrás.

Antes de explorar las consideraciones técnicas y empresariales para una empresa adoptante, he aquí algunos ejemplos de aplicaciones basadas en la IA:

Chatbots

Probablemente estés muy familiarizado con los chatbots-esos amiguitos que se incrustan en los sitios web-, así como con los bots telefónicos automatizados que permiten a las empresas automatizar su comunicación y atención al cliente. Se basan en capacidades de PNL/lingüística que les permiten (con distintos niveles de éxito) entender la intención de lo que quiere o necesita un cliente, para poder darle una respuesta inicial o pistas para encontrar la respuesta final. También reducen la carga que supone para el personal de soporte responder a las solicitudes iniciales, ya que los chatbots pueden analizar, filtrar y enviar casos en función del tema. La principal ventaja es la automatización y escalabilidad de las actividades empresariales (es decir, hacer más con menos), pero existen retos relacionados con la eficacia de los chatbots para tareas e información complejas. Dicho esto, los chatbots están evolucionando exponencialmente con la llegada de la IA generativa, pasando de motores tradicionales basados en reglas a asistentes dinámicos que pueden adaptarse al contexto de la conversación.

Sistemas de visión por ordenador

Detección de imágenes y aplicaciones de clasificación que se basan en tecnologías DL para analizar imágenes y vídeos. Por ejemplo, los dispositivos personales como los ordenadores portátiles y los teléfonos inteligentes dependen de este tipo de tecnología para desbloquearlos con una imagen de tu cara. La visión por ordenador también es compatible con el análisis avanzado de vídeo para diversas aplicaciones.

Detección del fraude

Ampliamente utilizada por las instituciones financieras, la IA puede ayudar a detectar patrones inusuales que pueden indicar algún tipo de uso indebido de los activos financieros, como las tarjetas de crédito. Podría tratarse de una traducción de la tarjeta desde un país remoto, compras inusuales, intentos repetitivos de sacar dinero de un cajero automático, etc. Estos sistemas con IA se basan en distintos tipos de tecnologías (PNL, análisis del comportamiento, etc.) y hacen que la vigilancia sea más escalable, permitiendo que los humanos se centren sólo en los casos críticos.

Asistentes personales con voz

Integrados a través de smartphones, altavoces, coches (echa un vistazo al increíble caso de Mercedes con Azure OpenAI), televisores y otros tipos de dispositivos, estos asistentes personales permiten interactuar con los usuarios humanos simulando capacidades de conversación. Su uso está muy extendido para reducir la barrera de la accesibilidad (es decir, utiliza la voz y no requiere capacidades visuales, de escritura y lectura) y permite a los usuarios liberar las manos al activar funciones como aplicaciones, reproductores de música, videojuegos, etc. También hay problemas de privacidad relacionados con estos sistemas, ya que pueden actuar de forma puramente reactiva, o "escuchar" continuamente las conversaciones humanas.

Personalización del marketing

El verdadero creador de lluvia para grandes empresas como Google y Meta. La capacidad de comprender primero las características relacionadas con un usuario (su edad, ubicación, preferencias, etc.) y conectar eso con los objetivos comerciales de las empresas que anuncian sus productos y servicios es la característica clave del negocio moderno en línea. Los departamentos de marketing también utilizan la IA para segmentar su base de clientes y adaptar sus técnicas de marketing a estos diferentes segmentos.

Recomendaciones del producto

Empresas como Netflix y Amazon tienen recomendaciones de productos basadas en su comprensión de las necesidades de los usuarios. Si alguien busca material deportivo, Amazon puede recomendarle productos relacionados. Lo mismo ocurre con los programas de TV y las películas en Netflix y otras plataformas de streaming: pueden hacer recomendaciones basadas en lo que has visto anteriormente. Todo se basa en los datos de los clientes y se apoya en modelos de IA relativamente complejos que exploraremos más adelante.

Robots

Algunos ejemplos son la aspiradora Roomba, las increíbles creaciones de Boston Dynamics que incluso pueden bailar y realizar tareas complejas, la humanoide Sophia, etc.

Vehículos autónomos

Este tipo de sistema está equipado con diferentes conjuntos de tecnologías avanzadas, pero algunas de ellas aprovechan técnicas de IA que permiten a los coches comprender el contexto físico y adaptarse a situaciones dinámicas. Por ejemplo, estos vehículos pueden conducir de forma autónoma sin necesidad de un conductor humano, y pueden tomar decisiones basándose en diferentes señales visuales de la carretera y de otros coches. El Piloto Automático de Tesla es un gran ejemplo de ello.

Sistemas de seguridad

Esto incluye tanto la seguridad cibernética como la física. Al igual que en la detección del fraude, la IA ayuda a los sistemas de seguridad a detectar patrones específicos a partir de datos y métricas, para evitar el acceso no deseado a recursos valiosos. Por ejemplo, Microsoft Copilot for Security detecta patrones ocultos, endurece las defensas y responde a los incidentes más rápidamente con IA generativa. Otro ejemplo serían las cámaras con IA que pueden detectar situaciones u objetos específicos a partir de las imágenes de vídeo.

Búsqueda en línea

Sistemas como Microsoft Bing, Google Search, Yahoo, etc. aprovechan cantidades ingentes de datos y modelos de IA personalizados para encontrar las mejores respuestas a consultas concretas de los usuarios. No se trata de un concepto nuevo, pero hemos visto cómo este tipo de sistemas ha evolucionado mucho en los últimos años con las nuevas aplicaciones Microsoft Copilot y Google Gemini. Además, veremos algunos ejemplos de IA generativa y aplicaciones de búsqueda web en el Capítulo 3.

Mantenimiento predictivo

Un caso muy relevante para las aplicaciones industriales de, que aprovecha distintos tipos de datos para anticipar situaciones en las que la maquinaria y los equipos industriales pueden necesitar mantenimiento antes de tener problemas concretos. Es un ejemplo perfecto de comprensión de datos pasados para generar predicciones, y ayuda a las empresas a evitar posibles problemas y a enfocar las actividades de mantenimiento de forma proactiva.

Obviamente, estas aplicaciones pueden ser transversales o específicas de distintos sectores (por ejemplo, agricultura, sanidad), pero se basan en las mismas piezas tecnológicas. Ahora que las entiendes y sus aplicaciones típicas, centrémonos en cómo pueden aprender los modelos de IA, ya que esto será relevante para el tema general de IA generativa de este libro.

Tipos de enfoques de aprendizaje de la IA

Como humanos, empezamos a aprender cuando somos bebés, pero la forma en que lo hagamos dependerá del proceso que sigamos. Podemos aprender por nosotros mismos, basándonos en nuestras propias experiencias positivas o negativas. También podemos aprender de los consejos de humanos adultos, que previamente aprendieron de su propia experiencia; esto puede ayudarnos a acelerar nuestro propio proceso de aprendizaje. Los modelos de IA son muy similares, y la forma de aprovechar las experiencias previas (en este caso datos y modelos) depende del tipo de enfoque de aprendizaje del modelo de IA, como puedes ver en la Figura 1-1.

Figura 1-1. Categorías de aprendizaje del modelo de IA

Recorramos cada uno de los enfoques de la figura:

Aprendizaje no supervisado

Se basa en técnicas no supervisadas de que no requieren la anotación de datos humanos ni apoyo para que los modelos de IA aprendan. Este tipo suele basarse en operaciones matemáticas que calculan automáticamente valores entre entradas de datos. No requiere ningún tipo de anotación, pero sólo es adecuado para determinados tipos de modelos de IA , incluidos los utilizados para la segmentación de clientes en marketing. El rey de las técnicas no supervisadas es lo que llamamos "agrupación", que agrupa automáticamente los datos basándose en patrones específicos y parámetros del modelo.

Aprendizaje supervisado

El aprendizaje supervisado es un tipo de aprendizaje muy importante para las implementaciones de IA. En este caso, los modelos de IA no sólo utilizan los datos de entrada, sino también los conocimientos de expertos humanos (expertos en la materia, o PYMES) que pueden ayudar a la IA a comprender situaciones específicas etiquetando los datos de entrada (por ejemplo, ¿Qué es la foto de un perro? ¿Qué es un patrón negativo?). Normalmente requiere algún tipo de anotación de datos, lo que significa añadir información adicional (por ejemplo, una columna adicional para un conjunto de datos basado en tablas, una etiqueta para un conjunto de imágenes). En general, se trata de un proceso manual y hacerlo bien repercutirá en la calidad de la implementación de la IA, ya que es tan importante como la calidad del propio conjunto de datos.

Aprendizaje reforzado

Por último, pero no por ello menos importante, tenemos los métodos de aprendizaje reforzado (RL). Sin entrar demasiado en detalles técnicos, el principio fundamental es la capacidad de simular escenarios y proporcionar al sistema recompensas positivas o negativas en función del resultado obtenido. Este tipo de patrón de aprendizaje es especialmente importante para la IA generativa, debido a la aplicación del aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) a Azure OpenAI y otros modelos. Concretamente, el RLHF se reentrena basándose en las recompensas de la retroalimentación humana (es decir, revisores con conocimientos temáticos específicos). Exploraremos los detalles en el Capítulo 3, porque RLHF es muy relevante para la creación de modelos Azure OpenAI.

Existen diferentes formas de aprendizaje de los modelos, según la arquitectura interna, el tipo de fuentes de datos y los resultados esperados. A efectos de este libro, es importante diferenciar y comprender las diferencias de alto nivel, ya que nos referiremos a algunas de ellas en el contexto de la IA generativa.

La IA generativa ha llegado para quedarse, y el Servicio Azure OpenAI ya es un factor clave para su adopción y democratización. Exploremos ahora los fundamentos de la IA generativa, para comprender cómo funciona y qué puede hacer por ti y por tu organización.

Acerca de la IA Generativa

El término "IA generativa" se refiere al campo de la inteligencia artificial que se centra en crear modelos y sistemas que tengan la capacidad de generar nuevos contenidos, como imágenes, texto, música, vídeos, diagramas, etc.

Como ya sabrás, este término ha cobrado mucha relevancia en los últimos años, pero no es nuevo. Podemos hablar de modelos probabilísticos en la década de 1990, como los modelos de variables latentes y los modelos gráficos, que pretendían capturar y generar la distribución de los datos. Además, los recientes avances en el aprendizaje profundo, concretamente en forma de redes adversariales generativas (GAN) y autocodificadores variacionales (VAE), han contribuido significativamente a la popularización y el avance de la IA generativa.

El término "IA generativa" ha cobrado impulso a medida que investigadores, empresas y profesionales empiezan a explorar el potencial de estas técnicas para generar resultados realistas y creativos. El resultado es ahora evidente, ya que la IA abarca una amplia gama de aplicaciones y técnicas, como la síntesis de imágenes, la generación de textos, la generación de música, etc. Obviamente, se trata de un campo en evolución y tanto el mundo académico como la industria siguen innovando.

Como puedes ver en la Figura 1-2, la capacidad de generación puede considerarse una extensión de otros tipos existentes de técnicas de IA, que están más orientadas a describir, predecir o prescribir patrones de datos, o a optimizar escenarios concretos. Las técnicas avanzadas de IA, incluidas la OR y la IA generativa, permiten a quienes las adoptan pasar de "sólo percepciones" a la toma de decisiones y acciones automatizadas.

Figura 1-2. Tipos de capacidades de IA

Desde un punto de vista técnico, estos modelos funcionan de una forma muy particular. En lugar de "sólo" predecir un determinado patrón para una entrada de datos (por ejemplo, predecir la prima de seguro ideal para un cliente concreto), generan varios resultados a una instrucción concreta. La interacción con el modelo de IA generativa se produce en forma de pregunta-respuesta, y esto incluye tanto instrucciones directas de los humanos (basadas en instrucciones de lenguaje natural) como acciones automatizadas.

El término "ingeniería de prompts" ha surgido más recientemente en el contexto de la PNL y el desarrollo de modelos lingüísticos. Aunque no hay un origen concreto ni un momento definitivo en que se acuñara el término, ha ganado popularidad como forma de describir el proceso de diseñar y perfeccionar instrucciones para obtener las respuestas deseadas de los modelos lingüísticos.

La ingeniería de prompts consiste en elaborar cuidadosamente las instrucciones o entradas proporcionadas a un modelo lingüístico para conseguir el resultado deseado. Incluye seleccionar la redacción, la estructura y el contexto adecuados para guiar al modelo hacia la generación de la respuesta deseada o la realización de una tarea específica. Se están desarrollando enfoques sistemáticos para diseñar instrucciones eficaces, ajustar los modelos a tareas específicas y mitigar los sesgos o comportamientos no deseados en la generación del lenguaje.

De la dinámica pregunta-respuesta mencionada anteriormente, como puedes ver en la Figura 1-3, el prompt es la pregunta, y la respuesta se llama compleción. El término "finalización" en el contexto de la PNL y los modelos lingüísticos se refiere a la generación o predicción de texto que completa una pregunta o entrada determinada, y su uso se generalizó a medida que se desarrollaban modelos más grandes y potentes, como el GPT de OpenAI. En resumen, el término "finalización" en los modelos lingüísticos surgió del campo en evolución de los modelos lingüísticos, reflejando la capacidad de los modelos para generar o predecir texto que rellene o complete un contexto o indicación dados.

Figura 1-3. Preguntas y respuestas

La IA generativa es un nuevo tipo de inteligencia artificial, y su principal ventaja para una amplia adopción es la capacidad de permitir la comunicación entre los usuarios y los modelos de IA generativa mediante indicaciones y cumplimentación en lenguaje natural. Eso cambia las reglas del juego, pero veamos ahora el principal tipo de capacidades que podemos obtener de estos modelos.

Capacidades principales de la IA Generativa

Es cierto que el lenguaje y la información basada en texto son un aspecto clave de la IA generativa. Sin embargo, las indicaciones basadas en el lenguaje pueden servir para otros fines. Las empresas y los investigadores están trabajando en varias corrientes:

Lengua

Además de la funcionalidad básica de tipo ChatGPT de, con preguntas y respuestas entre el modelo de IA y el usuario humano, hay otras tareas relacionadas que se basan en la lingüística pero van un paso más allá. ¿Qué pasaría si pudieras utilizar el lenguaje como catalizador de la creación de:

Código

Técnicamente, un lenguaje de programación es sólo eso... un lenguaje. Los LLM son buenos manejando el inglés o el español, pero también son buenos entendiendo y generando código, y manejando Java, Python o C++ como cualquier otro lenguaje hablado. Puede que esto no sea intuitivo, pero tiene sentido tratar los lenguajes de codificación como cualquier otro lenguaje. Y eso es lo que hace la IA generativa.

Melodías

Basándose en notas musicales, los LLM pueden generar melodías como generan frases normales. El potencial de la IA generativa en este ámbito está aún por explorar, pero muestra resultados prometedores para la creación musical.

Letras

Otro ejemplo de lingüística, las letras de las canciones pueden construirse basándose en criterios específicos explicados mediante un prompt, en el que los usuarios pueden especificar el tipo de palabras, la inspiración, el estilo, etc.

Imagen

El principio que subyace a la creación de imágenes es sorprendentemente intuitivo: escribir la descripción (con un lenguaje natural sencillo) de una imagen potencial, para incluirla como parte de la "sugerencia", y luego esperar a que el motor generativo de IA devuelva uno o varios resultados que coincidan con esa sugerencia, basándose en su propia interpretación de imágenes consumidas previamente. Este tipo de capacidad es muy interesante para las actividades creativas y de marketing, en las que los profesionales humanos pueden aprovechar las herramientas de generación de imágenes como fuente de inspiración. Un buen ejemplo de esto es Microsoft Designer, o las capacidades de creación de imágenes de Microsoft Copilot.

Audio

Imagina una tecnología que te permita grabar en tu propia voz durante unos minutos, y luego reproducirla y replicarla para el fin que quieras. Una especie de licencia de voz escalable que aproveche los datos de audio para detectar patrones y luego imitarlos. Hay sistemas que incluso pueden generar música y otros sonidos (por ejemplo, con laintegración de Microsoft Copilot con la creación de música mediante IA de Suno).

Vídeo

Al igual que con la generación de imágenes, la entrada puede ser una indicación que describa escenas concretas con distintos niveles de detalle, para las que el modelo proporcionará una escena de vídeo de acuerdo con esos detalles. Un buen ejemplo sería OpenAI Sora.

Otros

Las capacidades generativas no se limitan sólo a estos formatos y tipos de datos. En realidad, hay aplicaciones de IA generativa para crear datos sintéticos, generar compuestos químicos, etc.

Éstas son sólo algunas de las capacidades que ofrece la IA generativa. Son bastante impresionantes, pero sin duda no son el último paso de la nueva era de la IA, ya que hay actores muy relevantes que se están asegurando de que así sea. Veamos quiénes son los principales contendientes a continuación.

Actores relevantes de la industria

Aunque este libro se centra en el Servicio Azure OpenAI, que está relacionado tanto con Microsoft como con OpenAI, es importante comprender el panorama competitivo de la IA generativa. Como ya sabes, este campo está experimentando avances y competencia significativos. Los investigadores y las organizaciones trabajan activamente para desarrollar modelos y algoritmos innovadores que amplíen los límites de las capacidades de la IA generativa. He aquí algunos ejemplos de actores relevantes que aceleran la competencia:

OpenAI

Probablemente el actor más importante de la ola de IA generativa. La empresa ha creado tanto herramientas propias, como ChatGPT, como otros proyectos de código abierto, como Whisper). Los orígenes de OpenAI se remontan a diciembre de 2015, cuando fue fundada como organización sin ánimo de lucro por Elon Musk , Sam Altman, Greg Brockman, Ilya Sutskever, John Schulman y Wojciech Zaremba. Su misión es garantizar que la inteligencia general artificial (AGI) beneficie a toda la humanidad.

OpenAI se centró inicialmente en realizar investigaciones y publicar artículos en el campo de la inteligencia artificial para fomentar el intercambio de conocimientos y la colaboración. En 2019, OpenAI creó una filial con ánimo de lucro llamada OpenAI LP para conseguir financiación adicional para sus ambiciosos proyectos. El objetivo de la empresa es desarrollar y desplegar una AGI que sea segura, beneficiosa y alineada con los valores humanos. Pretenden construir tecnología de IA de perímetro, garantizando al mismo tiempo que se utiliza de forma responsable y ética. Han democratizado el acceso a distintos tipos de modelos de IA:

  • Modelos GPT conversacionales, con su conocida aplicación ChatGPT, que se basa en modelos de lenguaje AI. Se basa en la arquitectura GPT (transformador preentrenado generativo), que es la base de los modelos de lenguaje más avanzados, conocidos por su capacidad para generar texto similar al humano y participar en interacciones conversacionales. ChatGPT está diseñado para comprender y generar respuestas en lenguaje natural, lo que lo hace muy adecuado para aplicaciones basadas en el chat. Se ha entrenado con una gran cantidad de datos de texto diversos de Internet, lo que le permite adquirir conocimientos y generar respuestas coherentes y contextualmente relevantes.

  • Modelos de IA generativa para texto (GPT-4o, GPT-4 y otros), código (Codex), imágenes (DALL-E 3) y vídeos (Sora). Algunos de estos modelos están disponibles, como veremos en el Capítulo 3, a través de Azure OpenAI Service.

  • Modelos de voz a texto de última generación, como Whisper, disponibles como repositorio de código abierto, pero también como API de pago de OpenAI. Además, los modelos Whisper están disponibles a través de Microsoft Azure.

Microsoft

Junto con OpenAI, el otro actor clave y uno de los primeros en adoptar las tecnologías de IA generativa, gracias a la inversión multimillonaria en OpenAI y a la asociación entre ambas empresas. Además del Servicio Azure OpenAI (el tema principal de este libro, que exploraremos en profundidad en próximos capítulos), Microsoft ha adoptado los LLM como parte de su pila tecnológica para crear una serie de copilotos de IA para todas sus soluciones de productividad y en la nube, incluido Microsoft Copilot. Además, han publicado en los pequeños modelos de lenguaje (SML) Phi-2 y Phi-3, estableciendo un nuevo estándar para el sector desde el punto de vista del tamaño y el rendimiento. Exploraremos más detalles en próximos capítulos, pero la estrategia de la empresa ha pasado a ser la IA primero, con mucha atención a la IA generativa y a la entrega continua de nuevos productos, plataformas, funciones e integraciones.

Cara de abrazo

Hugging Face es una empresa tecnológica especializada en PNL y aprendizaje automático. Es conocida por desarrollar la biblioteca Transformers, que proporciona un marco potente y flexible para entrenar, afinar e implementar diversos modelos de PNL. El objetivo de Hugging Face es democratizar y simplificar el acceso a modelos y técnicas de PNL de última generación. Fue fundada en 2016 por Clément Delangue y Julien Chaumond. Inicialmente, la empresa comenzó como un proyecto de código abierto con el objetivo de crear una plataforma impulsada por la comunidad para compartir modelos y recursos de PNL. Su Hugging Face Hub es una plataforma para compartir y acceder a modelos preentrenados, conjuntos de datos y pipelines de entrenamiento. El centro permite a los usuarios descargar e integrar fácilmente diversos recursos de PNL en sus propias aplicaciones, lo que lo convierte en un valioso recurso para desarrolladores e investigadores. Además de sus contribuciones de código abierto, Hugging Face ofrece productos y servicios comerciales . Sus modelos están disponibles a través de Azure AI gracias a la asociación corporativa entre ambas empresas.

Meta

Anteriormente conocida como TheFacebook y Facebook, Meta es una empresa tecnológica multinacional centrada en los medios sociales, la comunicación digital y las plataformas tecnológicas. Fue fundada originalmente por Mark Zuckerberg, Eduardo Saverin , Andrew McCollum, Dustin Moskovitz y Chris Hughes en 2004. En los últimos años, han creado una estructura organizativa de IA muy potente, con investigadores de IA relevantes y significativas contribuciones de IA de código abierto. Han lanzado varios modelos, incluidos sus LLM más recientes Llama 3 y CodeLlama, una interesante opción centrada en los datos, con un buen rendimiento (basado en los puntos de referencia del sector) y menores requisitos informáticos que otras soluciones existentes. Los últimos modelos también están disponibles a través de Microsoft Azure, con nuevas funciones para afinarlos y evaluarlos a través de Azure AI Studio, como parte de la asociación exclusiva Meta-Microsoft que posiciona a Microsoft Azure como el proveedor en la nube preferido para los modelos de Meta.

Mistral AI

Empresa francesa especializada en inteligencia artificial. Fue fundada en abril de 2023 por investigadores que anteriormente trabajaron en Meta y Google DeepMind. Mistral AI se centra en el desarrollo de modelos lingüísticos generativos y destaca por su compromiso con el software de código abierto, en contraste con los modelos propietarios. Sus modelos de Mezcla de Expertos (MoE) están estableciendo el estándar para modelos lingüísticos más pequeños, y están disponibles a través del catálogo de modelos de IA de Azure, incluido el modelo Mistral Large.

Databricks

Una plataforma de inteligencia de datos (disponible como servicio nativo en Microsoft Azure) que ha publicado sus propios LLM, incluido un modelo inicial de código abierto llamado Dolly 2.0, entrenado por sus propios empleados, y el primer LLM de código abierto con fines comerciales. En 2024, publicaron nuevos modelos DBRX (versiones base y de instrucción), también disponibles a través del catálogo de modelos de IA de Azure.

Google

Google es otro competidor clave y uno de los innovadores en IA más relevantes. Su plataforma Google Cloud Platform (GCP) introdujo nuevas funciones impulsadas por la IA en Google Workspace y G-Suite, y la plataforma Vertex AI de Google Cloud se utiliza para construir e implementar modelos de aprendizaje automático y aplicaciones de IA a escala. Al igual que Microsoft Azure, Google Cloud ofrece herramientas que facilitan a los desarrolladores construir con IA generativa y nuevas experiencias impulsadas por IA en toda su nube, incluido el acceso a herramientas de IA generativa de bajo código. Por último, Google lanzó Gemini (antes conocido como Bard) como alternativa a ChatGPT de OpenAI y Microsoft Copilot.

NVIDIA

Un pionero en IA generativa que ofrece una plataforma completa que permite la innovación y la creatividad para resolver retos complejos. Su plataforma incluye computación acelerada, software de IA esencial, modelos preentrenados y fundiciones de IA. Desde el punto de vista de Microsoft, existe una creciente asociación entre ambas empresas, que incluye la disponibilidad de su servicio de fundición de IA generativa en Microsoft Azure, y la inclusión de modelos de IA de NVIDIA en el catálogo de modelos de IA de Azure.

Antrópico

Una empresa de IA fundada por antiguos empleados de OpenAI. También tienen su propio bot de estilo ChatGPT llamado Claude, al que se puede acceder a través de una interfaz de chat y una API en su consola de desarrollador. Claude es capaz de realizar una amplia variedad de tareas conversacionales y de procesamiento de texto, manteniendo un buen grado de fiabilidad y previsibilidad. Sus modelos Claude están disponibles a través de API.

Servicios web de Amazon (AWS)

AWS tardó algún tiempo en lanzar productos relacionados con la IA generativa, pero hace poco anunciaron su plataforma AWS Bedrock, un servicio de IA fundacional para conectar directamente con modelos de IA generativa. Ofrecen sus propios modelos y otros de terceros, como Cohere o Anthropic.

IBM

IBM anunció su nueva plataforma WatsonX, que incluye su propio catálogo de modelos, un entorno de laboratorio/juego e integraciones habilitadas por API.

Cohere

Una empresa de LLM, con su propia oferta de modelos lingüísticos, y su chatbot de productividad Coral, que funciona como asistente de conocimientos para empresas.

Puedes ver en la Figura 1-4 la evolución exponencial del mercado de la IA generativa con una cronología de nuevos modelos por empresa, especialmente después de que ChatGPT saliera en 2022, con un 2023 lleno de lanzamientos de modelos y plataformas.

Figura 1-4. Cronología simplificada de la IA generativa

Esta cronología es una versión muy simplificada de los avances y lanzamientos de diferentes equipos de código abierto y otras empresas. Para más detalles, tanto el Informe sobre el Estado de la IA como el Informe sobre el Índice de IA de Stanford contienen multitud de detalles sobre modelos de investigación y comerciales, así como sobre otros actores relevantes que no hemos mencionado aquí. La lista de innovaciones en IA generativa evolucionará sin duda en los próximos meses y años, y las futuras implementaciones de modelos existentes como Llama 3 de Meta y GPT-4 y GPT-4o de OpenAI se centrarán probablemente en la eficacia de los modelos.

Veamos ahora por qué la IA generativa es un tipo especial de inteligencia artificial, y expliquemos un nuevo concepto llamado modelos de fundamentos, que es el diferenciador clave cuando se compara con los modelos lingüísticos tradicionales.

El papel clave de los modelos de fundación

Hay varias razones por las que la IA generativa es una disrupción total . La percepción de un nivel de rendimiento nunca visto es una de ellas. La capacidad de interactuar utilizando un lenguaje sencillo para enviar nuestras instrucciones e interpretar los resultados es otra. Sin embargo, uno de los aspectos fundamentales para que la IA generativa aporte el valor que vemos hoy en día es la noción de modelos de base.

Los modelos de base son modelos preentrenados con una gran cantidad de información (por ejemplo, los LLM) capaces de realizar tareas muy diferentes. Esto es algo nuevo, ya que los modelos tradicionales de IA/PNL se centran en tareas unitarias, un modelo específico por tarea (por ejemplo, la traducción de idiomas).

Por ejemplo, los modelos Azure OpenAI, como GPT-4 y GPT-4o, pueden hacer muchas cosas aprovechando un solo modelo. Pueden realizar diversas tareas relacionadas con una capacidad generativa específica, como texto/lenguaje, y ayudarte a analizar, generar, resumir, traducir, clasificar, etc., todo ello con un solo modelo. Además, si los modelos son capaces de manejar distintos tipos de entradas al mismo tiempo, como texto e imagen, se califican como modelos multimodales (por ejemplo, GPT-4V). Puedes ver las principales diferencias en la Figura 1-5.

Este enfoque flexible proporciona múltiples opciones para el desarrollo de nuevos casos de uso, y más adelante (en los Capítulos 2 y 3) verás cómo Azure OpenAI facilita la configuración, prueba e implementación de estos modelos básicos. Pero, ¿qué representa en términos de disrupción de la IA? Veamos primero una de las razones fundamentales por las que la IA generativa y empresas como OpenAI han recibido tanta atención en los últimos años.

Figura 1-5. La IA tradicional frente a los modelos de fundación

El camino hacia la Inteligencia Artificial General

Antes de adentrarnos en la parte central de este libro, es importante contextualizar todas estas innovaciones dentro del estado general de la inteligencia artificial, y los debates actuales sobre la inteligencia general artificial (AGI) debido a las inesperadas capacidades de la GPT-4 y otros LLM.

Puede que recuerdes algunas referencias cinematográficas a lo que mucha gente imagina como inteligencia artificial: Skynet, Ultrón, Yo, Robot, etc. Todas ellas mostraban algún tipo de inteligencia superior, normalmente representada por robots humanoides fuertes y peligrosos que evolucionan con el tiempo, y que planean de algún modo sustituir o incluso destruir a la raza humana. Pues bien, aunque el propósito de este libro no sea mostrar una visión ingenua de lo que es la IA y sus capacidades, empezaremos por desmitificar y aclarar el nivel actual de desarrollo de la inteligencia artificial, para que todo el mundo pueda comprender dónde estamos y cuáles son las expectativas realistas de un sistema de IA. Para ello, aquí tienes tres tipos de IA en función de su alcance y nivel de inteligencia:

IA estrecha

El actual tipo de capacidades que ofrecen los sistemas y tecnologías de IA. Básicamente, se trata de una IA que puede obtener una muestra relativamente grande de datos pasados, y luego generar predicciones basadas en ella, para tareas muy específicas, por ejemplo, detectar objetos a partir de imágenes nuevas, reconocer personas a partir de voces de audio, etc.

IA general (o inteligencia general artificial)

El próximo objetivo de los investigadores y las empresas de IA. La idea es generalizar el proceso de entrenamiento y el conocimiento que genera para la IA y aprovecharlo en otros ámbitos. Por ejemplo, ¿cómo podemos hacer que un asistente personal con IA sea consciente del contexto cambiante? ¿Y adaptar los aprendizajes previos a las nuevas situaciones? Esto no es 100% factible hoy en día, pero es probable que ocurra en algún momento.

Super IA

El tipo de inteligencia artificial que las películas y los libros muestran continuamente. Sus capacidades (cognitivas, físicas, etc.) son muy superiores a las humanas, y en teoría puede superarlas. Sin embargo, este tipo de superinteligencia es actualmente una visión futurista de lo que podría ser una inteligencia artificial. Todavía no es factible y probablemente no ocurrirá en los próximos años o incluso décadas (esta opinión será diferente según a quién preguntes).

Volviendo al tema de la IA generativa, los debates actuales se centran en el estadio o tipo actual de inteligencia artificial. Pero la verdadera pregunta es: ¿seguimos hablando de IA estrecha? ¿Nos estamos acercando a la IA general? Es una pregunta justa, dado el nuevo nivel de rendimiento y flexibilidad de los modelos fundacionales para realizar diversas tareas. Independientemente de la respuesta (que puede ir de lo técnico a lo filosófico), la realidad es que la IA generativa en general, y el Servicio Azure OpenAI en particular, están proporcionando capacidades con las que nunca antes habíamos soñado.

Hubo un primer análisis de las capacidades del modelo GPT-4 del equipo de Microsoft que exploraba esta relación entre los modelos base, y habla de un "rendimiento cercano al nivel humano" y de una "versión temprana de un sistema AGI". Además, empresas como OpenAI han declarado la búsqueda de la AGI como uno de sus principales objetivos.

Hemos cubierto todos los fundamentos relacionados con los temas de la IA generativa, incluida la evolución desde la IA tradicional, los desarrollos recientes y los debates en curso sobre el rendimiento y el impacto de la IA generativa. Exploremos ahora los detalles del Servicio Azure OpenAI, con especial atención a la historia que hay detrás y a las capacidades básicas.

Microsoft, OpenAI y Azure OpenAI Service

Microsoft, uno de los principales incumbentes tecnológicos, y OpenAI, una empresa de IA relativamente joven, han colaborado y trabajado juntos en los últimos años para crear tecnologías impresionantes, como superordenadores de IA y LLM. Uno de los principales aspectos de esta asociación es la creación del Servicio Azure OpenAI, motivo principal de este libro, y un servicio cognitivo PaaS que ofrece una versión de nivel empresarial de los servicios y API existentes de OpenAI, con funciones adicionales de seguridad nativa en la nube, gestión de identidades, moderación e IA responsable .

La colaboración entre empresas se hizo más famosa en 2023, pero la realidad es que tuvo varias etapas con hitos muy importantes tanto a nivel técnico como empresarial:

  • Comenzó en 2019, cuando Microsoft anunció una inversión de 1.000 millones de dólares en OpenAI para ayudar a avanzar en sus actividades de investigación sobre IA y crear nuevas tecnologías.

  • En 2021, anunciaron otro nivel de asociación para crear modelos de IA a gran escala utilizando los superordenadores de Azure.

  • En enero de 2023, anunciaron la tercera fase de su asociación a largo plazo mediante una inversión plurianual y multimillonaria para acelerar los avances de la IA y garantizar que estos beneficios se compartan ampliamente con el mundo.

Obviamente, cada paso de esta asociación ha profundizado el nivel de colaboración y las implicaciones para ambas empresas. Las principales áreas de trabajo son las siguientes:

Infraestructura de IA Generativa

Creación de nuevas tecnologías de supercomputación de IA en Azure para dar soporte a aplicaciones escalables para aplicaciones de IA generativa tanto de OpenAI como de Microsoft, y adaptación de los servicios existentes de OpenAI para que se ejecuten en Microsoft Azure.

Modelos de IA generativa gestionados

Convertir a Microsoft Azure en el socio en la nube preferido para comercializar nuevos modelos de OpenAI a través de Azure OpenAI Service, lo que para ti, como adoptador, significa que cualquier modelo de OpenAI está disponible a través de Microsoft Azure, como un servicio nativo de nivel empresarial en la nube, además de las API de OpenAI existentes.

Productos Microsoft Copilot

Como veremos en las páginas siguientes, Microsoft ha infundido IA en su paquete de productos creando copilotos con IA que ayudan a los usuarios a realizar tareas complejas.

Además, Azure OpenAI Service no es el único servicio de IA de Microsoft, y forma parte de la Azure AI Suite (mostrada en la Figura 1-6), que incluye otras opciones PaaS para una serie de capacidades avanzadas que pueden convivir e interactuar para crear nuevas soluciones habilitadas para la IA .

Figura 1-6. Servicio Azure OpenAI y otros servicios Azure AI

Nos referiremos a algunos de estos componentes básicos en los Capítulos 3 y 4, ya que la mayoría de estos servicios interactúan a la perfección con Azure OpenAI Service, dependiendo de la arquitectura de la solución prevista. Pero se trata de un campo en plena evolución, y la Figura 1-7 muestra la cronología de los principales avances de Azure OpenAI en los últimos meses y años.

Figura 1-7. Línea temporal del Servicio Azure OpenAI

Si quieres saber más sobre los orígenes de la asociación y los desarrollos iniciales, este episodio de podcast con el CTO de Microsoft Kevin Scott y el cofundador (y antiguo CEO) Bill Gates es muy interesante y explica cómo empezó todo.

El auge de los copilotos con IA

Como parte de sus ofertas basadas en la IA, Microsoft está promoviendo el concepto de copilotos de IA. Son asistentes personales equipados con la IA de Microsoft, los modelos GPT de OpenAI y otras tecnologías de IA generativa, diseñados para ayudar a los usuarios en sus tareas y objetivos, pero no para sustituir a los humanos y sus trabajos. Los Copilotos trabajan junto a los usuarios, proporcionando sugerencias, ideas y acciones basadas en la IA. Los usuarios siempre tienen el control y la opción de aceptar, modificar o rechazar los resultados del copiloto. Desde un punto de vista visual, los copilotos suelen estar a la derecha de la pantalla, y Microsoft los ha incluido en varias soluciones:

Copiloto GitHub

Un programador en pareja potenciado por IA que ayuda a los desarrolladores a escribir mejor código más rápidamente. Sugiere líneas enteras o funciones completas directamente dentro del editor, basándose en el contexto del código y los comentarios. GitHub Copilot funciona con GPT-4 (anteriormente activado por OpenAI Codex, ahora obsoleto), un sistema que puede generar lenguaje natural y código informático. GitHub Copilot es el caso original y el primer copiloto de la suite de Microsoft.

Chat Bing/Microsoft Copilot

Un servicio de IA conversacional que ayuda a los usuarios a encontrar información, obtener respuestas y completar tareas en la web. Utiliza modelos GPT que pueden producir respuestas en lenguaje natural basadas en las entradas del usuario. Los usuarios pueden chatear con Bing Chat mediante texto o voz en los navegadores o en la aplicación de Bing. Este es el primer motor de búsqueda que incorpora funciones de IA generativa para el debate basado en el chat, ahora rebautizado como Microsoft Copilot.

Copiloto Microsoft 365

Un copiloto con IA para el trabajo que ayuda a los usuarios a dar rienda suelta a su creatividad, mejorar su productividad y elevar sus habilidades. Se integra con aplicaciones de Microsoft 365 como Word, Excel, PowerPoint, Outlook, Teams y Business Chat. También aprovecha LLM como Azure OpenAI GPT-4 para generar contenido, ideas y acciones basadas en comandos de lenguaje natural.

Copiloto Windows

Un asistente de IA mejorado para Windows 11 que ayuda a los usuarios a actuar y hacer las cosas fácilmente. Se integra con Bing Chat, así como con funciones de Windows y aplicaciones de terceros. Los usuarios pueden interactuar con Windows Copilot mediante comandos de lenguaje natural.

Fabric y Power BI Copilot

Una interfaz de IA generativa para Microsoft Fabric, la plataforma del lago , y Power BI, para informes automatizados.

Copiloto de Seguridad

Una solución de seguridad basada en IA que ayuda a los usuarios a proteger sus dispositivos y sus datos de las ciberamenazas. Utiliza IA para detectar y prevenir malware, phishing, ransomware y otros ataques. También proporciona a los usuarios consejos y recomendaciones de seguridad basados en su comportamiento y preferencias.

Copiloto Claridad

Una función que incorpora IA generativa a Microsoft Clarity, una herramienta de análisis que ayuda a los usuarios a comprender el comportamiento de los usuarios en sus sitios web. Permite a los usuarios consultar sus datos de Clarity y Google Analytics mediante lenguaje natural y obtener resúmenes concisos. También genera conclusiones clave de las repeticiones de las sesiones utilizando IA.

Copiloto Dynamics 365

Una función que aporta IA de nueva generación a las soluciones tradicionales de gestión de relaciones con los clientes (CRM) y de planificación de recursos empresariales (ERP). Ayuda a los usuarios a optimizar sus procesos empresariales, mejorar el compromiso con el cliente y aumentar los ingresos. Aprovecha LLM como el GPT-4 de OpenAI para generar ideas, recomendaciones y acciones basadas en comandos de lenguaje natural.

Otros

Power Platform Copilot , Microsoft Designer (software como servicio [Saas] para el diseño visual con una interfaz de indicaciones de IA generativa), y el nuevo Copilot Studio para implementaciones de IA generativa de bajo código.

Resumiendo, Microsoft ha lanzado una serie de copilotos de IA para su conjunto de productos, y la realidad es que Azure OpenAI Service es la pieza clave para crear tus propios copilotos. Analizaremos diferentes bloques de construcción de un copiloto de IA para aplicaciones nativas de la nube (por ejemplo, nuevos términos como plug-ins y orquestadores), pero puedes ver en la Figura 1-8 una versión adaptada de la arquitectura en capas del "Copiloto de IA" que Microsoft presentó durante Microsoft Build 2023.

Figura 1-8. La pila tecnológica moderna del copiloto de IA (fuente: adaptación de una imagen de Microsoft)

Como puedes ver en la figura, la infraestructura de IA y los modelos de base son sólo una parte de la ecuación. Se necesita tanto una arquitectura nativa de la nube como piezas específicas de IA generativa para desarrollar copilotos de IA para tus aplicaciones existentes y nuevas, y eso es exactamente lo que cubriremos en los Capítulos 2, 3 y 4. Pero antes de eso, exploremos las capacidades de alto nivel y los casos de uso típicos de Azure OpenAI.

Capacidades y casos de uso del servicio Azure OpenAI

Nos centraremos ahora en las capacidades básicas y en los posibles casos de uso de los sistemas habilitados para Azure OpenAI, antes de pasar a las consideraciones arquitectónicas y técnicas. Teniendo en cuenta la naturaleza flexible de los modelos de base, es fácil imaginar las múltiples aplicaciones de los modelos Azure OpenAI . Exploremos las principales capacidades de la Tabla 1-1 (hay más, pero puedes utilizarla como base para tu ideación inicial de uso), alineadas con las que hemos visto anteriormente en este capítulo.

Tabla 1-1. Principales capacidades y casos de uso del Servicio Azure OpenAI
Tipo Capacidad y ejemplo ilustrativo
Lengua Generación/análisis de contenidos Generación de texto Creación automática de SMS con formatos y contenidos dinámicos
Clasificación de los temas Detecta los temas de los libros en función de su contenido, para etiquetarlos automáticamente
Análisis del sentimiento Detecta el sentimiento de las reseñas en las redes sociales para detectar los puntos de dolor
Extracción de entidades Encuentra temas clave a partir de información específica
Llamada a las API Genera una llamada a la API e intégrala con otros sistemas
Documentos de expertos en la materia Creación de documentación basada en roles a partir de libros o repositorios
Traducciones automáticas Traducción de sitios web a petición
Informes técnicos Generación de informes basados en bases de datos y otra información
Asistencia al agente Planes dinámicos paso a paso para agentes de atención al cliente
Resumir Resúmenes de libros Resumir documentos largos (p. ej., libros) con formato y secciones específicas
Análisis de la competencia Extracción de los factores clave de dos empresas para el análisis competitivo
Análisis de tendencias en medios sociales Resumen de las tendencias de las palabras clave y conexión con las noticias online
Comprensión lectora Reformulación de temas clave con un lenguaje más sencillo
Busca en Resultados de Internet Búsqueda semántica de temas en Internet
Búsqueda de reseñas sociales Búsqueda detallada de temas específicos a partir de reseñas sociales en Internet
Minería del conocimiento Extracción de conocimientos de distintas fuentes, de un mismo tema
Análisis de documentos Búsqueda de temas clave y otros términos relacionados para un documento concreto
Automatización Gestión de reclamaciones Estructuración automática de la información basada en texto para enviarla como archivo JSON
Información financiera Informes trimestrales basados en el resumen de las redes sociales, las cifras de las bases de datos y la automatización del informe final y su distribución
Respuestas automáticas a los clientes Respuestas automáticas por voz, o discusiones con chatbot para la asistencia de Nivel 1
Codificación Del lenguaje natural al lenguaje de programación Generar un bucle Java a partir de instrucciones en lenguaje natural
Recomendaciones de codificación Recomendaciones de codificación en directo de la herramienta de desarrollo
Comentarios automáticos Generación automática de comentarios basada en el código escrito
Refactorización Mejoras automatizadas del código
Traducción del código Traducción de un lenguaje de programación a otro
Consultas SQL en lenguaje natural Consultas a bases de datos en lenguaje natural
Revisión del código Revisión de la pareja con IA
Solicitud de información Comentarios automatizados de pull request
JSON-ización del texto Conversión de texto plano en archivo JSON con parámetros específicos
Imagen Ideación creativa Generación aleatoria de imágenes relacionadas con un tema específico
Imágenes de podcasts y listas de reproducción de música Generación de imágenes a partir de la transcripción del podcast o de la letra de la música
Sindicación de contenidos Material de marketing para socios
Hiperpersonalización Personalización visual basada en el contexto del usuario
Personalización de campañas de marketing Visuales para campañas de marketing, basadas en segmentos de usuarios, temas, etc.

Estos son sólo algunos ejemplos de cómo utilizar las múltiples capacidades de los modelos del Servicio Azure OpenAI. Pueden combinarse con otros servicios, y los modelos también pueden evolucionar, así que no descartes escenarios para la generación de audio o vídeo.

Independientemente del tipo de capacidad y caso de uso, el Servicio Azure OpenAI puede dar soporte a distintos tipos de escenarios:

Finalización

Finalizaciones se utilizan para generar contenido que finaliza una determinada indicación. Puedes pensar en ello como una forma de predecir o continuar un fragmento de texto. Las finalizaciones suelen ser útiles para tareas como la generación de contenidos, la ayuda a la codificación, la escritura de historias, etc.

Chat

Escenarios de chat están diseñados para simular una conversación, permitiendo intercambios de ida y vuelta con el modelo. En lugar de dar una sola indicación y obtener una continuación, los usuarios proporcionan una serie de mensajes, y el modelo les responde del mismo modo. Los escenarios de chat (como los que potencian ChatGPT) son útiles para tareas interactivas, como la tutoría, la atención al cliente y, por supuesto, el chat casual.

Incrustaciones

Exploraremos la noción de incrustaciones al final del Capítulo 2, pero básicamente nos permiten consumir conocimientos específicos de documentos y otras fuentes. Aprovecharemos este tipo de capacidad en varios escenarios del Capítulo 3.

La dinámica que subyace a todos estos ejemplos es la misma. Azure OpenAI es un PaaS que funciona basado en el consumo de la nube. A diferencia de otros servicios en la nube o API que facturan sus capacidades basándose en un número de interacciones, Azure OpenAI (y otras plataformas LLM comerciales) miden el uso del servicio basándose en un nuevo concepto llamado "tokens". Veamos de qué se trata.

Los tokens LLM como nueva unidad de medida

En términos generales, los proveedores de nube y SaaS utilizan formas muy diversas de facturar sus servicios, desde cuotas mensuales fijas y niveles de uso con descuentos por volumen hasta unidades de medida muy granulares, como caracteres, palabras o llamadas a la API.

En este caso, la IA generativa ha adoptado la noción de tokens, que es un conjunto de palabras o caracteres en los que dividimos la información textual. La unidad de tokens se utiliza con dos fines:

  • Para el consumo, para calcular el coste de la configuración y las interacciones con los modelos de Azure OpenAI. Cualquier llamada a la API, solicitud (petición de texto) enviada al modelo y finalización (respuesta) entregada por Azure OpenAI sigue esta unidad. El precio del servicio se basa en el coste por 1.000 tokens, y depende del tipo de modelo (GPT-3.5 Turbo, GPT-4, GPT-4o, DALL-E 3, etc.).

  • Por capacidad, tanto a nivel de modelo como de servicio:

    • Límite de tokens, que es la entrada máxima de que podemos pasar a cualquier modelo de Azure OpenAI (y a los modelos de IA generativa en general). Por ejemplo, GPT-3.5 Turbo ofrece dos opciones con un límite de tokens de 4K y 16K, y GPT-4, GPT-4 Turbo y GPT-4o alcanzan los 128K. Es probable que esto evolucione en los próximos meses y años. Para obtener información actualizada, visita la página de disponibilidad del modelo y comprueba la columna "Petición máxima (Tokens)".

    • Cuotas de servicio, es decir, la capacidad máxima en un determinado nivel de recursos, configuración y uso para cualquier modelo de Azure OpenAI. También se trata de información en evolución, y está disponible a través de la documentación oficial y la sección Cuotas de Azure OpenAI Studio. Estos límites son importantes para cualquier plan de implementación, dependiendo del tipo de aplicación (por ejemplo, si estamos planeando implementar un servicio para aplicaciones masivas de empresa a consumidor [B2C]). Además, existen buenas prácticas recomendadas para gestionar estas limitaciones.

La cantidad concreta de tokens depende del número de palabras (otros proveedores calculan los tokens en función de los caracteres, en lugar de las palabras), pero también de su longitud y del idioma. La regla general es que 1.000 tokens son aproximadamente 750 palabras para el idioma inglés, pero OpenAI explica la forma específica de calcular los tokens según el caso. Además, siempre puedes utilizar Azure OpenAI Playground o el tokenizador de OpenAI para calcular una estimación específica de tokens basada en el texto de entrada .

Conclusión

Este primer capítulo fue una mezcla de información de nivel introductorio relacionada con la IA y la IA generativa y una introducción preliminar a los temas de Azure OpenAI, incluidos los desarrollos recientes, las capacidades principales, los casos de uso típicos y su valor como habilitador de copilotos de IA para tus propios desarrollos de IA generativa.

Dependiendo de tu formación, esta información puede ser sólo una introducción 101, pero los conceptos que hay detrás del Servicio Azure OpenAI, aunque sean nuevos e incluyan algunos términos nuevos, pueden ser tan sencillos como parecen: un PaaS gestionado que te permitirá implementar tus propias soluciones de IA generativa nativa de la nube.

En el Capítulo 2, analizaremos los posibles escenarios para el desarrollo nativo en la nube, su conexión con Azure OpenAI y los requisitos arquitectónicos que te ayudarán a prepararlo todo, incluso antes de implementar tus soluciones habilitadas para Azure OpenAI. Al igual que con este capítulo, si ya tienes algunos conocimientos preliminares sobre arquitecturas nativas de la nube y Azure, puedes leerlo como una forma de conectar los puntos y comprender los aspectos específicos de estos temas adaptados a la IA generativa. Si eres totalmente nuevo en el tema, no dudes en leer el contenido y explorar cualquier recurso externo que pueda apoyar tu viaje de perfeccionamiento. ¡Acabamos de empezar!

Get Servicio Azure OpenAI para aplicaciones nativas en la nube now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.