Capítulo 1. La necesidad del aprendizaje automático probabilístico

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En esencia, todos los modelos son erróneos, pero algunos son útiles. Sin embargo, siempre hay que tener en cuenta el carácter aproximado del modelo.

-George Box, eminente estadístico

Un mapa te permitirá ir de un lugar geográfico a otro. Es un modelo matemático muy útil para navegar por el mundo físico. Resulta aún más útil si lo automatizas en un sistema GPS utilizando tecnologías de inteligencia artificial (IA). Sin embargo, ni el modelo matemático ni el sistema GPS impulsado por IA podrán nunca captar la experiencia humana y la riqueza del terreno que representa. Eso se debe a que todos los modelos tienen que simplificar las complejidades del mundo real, permitiéndonos así centrarnos en algunas de las características de un fenómeno que nos interesan.

George Box, eminente estadístico, dijo célebremente: "todos los modelos son erróneos, pero algunos son útiles". Esta ocurrencia profundamente perspicaz es nuestro mantra. Aceptamos que todos los modelos son erróneos porque son representaciones inadecuadas e incompletas de la realidad. Nuestro objetivo es construir sistemas financieros basados en modelos y tecnologías de apoyo que permitan inferencias y predicciones útiles para la toma de decisiones y la gestión del riesgo frente a la incertidumbre endémica, la información incompleta y las mediciones inexactas.

Todos los modelos financieros, ya sean derivados teóricamente o descubiertos empíricamente por humanos y máquinas, no sólo son erróneos, sino que también están a merced de tres tipos de errores. En este capítulo, explicamos esta trifecta de errores con un ejemplo del crédito al consumo y lo exploramos utilizando código Python. Esto ejemplifica nuestra afirmación de que las imprecisiones de los modelos financieros son características, no errores. Al fin y al cabo, estamos tratando con personas, no con partículas o péndulos.

Las finanzas no son una ciencia física precisa como la física, que se ocupa de estimaciones y predicciones precisas, como nos quieren hacer creer los círculos académicos. Es un estudio social inexacto que lidia con una gama de valores con distintas verosimilitudes que cambian continuamente, a menudo de forma abrupta.

Concluimos el capítulo explicando por qué la IA en general y el aprendizaje automático probabilístico (AM) en particular ofrecen el marco teórico y las tecnologías más útiles y prometedoras para desarrollar la próxima generación de sistemas para las finanzas y la inversión.

Las finanzas no son física

Adam Smith, generalmente reconocido como el fundador de la economía moderna, estaba admirado de las leyes de la mecánica y la gravitación de Newton.1 Desde entonces, los economistas se han esforzado por convertir su disciplina en una ciencia matemática como la física. Aspiran a formular teorías que expliquen y predigan con precisión las actividades económicas de los seres humanos a nivel micro y macroeconómico. Este deseo cobró impulso a principios del siglo XX con economistas como Irving Fisher y culminó en el movimiento econofísico de finales del siglo XX.

A pesar de todas las complicadas matemáticas de las finanzas modernas, sus teorías son lamentablemente inadecuadas, casi lamentables, sobre todo si se comparan con las de la física. Por ejemplo, la física puede predecir el movimiento de la luna y de los electrones de tu ordenador con una precisión asombrosa. Estas predicciones pueden ser calculadas por cualquier físico, en cualquier momento y en cualquier lugar del planeta. En cambio, los participantes en el mercado -comerciantes, inversores, analistas, ejecutivos financieros- tienen problemas para explicar las causas de los movimientos diarios del mercado o predecir el precio de un activo en cualquier momento, en cualquier lugar del mundo.

Quizá las finanzas sean más difíciles que la física. A diferencia de las partículas y los péndulos, las personas son seres complejos, emocionales y creativos, con libre albedrío y sesgos cognitivos latentes. Tienden a comportarse de forma incoherente y reaccionan continuamente a las acciones de los demás de forma impredecible. Además, los participantes en el mercado sacan provecho burlando o jugando con los sistemas en los que operan.

Tras perder una fortuna con su inversión en la Compañía de los Mares del Sur, Newton comentó: "Puedo calcular el movimiento de las estrellas, pero no la locura de los hombres".4 Ten en cuenta que Newton no era un inversor novato. Fue director de la Casa de la Moneda de Inglaterra durante casi 31 años, ayudando a poner la libra esterlina en el patrón oro, donde permanecería durante más de dos siglos.

Todos los modelos financieros son erróneos, la mayoría son inútiles

Algunos académicos han argumentado incluso que los modelos financieros teóricos no sólo son erróneos, sino también peligrosos. El barniz de ciencia física induce a los partidarios de los modelos económicos a una falsa sensación de certeza sobre la exactitud de sus poderes predictivos.5 Esta fe ciega ha provocado muchas consecuencias desastrosas para sus partidarios y para la sociedad en general.6 Nada ejemplifica mejor las peligrosas consecuencias de la arrogancia académica y la fe ciega en los modelos financieros analíticos que el espectacular desastre de la LTCM, que se analiza en el recuadro.

The disaster of LTCM
Figura 1-1. El desastre épico de Long Term Capital Management (LTCM)7

Adoptando un enfoque diametralmente distinto de los fondos de cobertura como el LTCM, Renaissance Technologies, el fondo de cobertura más exitoso de la historia, ha puesto en práctica su visión crítica de las teorías financieras. En lugar de contratar a personas con formación en finanzas o en Wall Street, la empresa prefiere contratar a físicos, matemáticos, estadísticos e informáticos. Opera en los mercados utilizando modelos cuantitativos basados en teorías no financieras, como la teoría de la información, la ciencia de los datos y el aprendizaje automático.

La trifecta de los errores de modelización

Tanto si los modelos financieros se basan en teorías académicas como en estrategias empíricas de extracción de datos, todos están sujetos a la trifecta de los errores de modelización. Los errores en el análisis y la previsión pueden deberse a cualquiera de los siguientes problemas de modelización: utilizar una forma funcional inadecuada, introducir parámetros inexactos o no adaptarse a los cambios estructurales del mercado.8

Errores en la especificación del modelo

Casi todas las teorías financieras utilizan la distribución gaussiana o normal en sus modelos. Por ejemplo, la distribución normal es la base sobre la que se asientan la moderna teoría de carteras de Markowitz y la teoría de valoración de opciones de Black-Scholes-Merton.9 Sin embargo, es un hecho bien documentado en la investigación académica que las acciones, los bonos, las divisas y las materias primas tienen distribuciones de rentabilidad de cola gorda que son claramente no gaussianas.10 En otras palabras, los sucesos extremos ocurren con mucha más frecuencia de lo que predice la distribución normal. En los Capítulos 3 y 4, realizaremos análisis de datos financieros en Python para demostrar la estructura no gaussiana de las distribuciones de la rentabilidad de la renta variable.

Si los rendimientos de los precios de los activos estuvieran distribuidos normalmente, no se produciría ninguna de las siguientes catástrofes financieras dentro de la edad del universo: el Lunes Negro, la crisis del peso mexicano, la crisis de las divisas asiáticas, la quiebra de LTCM o el Flash Crash. Los "mini flash crashes" de valores individuales se producen con una frecuencia aún mayor que estos macroeventos.

Sin embargo, los libros de texto, los programas y los profesionales de las finanzas siguen utilizando la distribución normal en sus modelos de valoración de activos y de riesgo debido a su simplicidad y trazabilidad analítica. Estas razones ya no son justificables dados los avanzados algoritmos y recursos computacionales actuales. Esta reticencia a abandonar la distribución normal es un claro ejemplo de "la búsqueda del borracho": un principio derivado de un chiste sobre un borracho que pierde su llave en la oscuridad de un parque, pero la busca frenéticamente debajo de una farola porque es donde está la luz.

Errores en las estimaciones de los parámetros del modelo

Los errores de este tipo pueden surgir porque los participantes en el mercado tienen acceso a distintos niveles de información con velocidades de entrega variables. También tienen distintos niveles de sofisticación en las capacidades de procesamiento y distintos sesgos cognitivos. Además, estos parámetros suelen estimarse a partir de datos pasados, que pueden no representar con exactitud las condiciones actuales del mercado. Estos factores provocan una profunda incertidumbre epistémica sobre los parámetros del modelo.

Consideremos el ejemplo concreto de los tipos de interés. Fundamentales para la valoración de cualquier activo financiero, los tipos de interés se utilizan para descontar los flujos de caja futuros inciertos del activo y estimar su valor en el presente. A nivel del consumidor, por ejemplo, las tarjetas de crédito tienen tipos de interés variables vinculados a una referencia denominada tipo preferente. Este tipo suele cambiar al mismo ritmo que el tipo de los fondos federales, un tipo de interés de importancia fundamental para la economía estadounidense y mundial.

Imaginemos que quieres calcular el tipo de interés de tu tarjeta de crédito dentro de un año. Supongamos que el tipo preferente actual es del 2% y que la compañía de tu tarjeta de crédito te cobra el 10% más el tipo preferente. Dada la fortaleza de la economía actual, crees que es más probable que la Reserva Federal suba los tipos de interés que que no lo haga. Basándonos en nuestra información actual, sabemos que la Reserva Federal se reunirá ocho veces en los próximos 12 meses y subirá el tipo de los fondos federales un 0,25% o lo dejará en el nivel anterior.

En el siguiente ejemplo de código Python, utilizamos la distribución binomial para modelizar el tipo de interés de tu tarjeta de crédito al final del periodo de 12 meses. En concreto, utilizaremos los siguientes parámetros para nuestro rango de estimaciones sobre la probabilidad de que la Fed suba el tipo de los fondos federales un 0,25% en cada reunión: fed_meetings = 8 (número de ensayos o reuniones); probability_raises = [0,6, 0,7,0 .8, 0,9]:

# Import binomial distribution from sciPy library
from scipy.stats import binom
# Import matplotlib library for drawing graphs
import matplotlib.pyplot as plt

# Total number of meetings of the Federal Open Market Committee (FOMC) in any 
# year
fed_meetings = 8
# Range of total interest rate increases at the end of the year
total_increases = list(range(0, fed_meetings + 1))
# Probability that the FOMC will raise rates at any given meeting
probability_raises = [0.6, 0.7, 0.8, 0.9]

fig, axs = plt.subplots(2, 2, figsize=(10, 8))

for i, ax in enumerate(axs.flatten()):
    # Use the probability mass function to calculate probabilities of total 
    # raises in eight meetings
    # Based on FOMC bias for raising rates at each meeting
    prob_dist = binom.pmf(k=total_increases, n=fed_meetings, 
    p=probability_raises[i])
    # How each 25 basis point increase in the federal funds rate affects your 
    # credit card interest rate
    cc_rate = [j * 0.25 + 12 for j in total_increases]

    # Plot the results for different FOMC probability
    ax.hist(cc_rate, weights=prob_dist, bins=fed_meetings, alpha=0.5, 
    label=probability_raises[i])
    ax.legend()
    ax.set_ylabel('Probability of credit card rate')
    ax.set_xlabel('Predicted range of credit card rates after 12 months')
    ax.set_title(f'Probability of raising rates at each meeting: 
    {probability_raises[i]}')

# Adjust spacing between subplots
plt.tight_layout()

# Show the plot
plt.show()

En la Figura 1-2, observa en cómo la distribución de probabilidad del tipo de tu tarjeta de crédito en 12 meses depende fundamentalmente de tu estimación sobre la probabilidad de que la Fed suba los tipos en cada una de las ocho reuniones. Puedes ver que por cada aumento de 0,1 en tu estimación de que la Fed subirá los tipos en cada reunión, el tipo de interés esperado de tu tarjeta de crédito en 12 meses aumenta aproximadamente un 0,2%.

Probability distribution of credit card rates depends on your parameter estimates.
Figura 1-2. La distribución de probabilidad de los tipos de las tarjetas de crédito depende de tus estimaciones de los parámetros

Aunque todos los participantes en el mercado utilizaran la distribución binomial en sus modelos, es fácil ver cómo podrían discrepar sobre el futuro tipo de interés preferente debido a las diferencias en sus estimaciones sobre la subida de tipos por parte de la Fed en cada reunión. De hecho, este parámetro es difícil de estimar. Muchas instituciones han dedicado analistas, incluidos antiguos empleados de la Fed, a analizar cada documento, discurso y acto de la Fed para intentar estimar este parámetro. Esto se debe a que el tipo de los fondos federales influye directamente en los precios de todos los activos financieros e indirectamente en las tasas de empleo e inflación de la economía real.

Recordemos que asumimos que este parámetro, probability_raises, era constante en nuestro modelo para cada una de las siguientes ocho reuniones de la Fed. ¿Hasta qué punto es realista? Los miembros del Comité Federal de Mercado Abierto (FOMC), el órgano que fija los tipos, no son sólo un conjunto de monedas sesgadas. Pueden cambiar sus sesgos individuales, y de hecho lo hacen, en función de cómo cambie la economía a lo largo del tiempo. La suposición de que el parámetro probabil⁠ity_​raises será constante durante los próximos 12 meses no sólo es poco realista, sino también arriesgada.

Errores derivados de la falta de adaptación de un modelo a los cambios estructurales

El proceso estocástico subyacente que genera los datos puede variar con el tiempo, es decir, el proceso no es ergódico estacionario. Esto implica que los momentos estadísticos de la distribución, como la media y la varianza, calculados a partir de datos financieros de muestra tomados en un momento concreto del tiempo o muestreados durante un periodo de tiempo suficientemente largo, no predicen con exactitud los momentos estadísticos futuros de la distribución subyacente. Los conceptos de estacionariedad y ergodicidad son muy importantes en finanzas y se explicarán con más detalle más adelante en el libro.

Vivimos en una economía capitalista dinámica caracterizada por innovaciones tecnológicas y políticas monetarias y fiscales cambiantes. Las distribuciones variables en el tiempo de los valores de los activos y los riesgos son la norma, no la excepción. Para tales distribuciones, los valores de los parámetros basados en datos históricos están destinados a introducir errores en las previsiones.

En nuestro ejemplo anterior, si la economía mostrara signos de desaceleración, la Fed podría decidir adoptar una postura más neutral en su cuarta reunión, lo que te haría cambiar tu parámetro probability_raises del 70% al 50% en adelante. Este cambio en tu parámetro cambiará, a su vez, la previsión del tipo de interés de tu tarjeta de crédito.

A veces, las distribuciones variables en el tiempo y sus parámetros cambian de forma continua o brusca, como en la crisis del peso mexicano. Para los cambios continuos o bruscos, los modelos utilizados tendrán que adaptarse a la evolución de las condiciones del mercado. Podría ser necesaria una nueva forma funcional con parámetros diferentes para explicar y predecir los valores de los activos y los riesgos en el nuevo régimen de mercado.

Supongamos que después de la quinta reunión de nuestro ejemplo, la economía estadounidense se ve afectada por una perturbación externa, por ejemplo, un nuevo gobierno populista en Grecia decide incumplir sus obligaciones de deuda. Ahora es más probable que la Fed recorte los tipos de interés que los suba. Dado este cambio estructural en las perspectivas de la Fed, tendremos que cambiar la distribución de probabilidad binomial de nuestro modelo por una distribución trinomial con los parámetros adecuados.

Modelos financieros probabilísticos

Las imprecisiones de los modelos financieros son características, no errores. Es intelectualmente deshonesto y tontamente arriesgado representar las estimaciones financieras como valores científicamente precisos. Todos los modelos deben cuantificar la incertidumbre inherente a las inferencias y predicciones financieras para que sean útiles para una toma de decisiones y una gestión del riesgo sólidas en el mundo empresarial. Los datos financieros son ruidosos y tienen errores de medición. La forma funcional adecuada de un modelo puede ser desconocida o una aproximación. Los parámetros y resultados del modelo pueden tener una serie de valores con sus correspondientes verosimilitudes. En otras palabras, necesitamos modelos probabilísticos matemáticamente sólidos porque se adaptan a las imprecisiones y cuantifican las incertidumbres con coherencia lógica.

Hay dos formas de cuantificar actualmente la incertidumbre de los modelos: propagación hacia delante para la incertidumbre de salida, y propagación inversa para la incertidumbre de entrada. La Figura 1-3 muestra los tipos habituales de modelos probabilísticos utilizados actualmente en finanzas para cuantificar ambos tipos de incertidumbre.

Quantifying input and output uncertainty with probabilistic models
Figura 1-3. Cuantificar la incertidumbre de entrada y salida con modelos probabilísticos

En la propagación de la incertidumbre hacia delante, las incertidumbres que surgen de los parámetros e insumos inexactos de un modelo se propagan hacia delante por todo el modelo para generar la incertidumbre de los resultados del modelo. La mayoría de los analistas financieros utilizan análisis de escenarios y de sensibilidad para cuantificar la incertidumbre en las predicciones de sus modelos. Sin embargo, se trata de herramientas básicas que sólo tienen en cuenta unas pocas posibilidades.

En el análisis de escenarios, sólo se construyen tres casos para su consideración: el mejor de los casos, el caso base y el peor de los casos. Cada caso tiene un valor establecido para todas las entradas y parámetros de un modelo. Del mismo modo, en el análisis de sensibilidad, sólo se cambian unas pocas entradas o parámetros para evaluar su impacto en el resultado total del modelo. Por ejemplo, podría realizarse un análisis de sensibilidad sobre cómo cambia el valor de una empresa con los tipos de interés o los beneficios futuros. En el Capítulo 3, aprenderemos en cómo realizar simulaciones de Montecarlo (SCM) con Python y aplicarlas a problemas financieros comunes. La SCM es una de las herramientas numéricas probabilísticas más potentes de todas las ciencias y se utiliza para analizar sistemas tanto deterministas como probabilísticos. Es un conjunto de métodos numéricos que utiliza muestras aleatorias independientes de distribuciones de parámetros de entrada especificadas para generar nuevos datos que podríamos observar en el futuro. Esto nos permite calcular la incertidumbre esperada de un modelo, especialmente cuando sus relaciones funcionales no son analíticamente tratables.

En la propagación inversa de la incertidumbre, la incertidumbre de los parámetros de entrada del modelo se infiere a partir de los datos observados. Se trata de un problema computacional más difícil que la propagación hacia delante, porque los parámetros tienen que aprenderse a partir de los datos utilizando un muestreo aleatorio dependiente. Para calcular los intervalos de confianza o los intervalos creíbles de los parámetros de entrada de un modelo, se utilizan técnicas avanzadas de inferencia estadística o cálculos numéricos complejos. En el Capítulo 4, explicamos los profundos defectos y limitaciones del uso de valores p e intervalos de confianza, técnicas estadísticas que se utilizan habitualmente en el análisis de datos financieros en la actualidad. Más adelante, en el Capítulo 6, explicamos el Monte Carlo de cadenas de Markov, un método avanzado de muestreo aleatorio dependiente, que puede utilizarse para calcular intervalos creíbles que cuantifiquen la incertidumbre de los parámetros de entrada de un modelo .

Necesitamos un marco probabilístico completo que combine a la perfección la propagación de la incertidumbre directa e inversa. No queremos el enfoque fragmentario que se practica hoy en día. Es decir, queremos que nuestros modelos probabilísticos cuantifiquen la incertidumbre en las salidas de los procesos estocásticos variables en el tiempo, con sus parámetros de entrada inexactos aprendidos a partir de datos de muestra.

Nuestro marco probabilístico tendrá que actualizar continuamente los resultados del modelo o sus parámetros de entrada -o ambos- basándose en conjuntos de datos materialmente nuevos. Dichos modelos tendrán que desarrollarse utilizando conjuntos de datos pequeños, ya que el entorno subyacente puede haber cambiado con demasiada rapidez como para recopilar una cantidad considerable de datos relevantes. Y lo que es más importante, nuestros modelos probabilísticos necesitan saber lo que no saben. Al extrapolar a partir de conjuntos de datos con los que nunca se han encontrado, tienen que proporcionar respuestas con niveles de confianza bajos o márgenes de incertidumbre más amplios.

IA financiera y ML

El aprendizaje automático probabilístico (ML) cumple todos los requisitos mencionados anteriormente para construir sistemas financieros de última generación.11 Pero, ¿qué es el ML probabilístico? Antes de responder a esa pregunta, asegurémonos primero de que entendemos lo que queremos decir con ML en particular e IA en general. Es frecuente ver que estos términos se utilizan como sinónimos, aunque no lo sean. El ML es un subcampo de la IA. Véase la Figura 1-4.

ML is a subfield of AI.
Figura 1-4. El ML es un subcampo de la IA

La IA es el campo general que trata de automatizar las capacidades cognitivas de los seres humanos, como el pensamiento analítico, la toma de decisiones y la percepción sensorial. En el siglo XX, los informáticos desarrollaron un subcampo de la IA denominado IA simbólica (SAI), que incluía metodologías y herramientas para incorporar a los sistemas informáticos representaciones simbólicas del conocimiento humano en forma de reglas o algoritmos bien definidos.

Los sistemas SAI automatizan los modelos especificados por los expertos del dominio y se denominan acertadamente sistemas expertos. Por ejemplo, los operadores, los ejecutivos financieros y los desarrolladores de sistemas colaboran para formular explícitamente todas las reglas y los parámetros del modelo que deben automatizar sus sistemas de gestión financiera y de inversiones. En una de mis anteriores empresas he gestionado varios proyectos de este tipo para instituciones financieras de renombre.

Sin embargo, los SAI fracasaron en la automatización de tareas complejas como el reconocimiento de imágenes y el procesamiento del lenguaje natural, tecnologías muy utilizadas hoy en día en las finanzas y las inversiones empresariales. Las reglas de estos tipos de sistemas expertos son demasiado complejas y requieren una actualización constante para diferentes situaciones. En la última parte del siglo XX, surgió un nuevo subcampo de IA, el ML, a partir de la confluencia de algoritmos mejorados, datos abundantes y recursos informáticos baratos.

El ML da la vuelta al paradigma de la EFS. En lugar de que los expertos especifiquen modelos para procesar los datos, los humanos con poca o ninguna experiencia en el dominio proporcionan algoritmos de propósito general que aprenden un modelo a partir de muestras de datos. Y lo que es más importante, los programas de ML aprenden continuamente de nuevos conjuntos de datos y actualizan sus modelos sin ninguna intervención humana para el mantenimiento del código. Consulta la siguiente barra lateral para ver una explicación sencilla de cómo se aprenden los parámetros a partir de los datos.

Entraremos en los detalles del modelado, entrenamiento y prueba de los sistemas de ML probabilístico en la segunda mitad del libro. He aquí una definición útil de ML de Tom Mitchell, pionero del ML: "Se dice que un programa informático aprende de la experiencia E con respecto a una clase de tareas T y una medida de rendimiento P, si su rendimiento en las tareas de T, medido por P, mejora con la experiencia E".12 Véase la Figura 1-5.

An ML model learns its parameters from in-sample data, but its performance is evaluated on out-of-sample data.
Figura 1-5. Un modelo ML aprende sus parámetros a partir de datos dentro de la muestra, pero su rendimiento se evalúa con datos fuera de la muestra

El rendimiento se mide con respecto a una función objetivo preestablecida, como la maximización de la rentabilidad anual del precio de las acciones o la reducción del error medio absoluto de las estimaciones de los parámetros .

Los sistemas de ML se suelen clasificar en tres tipos en función del grado de asistencia que necesitan de sus maestros o supervisores humanos.

Aprendizaje supervisado
Los algoritmos de ML aprenden relaciones funcionales a partir de datos, que se proporcionan en pares de entradas y salidas deseadas. Esta es la forma más prevalente de ML utilizada en la investigación y la industria. Algunos ejemplos de sistemas de ML son la regresión lineal, la regresión logística, los bosques aleatorios, las máquinas de gradiente aumentado y el aprendizaje profundo.
Aprendizaje no supervisado
Los algoritmos ML sólo reciben datos de entrada y aprenden por sí solos las relaciones estructurales de los datos. El algoritmo de agrupación K-means es un algoritmo de exploración de datos muy utilizado por los analistas de inversiones. El análisis de componentes principales es un algoritmo popular de reducción de la dimensionalidad.
Aprendizaje por refuerzo
Un algoritmo de ML actualiza continuamente una política o conjunto de acciones basándose en la retroalimentación de su entorno con el objetivo de maximizar el valor actual de las recompensas acumuladas. Se diferencia del aprendizaje supervisado en que la señal de retroalimentación no es una salida o clase deseada, sino una recompensa o penalización. Ejemplos de algoritmos son el aprendizaje Q, el aprendizaje Q profundo y los métodos de gradiente de política. Los algoritmos de aprendizaje por refuerzo se están utilizando en aplicaciones avanzadas de negociación.

En el siglo XXI, los científicos de datos financieros están entrenando algoritmos de ML para descubrir relaciones funcionales complejas utilizando datos de múltiples fuentes financieras y no financieras. Las relaciones recién descubiertas pueden aumentar o sustituir los conocimientos de los ejecutivos de finanzas e inversiones. Los programas de ML son capaces de detectar patrones en conjuntos de datos de muy alta dimensión, una hazaña difícil, si no imposible, para los humanos. También son capaces de reducir las dimensiones para permitir visualizaciones para los humanos.

La IA se utiliza en todos los aspectos del proceso financiero y de inversión, desde la generación de ideas hasta el análisis, la ejecución, la cartera y la gestión del riesgo. Los principales sistemas impulsados por la IA en las finanzas y la inversión actuales utilizan alguna combinación de sistemas expertos y sistemas basados en ML, aprovechando las ventajas de ambos tipos de enfoques y conocimientos. Además, los sistemas financieros impulsados por IA siguen aprovechando la inteligencia humana (IH) para la investigación, el desarrollo y el mantenimiento. Los humanos también pueden intervenir en condiciones de mercado extremas, en las que puede resultar difícil para los sistemas de IA aprender de los cambios bruscos. Así que puedes pensar en los sistemas financieros modernos como una compleja combinación de EFS + ML + IH.

ML probabilístico

El ML Probabilístico es el marco y la tecnología ML de próxima generación para los sistemas financieros y de inversión potenciados por la IA. Las principales empresas tecnológicas comprenden claramente las limitaciones de las tecnologías de IA convencionales y están desarrollando sus versiones probabilísticas para ampliar su aplicabilidad a problemas más complejos.

Google introdujo recientemente TensorFlow Probability para ampliar su consolidada plataforma TensorFlow. Del mismo modo, Facebook y Uber han introducido Pyro para ampliar su plataforma PyTorch. Actualmente, las tecnologías de ML probabilístico de código abierto más populares son PyMC y Stan. PyMC está escrita en Python, y Stan está escrita en C++. En el Capítulo 7, utilizamos la biblioteca PyMC porque forma parte del ecosistema Python.

El ML probabilístico, tal y como se trata en este libro , se basa en un modelo generativo. Es categóricamente diferente del ML convencional que se utiliza hoy en día, como los sistemas de aprendizaje lineal, no lineal y profundo, aunque estos otros sistemas calculen puntuaciones probabilísticas. La Figura 1-6 muestra las principales diferencias entre los dos tipos de sistemas.

Summary of major characteristics of probabilistic ML systems
Figura 1-6. Resumen de las principales características de los sistemas de ML probabilístico

Distribuciones de probabilidad

Aunque los sistemas ML convencionales utilizan probabilidades calibradas, sólo calculan las estimaciones más probables y sus probabilidades asociadas como valores puntuales para las entradas y salidas. Esto funciona bien para dominios, como el reconocimiento de imágenes, donde los datos son abundantes y la relación señal-ruido es alta. Como se ha debatido y demostrado en los apartados anteriores, una estimación puntual es una representación inexacta y engañosa de la realidad financiera, donde la incertidumbre es muy alta. Además, las probabilidades calibradas pueden no ser probabilidades válidas, ya que los modelos MLE casi nunca calculan la distribución de probabilidad incondicional de los datos. Esto puede conducir a una mala cuantificación de la incertidumbre, como se explicará en el Capítulo 6.

Los sistemas ML probabilísticos sólo tratan con distribuciones de probabilidad en sus cálculos de los parámetros de entrada y las salidas del modelo. Se trata de una representación realista y honesta de la incertidumbre de las variables de un modelo financiero. Además, las distribuciones de probabilidad dejan al usuario una flexibilidad considerable para elegir la estimación puntual adecuada, si es necesario, en función de sus objetivos empresariales.

Integración de conocimientos

Los sistemas de ML convencionales no tienen un marco teóricamente sólido para incorporar el conocimiento previo, ya sea conocimiento científico bien establecido, conocimiento institucional o percepciones personales. Más adelante en el libro, veremos que los estadísticos convencionales introducen a hurtadillas el conocimiento previo utilizando métodos estadísticos ad hoc, como la hipótesis nula, los niveles de significación estadística y las regularizaciones L1 y L2, mientras aporrean la mesa sobre dejar que sólo "los datos hablen por sí mismos".

Es una insensatez no integrar los conocimientos previos en nuestra vida personal y profesional. Es la antítesis del aprendizaje y vicia contra la naturaleza del método científico. Sin embargo, ésta es la base de la prueba de significación de hipótesis nula (NHST), la metodología estadística predominante en el mundo académico, la investigación y la industria desde la década de 1960. La NHST prohíbe la inclusión de conocimientos previos en los experimentos basándose en la falsa afirmación de que la objetividad exige que sólo dejemos que los datos hablen por sí mismos. Al seguir esta afirmación engañosa, la NHST acaba cometiendo la falacia del fiscal, como demostraremos en el Capítulo 4.

La definición de objetividad de NHST nos exigiría tocar el fuego en todas partes y cada vez que lo encontremos, porque no podemos incorporar nuestro conocimiento previo de lo que sentimos en situaciones similares en el pasado. Ésa es la definición de estupidez, no de objetividad. En el Capítulo 4, hablaremos de cómo y por qué varios metaestudios han demostrado que la mayoría de los resultados publicados de la investigación médica basados en la TSMH son falsos. Sí, has leído bien, y ha sido un secreto a voces desde un artículo seminal publicado en 2005.13

Afortunadamente, en este libro no tenemos que gastar mucha tinta ni píxeles en este argumento engañoso sobre la objetividad ni en la proliferación de ciencia basura producida por la NHST. Los sistemas ML probabilísticos proporcionan un marco matemáticamente riguroso para incorporar el conocimiento previo y actualizarlo adecuadamente con los aprendizajes de la nueva información. La representación del conocimiento previo se hace explícitamente para que cualquiera pueda cuestionarlo o cambiarlo. Ésta es la esencia del aprendizaje y la base del método científico.

Una de las implicaciones importantes de los teoremas del no almuerzo gratis (NFL) es que el conocimiento previo del dominio es necesario para optimizar el rendimiento de un algoritmo para un dominio de problemas específico. Si no aplicamos nuestro conocimiento previo del dominio, el rendimiento de nuestro algoritmo no sesgado no será mejor que el de las conjeturas aleatorias cuando se promedian en todos los dominios de problemas. No existe la comida gratis, especialmente en las finanzas y la inversión. Discutiremos los teoremas de la NFL en detalle en el próximo capítulo.

Es sabido que la integración del conocimiento institucional acumulado en la organización, los procesos y los sistemas de una empresa conduce a una ventaja competitiva sostenible en los negocios. Además, los conocimientos personales y la experiencia con los mercados pueden conducir al "alfa", o la generación de rendimientos excepcionales en el comercio y la inversión, para el gestor de fondos que llega a un punto de vista subjetivamente diferente del resto de la multitud. Así es como Warren Buffet, uno de los mayores inversores de todos los tiempos, hizo su inmensa fortuna. Los mercados se burlan de las definiciones dogmáticas y poco realistas de la objetividad con pérdidas de beneficios y, finalmente, con la ruina financiera.

Inferencia de parámetros

Casi todos los sistemas de ML convencionales utilizan metodologías estadísticas igualmente convencionales, como los valores p y los intervalos de confianza, para estimar la incertidumbre de los parámetros de un modelo. Como se explicará en el Capítulo 4, se trata de metodologías estadísticas profundamente viciadas -casi escandalosas- que plagan las ciencias sociales, incluidas las finanzas y la economía. Estas metodologías se adhieren a una piadosa pretensión de objetividad y a supuestos implícitos y poco realistas, ofuscados por una jerga estadística inescrutable, con el fin de generar soluciones que sean analíticamente manejables para un pequeño conjunto de escenarios.

El ML probabilístico se basa en una definición sencilla e intuitiva de la probabilidad como lógica, y en el cálculo riguroso de la teoría de la probabilidad en general y de la regla de la probabilidad inversa en particular. En el capítulo siguiente, mostramos cómo la regla de la probabilidad inversa -conocida errónea y mortificantemente como teorema de Bayes- es una reformulación trivial de la regla del producto. Es una tautología lógica vergonzosamente fácil de demostrar. No merece llamarse teorema, dado lo terriblemente difícil que es deducir la mayoría de los teoremas matemáticos.

Sin embargo, debido a la constante normalizadora de la fórmula de inversión, antes era imposible invertir las probabilidades analíticamente, salvo para problemas sencillos. Con el reciente avance de los algoritmos numéricos más avanzados, como el Monte Carlo Hamiltoniano y la inferencia variacional de diferenciación automática, los sistemas ML probabilísticos son ahora capaces de invertir probabilidades para calcular estimaciones de parámetros de modelos a partir de datos en la muestra para casi cualquier problema del mundo real. Y lo que es más importante, son capaces de cuantificar las incertidumbres de los parámetros con intervalos creíbles matemáticamente sólidos para cualquier nivel de confianza. Esto permite la propagación inversa de la incertidumbre.

Conjuntos Generativos

Casi todos los sistemas ML convencionales se basan en modelos discriminativos. Este tipo de modelo estadístico sólo aprende un límite de decisión a partir de los datos de la muestra, pero no cómo se distribuyen estadísticamente los datos. Por lo tanto, los sistemas ML discriminatorios convencionales no pueden simular nuevos datos ni cuantificar la incertidumbre total de la salida.

Los sistemas ML probabilísticos se basan en modelos generativos. Este tipo de modelo estadístico aprende la estructura estadística de la distribución de los datos, por lo que puede simular fácilmente y sin problemas nuevos datos, incluso generar datos que podrían faltar o estar corruptos. Además, la distribución de los parámetros genera un conjunto de modelos. Y lo que es más importante, estos sistemas son capaces de simular una incertidumbre de salida bidimensional basada en la variabilidad de los datos y la incertidumbre de los parámetros de entrada, cuyas distribuciones de probabilidad han aprendido previamente a partir de los datos de la muestra. Esto permite sin problemas la propagación de la incertidumbre hacia delante.

Conciencia de incertidumbre

Al calcular las probabilidades, un sistema ML convencional de utiliza el método de estimación de máxima verosimilitud (MLE). Esta técnica optimiza los parámetros de una distribución de probabilidad supuesta de forma que los datos de la muestra tengan la mayor probabilidad de ser observados, dadas las estimaciones puntuales de los parámetros del modelo. Como veremos más adelante en el libro, el MLE conduce a inferencias y predicciones erróneas cuando los datos son escasos, algo habitual en las finanzas y la inversión, sobre todo cuando un régimen de mercado cambia bruscamente.

Lo peor es que estos sistemas ML basados en MLE atribuyen probabilidades terriblemente altas a estas estimaciones erróneas. Estamos automatizando el exceso de confianza de sistemas potentes que carecen de sentido común básico. Esto hace que los sistemas ML convencionales sean potencialmente arriesgados y peligrosos, sobre todo cuando los utiliza en operaciones de misión crítica personal que, o bien no entiende los fundamentos de estos sistemas ML, o bien tiene una fe ciega en ellos.

Los sistemas ML probabilísticos no se basan en una única estimación puntual, por muy probable u óptima que sea, sino en una media ponderada de todas las estimaciones posibles de la distribución de probabilidad completa de un parámetro. Además, la incertidumbre de estas estimaciones aumenta adecuadamente cuando los sistemas tratan con clases de datos que nunca han visto antes en el entrenamiento, o están extrapolando más allá de los rangos de datos conocidos. A diferencia de los sistemas basados en MLE, los sistemas ML probabilísticos saben lo que no saben. Esto hace que la cuantificación de la incertidumbre sea honesta y evita el exceso de confianza en las estimaciones y predicciones.

Resumen

La economía no es una ciencia predictiva precisa como la física. Ni de lejos. Así que no finjamos lo contrario y tratemos las teorías y modelos académicos de la economía como si fueran modelos de física cuántica, a pesar de las matemáticas ofuscantes.

Todos los modelos financieros, ya se basen en teorías académicas o en estrategias de ML, están a merced de la trifecta de errores de modelización. Aunque este trío de errores puede mitigarse con herramientas adecuadas, como los sistemas de ML probabilístico, no puede eliminarse. Siempre habrá asimetría de información y sesgos cognitivos. Los modelos de valores y riesgos de los activos cambiarán con el tiempo debido a la naturaleza dinámica del capitalismo, el comportamiento humano y la innovación tecnológica.

Las tecnologías de ML probabilístico se basan en una definición sencilla e intuitiva de la probabilidad como lógica y en el cálculo riguroso de la teoría de la probabilidad. Permiten la integración explícita y sistemática de conocimientos previos que se actualizan continuamente con nuevos aprendizajes.

Estos sistemas tratan las incertidumbres y los errores de los sistemas financieros y de inversión como características, no como fallos. Cuantifican la incertidumbre generada por las entradas, parámetros y salidas inexactas de los sistemas financieros y de inversión como distribuciones de probabilidad, no como estimaciones puntuales. Esto hace que las inferencias y predicciones financieras sean realistas y útiles para la toma de decisiones y la gestión del riesgo. Y lo que es más importante, estos sistemas son capaces de avisarnos cuando sus inferencias y predicciones dejan de ser útiles en el entorno actual del mercado.

Hay varias razones por las que el ML probabilístico es el marco y la tecnología de ML de próxima generación para los sistemas financieros y de inversión potenciados por IA. Su marco probabilístico se aleja de las metodologías estadísticas defectuosas (NHST, valores p, intervalos de confianza) y de la restrictiva visión convencional de la probabilidad como frecuencia límite. Nos acerca a una visión intuitiva de la probabilidad como lógica y a un marco estadístico matemáticamente riguroso que cuantifica la incertidumbre de forma holística y satisfactoria. Por tanto, nos permite alejarnos de los modelos analíticos del pasado, erróneos e idealistas, y acercarnos a modelos numéricos del futuro, menos erróneos y más realistas.

Los algoritmos utilizados en la programación probabilística se encuentran entre los más sofisticados del mundo de la IA, en los que profundizaremos en la segunda mitad del libro. En los tres capítulos siguientes, profundizaremos en por qué es muy arriesgado desplegar tu capital utilizando sistemas de ML convencionales, porque se basan en métodos probabilísticos y estadísticos ortodoxos que son escandalosamente erróneos.

Referencias

Géron, Aurélien. "El panorama del aprendizaje automático". En Aprendizaje automático práctico con Scikit-Learn, Keras y TensorFlow, 1-34. 3ª ed. O'Reilly Media, 2022.

Hayek, Friedrich von. "Discurso en el Banquete". Discurso pronunciado en el Banquete Nobel, Estocolmo, Suecia, 10 de diciembre de 1974. Nobel Prize Outreach AB, 2023, https://www.nobelprize.org/prizes/economic-sciences/1974/hayek/speech/.

Ioannidis, John P. A. "Por qué la mayoría de los resultados de investigación publicados son falsos". PLOS Medicine 2, nº 8 (2005): e124. https://doi.org/10.1371/journal.pmed.0020124.

Offer, Avner, y Gabriel Söderberg. El Factor Nobel: El Premio de Economía, la Socialdemocracia y el Giro del Mercado. Princeton, NJ: Princeton University Press, 2016.

Orrell, David, y Paul Wilmott. La fórmula del dinero: Dodgy Finance, Pseudo Science, and How Mathematicians Took Over the Markets. West Sussex, Reino Unido: Wiley, 2017.

Sekerke, Matt. Gestión Bayesiana del Riesgo. Wiley, 2015.

Simons, Katerina. "Error de modelo". Revista Económica de Nueva Inglaterra (noviembre de 1997): 17-28.

Thompson, J. R., L.S. Baggett, W. C. Wojciechowski y E. E. Williams. "Nobels por tonterías". Journal of Post Keynesian Economics 29, nº 1 (otoño de 2006): 3-18.

Otras lecturas

Jaynes, E. T. Teoría de la Probabilidad: La Lógica de la Ciencia. Nueva York: Cambridge University Press, 2003.

López de Prado, Marcos. Avances en Aprendizaje Automático Financiero. Hoboken, Nueva Jersey: Wiley, 2018.

Taleb, Nassim Nicholas. Engañados por el azar: El papel oculto del azar en la vida y en los mercados. Nueva York: Random House Trade, 2005.

1 David Orrell y Paul Wilmott, "Going Random", en The Money Formula: Dodgy Finance, Pseudo Science, and How Mathematicians Took Over the Markets (West Sussex, Reino Unido: Wiley, 2017).

2 Avner Offer y G. Söderberg, El factor Nobel: The Prize in Economics, Social Democracy, and the Market Turn (Princeton, NJ: Princeton University Press, 2016).

3 Friedrich von Hayek, "Discurso en el banquete", Presentación del Premio Nobel AB, 2023, https://www.nobelprize.org/prizes/economic-sciences/1974/hayek/speech.

4 David Orrell y Paul Wilmott, "Early Models", en The Money Formula: Dodgy Finance, Pseudo Science, and How Mathematicians Took Over the Markets (West Sussex, Reino Unido: Wiley, 2017).

5 J. R. Thompson, L.S. Baggett, W. C. Wojciechowski y E. E. Williams, "Nobels For Nonsense", Journal of Post Keynesian Economics 29, nº 1 (otoño de 2006): 3-18.

6 Orrell y Wilmott, La fórmula del dinero.

7 Adaptado de una imagen de Wikimedia Commons.

8 Orrell y Wilmott, La fórmula del dinero; M. Sekerke, Gestión bayesiana del riesgo (Hoboken, NJ: Wiley, 2015); J. R. Thompson, L. S. Baggett, W. C. Wojciechowski y E. E. Williams, "Nobels for Nonsense", Journal of Post Keynesian Economics 29, nº 1 (otoño de 2006): 3-18; y Katerina Simons, "Error de modelo", New England Economic Review (noviembre de 1997): 17-28.

9 Orrell y Wilmott, The Money Formula; Sekerke, Bayesian Risk Management; y Thompson, Baggett, Wojciechowski y Williams, "Nobels for Nonsense".

10 Orrell y Wilmott, La fórmula del dinero; Sekerke, Gestión bayesiana del riesgo; y Thompson, Baggett, Wojciechowski y Williams, "Nobels por tonterías".

11 Sekerke, Gestión Bayesiana del Riesgo.

12 Aurélien Géron, "The Machine Learning Landscape", en Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 3ª edición (O'Reilly Media, 2022), 1-34.

13 Se trata de John P. A. Ioannidis, "Why Most Published Research Findings Are False", PLOS Medicine 2, nº 8 (2005): e124, https://doi.org/10.1371/journal.pmed.0020124. Véase también Julia Belluz, "This Is Why You Shouldn't Believe That Exciting New Medical Study," Vox, 27 de febrero de 2017, https://www.vox.com/2015/3/23/8264355/research-study-hype.

Get Aprendizaje Automático Probabilístico para Finanzas e Inversión now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.