Capítulo 10. Escalado centrado en los datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Las Partes I y II de este libro tratan sobre el hardware, el software y las técnicas algorítmicas para escalar tu carga de trabajo relacionada con el desarrollo de modelos. La Parte III se centra en los datos, el diseño, los procesos y otras consideraciones específicas de la aplicación necesarias para escalar eficazmente. Como se ha comentado en los Capítulos 1 y 2, los datos han impulsado el éxito del aprendizaje profundo durante más de dos décadas, y existe la creencia arraigada de que aumentar el tamaño del conjunto de datos de entrenamiento seguirá mejorando el rendimiento del modelo.1 Se ha dicho que los datos son el petróleo del siglo XXI, y al igual que el petróleo, los datos poseen características que pueden impulsar la innovación, siempre que se utilicen y preparen con cuidado. Se trata de un verdadero reto, como ha confirmado la Encuesta sobre el Estado de la Infraestructura de la IA en 2023,2 que sitúa los datos entre los tres mayores retos de desarrollo a los que se enfrentan las organizaciones (junto con la infraestructura y la informática). Según esta encuesta, dos de cada cinco organizaciones que practican la IA identifican los datos como el mayor problema en el desarrollo de la IA.

La importancia de la curación de datos queda patente en el éxito de ChatGPT, que se ha convertido en un modelo muy influyente ...

Get Aprendizaje profundo a escala now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.