¡El tiempo mató a mi modelo ML!

Published: April 22, 2026

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

Todos hemos escuchado la estadística de que el 90%, el 88%, 87%, 85% o un porcentaje alocado de modelos ML que nunca llegan a la producción. Para ser honesto, no tengo ni idea de cómo alguien calculó esto y estoy igual de perplejo como es esta persona. Pero eso no viene al caso. Idealmente, ese número importa mucho menos que por qué muchas empresas luchan por obtener valor empresarial del aprendizaje automático- ¡todavía!

Para entender esto, mantuvimos conversaciones de 1 hora con más de 200 personas en un entorno individual para entender el flujo de trabajo de creación de modelos de aprendizaje automático, que incluye: crear requisitos empresariales, traducción a sprints, recopilación de datos, creación de modelos, preparación para la producción, implementación, reentrenamiento, pruebas A/B, depuración, monitoreo, observabilidad etc. y cierra el ciclo desde cualquier paso hacia atrás hasta cualquier paso de esta secuencia. ¡Esto incluye diversas perspectivas de líderes empresariales, líderes de ingeniería, gerentes de productos, científicos de datos, DevOps, ingenieros de datos e ingenieros de aprendizaje automático! Tras estas conversaciones cualitativas, también realizamos una encuesta objetiva para tener una idea más amplia de los problemas actuales, cuyos resultados se pueden encontrar aquí.

Si bien el aprendizaje automático aplicado es un campo relativamente nuevo y existen problemas en prácticamente todas las partes del proceso, de nuestras conversaciones surgió un tema resonante y destacado:

El tiempo transcurrido entre cada paso de la creación y el lanzamiento de modelos de aprendizaje automático reduce la confianza y la moral de los equipos de ingeniería y liderazgo, ¡lo que mata a los modelos de aprendizaje automático!

En el mundo del software, estamos acostumbrados a tomar decisiones basadas en datos. Queremos obtener resultados rápidamente, realizar pruebas A/B, justificar los costos y, si un proyecto no genera un ROI suficiente en un razonable tiempo: nos enseñan a dispararle en la cabeza. ¿Y tiempo ¡es algo que el aprendizaje automático requiere mucho! Esto es cierto para las empresas de todo el espectro, aunque por diferentes razones:

Startups en fase inicial (desde la fase inicial hasta la Serie C)
Gigantes tradicionales como Walgreens, Target, Siemens
Gigantes tecnológicos como Uber, Amazon, Netflix, etc.

Estudiemos esto en detalle.

Startups en fase inicial

A menudo, la creación e implementación de canalizaciones de aprendizaje automático requieren un conjunto de habilidades variadas:

Comprender los casos de uso empresarial, por lo general, los gerentes de producto
Canalizaciones de registro y procesamiento de datos, normalmente ingenieros de datos
Experimentación y construcción de modelos, normalmente científicos de datos
Creación de API de inferencia e implementación, normalmente ingenieros de ML
Modele las canalizaciones de escalado, puesta en escena y producción, por lo general, un equipo de DevOps
Marcos de pruebas A/B, monitoreo y observabilidad, canalizaciones de reentrenamiento

Con mucha frecuencia, las empresas emergentes no tienen los recursos para contratar a diferentes personas para cubrir todo el espectro de habilidades. Las empresas emergentes creen ingenuamente que pueden contratar a una o dos personas realmente inteligentes que lo hubieran hecho ¿Estuvo allí? ¿Hizo eso? y pueden resolver todos los problemas anteriores, ¡pero no se dan cuenta de que esas criaturas míticas no existen realmente fuera de los sueños del fundador!

Al final, el científico de datos o ingeniero de aprendizaje automático que haya sido contratado trata de cumplir con el dicho común: «en una startup, haces lo que sea necesario para hacer las cosas». Sin embargo, la curva de aprendizaje de las tecnologías del sector (que está cambiando rápidamente) es muy pronunciada y acaba acabando tardando mucho para aprender e implementar cada una de estas diferentes partes. Naturalmente, los oleoductos construidos por este novato no suelen ser infalibles y comienzan a romperse en diferentes puntos, lo que da inicio a una secuencia de proyectos en mosaico: ¡una razón clásica para agotar los recursos de ingeniería! En este punto, el frustrado fundador toma una dura decisión:»Muy bien, todavía no estamos preparados para el aprendizaje automático. Construyamos un sistema simple, fácil de mantener y basado en reglas que simplemente funcione, de vuelta a lo básico¡Sí!»

Gigantes tradicionales como Walgreens y Target

En las grandes empresas, la razón por la que los modelos de aprendizaje automático terminan llevando demasiado tiempo es tanto organizativa (o incluso más) como técnica. Por lo general, algún usuario empresarial (por ejemplo, un miembro de un equipo de ventas o de atención al cliente) responde a la llamada de un cliente y se le ocurre una idea para un proyecto de aprendizaje automático. Esto incluye las traducciones realizadas por los gerentes de producto, la asignación de recursos y las reuniones de planificación de sprints antes de que finalmente llegue a manos de un científico de datos. Supongamos que esta idea es una de las más sencillas en las que la organización ya dispone de los datos necesarios para incorporarlos al modelo (por ejemplo, el flujo de clics de los usuarios).

Luego, el científico de datos crea el modelo, pero no tiene forma de obtener comentarios rápidos del usuario empresarial porque:

El portátil es demasiado técnico para la gente de negocios
Los resultados almacenados en hojas de Excel no son interactivos
Por lo general, los científicos de datos no tienen las habilidades necesarias para alojar rápidamente el modelo y exponer una API.

Sin los comentarios del usuario empresarial, ¿cómo sabe el DS?

¿Su modelo resuelve el problema que solicitó el usuario empresarial o la intención se perdió en la traducción?
¿Están incumpliendo algunas condiciones límite críticas que, de no cumplirse, enfurecerían al cliente?
¿Utilizan alguna fuente de datos que pueda introducir sesgos en el modelo o dañar negativamente a algún segmento de usuarios?

Incluso si todo lo anterior coincide, ¿quién sabe con certeza si el presentimiento inicial del usuario empresarial era correcto? La opinión final solo provendría del usuario final. Pero, ¿cómo se consigue que el modelo llegue al usuario final?

Sí, lo has adivinado correctamente: necesitas involucrar al equipo de ingeniería y producto. Se volverán a celebrar reuniones de asignación de recursos, se planificarán los sprints y, finalmente, el modelo se integrará en el producto. Esto puede llevar meses y, para entonces, ¡el usuario empresarial podría darse cuenta de que la prioridad del producto ha cambiado! Y luego llega la terrible declaración:»No tiene sentido invertir más recursos en este proyecto, ¡no pongamos dinero bueno tras dinero malo!»

Gigantes tecnológicos como Uber y Amazon

No hace falta decir que estas empresas son las más avanzadas y, con mucha frecuencia, no tardan unos meses en lanzar los modelos ML a la producción. Pero no es algo inaudito, incluso en el caso de estas importantes empresas. Y tienen un problema muy singular en este contexto.

Con mucha frecuencia, los grandes gigantes tecnológicos crean su propia plataforma mLOps que hace de todo, desde la creación de almacenes de funciones hasta la implementación de algoritmos, la gestión de dependencias, el despliegue, la inferencia de modelos y más. Crear plataformas tan genéricas que funcionen en todos los casos de uso es un difícil problema de ingeniería y estos sistemas terminan partiendo de suposiciones del tipo:

Estas son las bibliotecas más comunes que esperamos que usen los científicos de datos
Mientras los científicos de datos utilicen algoritmos «listos para usar», todo funcionará a la perfección, pero si quieren desarrollar su propio modelo, deberán seguir los pasos X, Y y Z.

Examinemos estas suposiciones y deduzcamos que estas suposiciones no son prácticas: los algoritmos y el conjunto de herramientas de ML mejoran constantemente y se necesitan soluciones de vanguardia para los problemas de vanguardia en los que están trabajando estas empresas. Esto significa que cuanto más se esfuerce la empresa por hacer un uso intensivo del aprendizaje automático, ¡más necesitará soluciones personalizadas y mayor será la necesidad de recurrir a recursos de ingeniería especializados!

Por esta misma razón, con mucha frecuencia, los equipos de ciencia de datos se conforman con soluciones listas para usar que tienen un enorme costo de oportunidad. Si el científico de datos o la empresa deciden optar por el camino más difícil, es decir, hacer avanzar su plataforma y permitir la creación de soluciones avanzadas personalizadas, adivine qué, tiene que presentar un argumento empresarial, obtener los recursos adecuados y hablar con personas de muchas organizaciones. Ya sea que esto redunde en una mejora de la plataforma o no, ¡no cabe duda de que esto añade retrasos!

Y si después de muchas de estas inversiones, las cosas no salen según lo planeado, cuando se lanzan al usuario, hay un refuerzo para tomar la ruta más fácil y lista para el próximo proyecto.

Conclusión y próximos pasos

Este tema de la toma de modelos de aprendizaje automático»demasiado tiempo» por diversas razones, salió con crudeza en todas nuestras conversaciones con los usuarios.

Una startup que no cuenta con todos los recursos humanos y el conjunto de herramientas y que no tiene demasiado tiempo para iterar y encontrar la solución óptima: ¡conformarse con sistemas basados en reglas al eliminar proyectos de aprendizaje automático!
Las grandes empresas tradicionales con desafíos organizativos descartan los proyectos de aprendizaje automático porque tardaron demasiado en hacerse realidad y, con frecuencia, no logran generar un impacto empresarial justificable.
Empresas de tecnología moderna con Plataformas MLOps optimizados para la producción, pero no tanto para la experimentación abierta, terminan conformándose con algoritmos y bibliotecas compatibles «listos para usar». De lo contrario, utilizar todo el potencial del aprendizaje automático llevará demasiado tiempo.

Nos sorprendió ver este tema común en un espectro tan amplio de empresas:

Los modelos de aprendizaje automático llevan demasiado tiempo y retrasan los ciclos de impacto empresarial y retroalimentación es una de las principales razones por las que muchos modelos de aprendizaje automático no ven la luz.

Creemos que si podemos habilitar una solución que permita una comunicación fluida entre los usuarios empresariales y los científicos de datos y que los consumidores nos envíen comentarios rápidos para verificar el impacto empresarial antes de gastar una gran cantidad de recursos organizativos en soluciones de aprendizaje automático, aumentaremos la confianza y la inversión en el aprendizaje automático, y también haremos que esas inversiones sean mucho más fructíferas.

Aún no pretendemos tener una solución completa al problema, pero estamos trabajando en ello. Estamos hablando con personas inteligentes y descubriendo cómo podemos aliviar, si no resolver por completo, este problema.

Creemos firmemente que un problema tan grande requiere que se unan diversas perspectivas. Si te identificas con este problema, tienes ideas que compartir, tienes ideas sobre cómo resolver el problema o quieres escuchar nuestras ideas, te invitamos a que comentes o vengas a hablar con nosotros.

Me pueden contactar personalmente en: nikunjbjj@gmail.com. Y aquí está el LinkedIn para mí y mis cofundadores:

Este blog se publicó por primera vez en Medium en https://medium.com/@nikunjbajaj/time-killed-my-ml-model-48521fad6c4 el 30 de agosto de 2021

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora