True ML Talks #16: Proceso de aprendizaje automático @ Digits

Por TrueFoundry

Published: April 22, 2026

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

Casos de uso de ML en dígitos

Digits es una empresa de software de gestión financiera que utiliza inteligencia artificial para automatizar las tareas de contabilidad de los operadores. Al automatizar tareas como la clasificación de transacciones, la detección de valores atípicos y la detección de fraudes, Digits ayuda a los operadores a duplicar su base de clientes y a mejorar el tiempo de respuesta a los clientes.

Incorporación de clientes: Digits utiliza la IA para ayudar a los nuevos clientes a configurar sus cuentas y conectar sus cuentas bancarias de forma rápida y sencilla.
Clasificación de transacciones: Digits utiliza la inteligencia artificial para clasificar automáticamente las transacciones, lo que ahorra tiempo a los contadores y garantiza una categorización precisa.
Detección de valores atípicos: Digits utiliza la inteligencia artificial para detectar valores atípicos en las transacciones, lo que ayuda a los contadores a identificar e investigar rápidamente las transacciones inusuales.
Informes: Digits proporciona a los contadores una variedad de informes generados con inteligencia artificial para ahorrar tiempo y obtener la información que necesitan rápidamente.

Modelos ML utilizados por Digits:

Modelos de clasificación: Clasifique las transacciones en diferentes categorías, como comidas, viajes e inventario.
Modelos de predicción: Prediga los resultados futuros, como la pérdida de clientes y el fraude.
Modelos generativos: Genere texto, como preguntas para hacer a los clientes y mensajes para enviarlos.
Modelos basados en similitudes: Encuentre patrones similares en las transacciones e imite esos patrones.

Aprendizaje automático en Digits

Digits necesitaba pasar a modelos de aprendizaje profundo y PNL para abordar los desafíos de la subjetividad contable. Además, Digits tenía una base sólida en ingeniería de datos y Kubernetes, lo que sería esencial para crear y escalar una plataforma de aprendizaje automático exitosa.

El equipo comenzó con la introducción de TFX para la orquestación de canalizaciones de ML y TF Serving para el servicio de modelos. Esto permitió a Digits crear e implementar modelos de aprendizaje automático de forma escalable y fiable.

A continuación, el equipo se centró en desarrollar oleoductos basados en la similitud. Estas canalizaciones pueden clasificar con precisión las transacciones e identificar valores atípicos, incluso cuando los datos son ambiguos o están incompletos. Esto se debe a que las canalizaciones basadas en la similitud encuentran patrones similares en las transacciones e imitan esos patrones. Este enfoque es más efectivo que el uso de modelos globales de aprendizaje automático, que pueden arrojar resultados inconsistentes según la interpretación de los datos por parte del contador.

Las canalizaciones de aprendizaje automático de Digits ahora se utilizan para impulsar una variedad de funciones, como la clasificación de transacciones, la detección de valores atípicos y la detección de fraudes. Como resultado, Digits puede ofrecer a sus clientes información valiosa y ayudarlos a automatizar las tareas, mejorar la precisión y ahorrar dinero.

Cómo organizar el entrenamiento de ML en Kubernetes

El enfoque de Digits para la formación en aprendizaje automático está bien organizado y es eficiente. El uso de Kubernetes para la orquestación permite a Digits ampliar o reducir sus operaciones de entrenamiento según sea necesario. El uso de TensorFlow Transform para el preprocesamiento y la plataforma de formación en los proyectos de Google Cloud proporcionan a Digits las herramientas y los recursos que necesita para entrenar modelos complejos de forma rápida y eficiente. El uso de un conjunto de validación y un registro de modelos garantiza que Digits envíe modelos de alta calidad a la fase de producción.

Digits organiza el entrenamiento de aprendizaje automático en Kubernetes mediante los siguientes pasos:

Proceso ETL: Digits utiliza un proceso ETL para recopilar artefactos de todo el sistema y arrancar conjuntos de datos de forma continua.
Validación de datos y creación de esquemas: Los dígitos validan las estadísticas de los conjuntos de datos y crean esquemas.
Preprocesamiento: Digits usa TensorFlow Transform para preprocesar los datos.
Entrenamiento: Digits entrena los modelos en los proyectos de Google Cloud mediante la plataforma de formación.
Evaluación: Digits evalúa los modelos entrenados mediante un conjunto de validación.
Registro de modelos: Digits envía los modelos entrenados a un registro de modelos.
Despliegue: Digits utiliza un sistema de CI/CD para implementar los modelos entrenados en la producción.

Gestión de la asignación de recursos de GPU en el entrenamiento de ML en Digits

En el ámbito de la asignación de recursos de GPU para el entrenamiento de aprendizaje automático, Digits emplea un enfoque integral que incluye procedimientos manuales y automatizados. Esta estrategia abarca:

Procesos manuales: Digits establece límites claros de uso de la GPU para que los equipos y proyectos mantengan una asignación equitativa y eviten la sobreutilización. Además, promueve la comunicación abierta entre los ingenieros de aprendizaje automático, lo que fomenta el conocimiento de los recursos y mitiga los conflictos.

Procesos automatizados: Digits mantiene la vigilancia mediante la supervisión continua del uso de la GPU, emitiendo alertas oportunas en caso de que el uso supere los umbrales predefinidos para facilitar la identificación y resolución tempranas de los problemas. Un sistema de colas garantiza una asignación justa de las GPU, según el orden de llegada.

Mejores prácticas: Digits alienta a los ingenieros de aprendizaje automático a planificar el uso de la GPU de forma proactiva, garantizando la disponibilidad de los recursos y la minimización de los conflictos. El aprovechamiento de los recursos de la nube proporciona flexibilidad y garantiza un acceso adecuado a la GPU incluso durante los períodos de alta demanda. Promover la transparencia en el uso de la GPU fomenta la confianza y la cooperación entre los miembros del equipo y, en última instancia, mejora la administración de los recursos.

Uso del generador de perfiles de TensorFlow para entrenar el análisis de carreras en Digits

En Digits, TensorFlow Profiler ocupa un lugar central en el análisis de las ejecuciones de entrenamiento y proporciona información valiosa para optimizar los modelos de aprendizaje automático:

Digits registra de manera diligente cada entrenamiento realizado a través de TensorFlow Profiler, lo que permite rastrear las tendencias de rendimiento a lo largo del tiempo.

Las métricas vitales, incluida la duración del entrenamiento, el consumo de memoria y la precisión, son meticulosamente rastreado, lo que facilita comparaciones de rendimiento significativas en diversos modelos y configuraciones.

TensorFlow Profiler dota a Digits de la capacidad de comparar sistemáticamente el rendimiento de varias sesiones de entrenamiento, lo que ayuda a seleccionar con prudencia el modelo y la configuración más adecuados para abordar dominios problemáticos específicos.

Ventajas:

Rendimiento mejorado: TensorFlow Profiler identifica y aborda los cuellos de botella en el rendimiento, lo que lleva a mejoras significativas en la velocidad y precisión del entrenamiento.
Reducción de costos: La mejora del rendimiento de la capacitación reduce el costo total de la capacitación en modelos de aprendizaje automático para Digits.
Mayor transparencia: La información detallada sobre el rendimiento proporcionada por TensorFlow Profiler mejora la comprensión de Digits sobre el entrenamiento con modelos de aprendizaje automático y ayuda a identificar posibles problemas desde el principio.

Optimización de conjuntos de validación para canalizaciones de aprendizaje automático basadas en similitudes

Al crear conjuntos de validación para canalizaciones de aprendizaje automático basadas en similitudes, tenga en cuenta estos factores clave:

Objetivo: Defina el objetivo del modelo: ¿qué constituye la similitud entre los puntos de datos? Una vez que este objetivo esté claro, el conjunto de validación se puede completar con ejemplos conocidos similares y diferentes.
Contexto: El conjunto de validación debe reflejar la aplicación real del modelo. Por ejemplo, si el modelo recomienda productos a los clientes, debe incluir los artículos que los clientes suelen comprar juntos.
Talla: Logre un equilibrio: su conjunto de validación debe ser estadísticamente significativo pero manejable. Una pauta general es que sea al menos el 10% del tamaño del conjunto de entrenamiento.
Variabilidad: Para reforzar la solidez del modelo, asegúrese de que su conjunto de validación abarque diversos puntos de datos.
Impacto de los operadores: El número de operadores puede sesgar el conjunto de validación hacia industrias específicas. Para mitigar este problema, incorpore ejemplos de varios sectores y sectores verticales.

Desafíos y optimizaciones de las canalizaciones de aprendizaje automático basadas en similitudes

Las canalizaciones de aprendizaje automático basadas en la similitud presentan una serie de desafíos y optimizaciones únicos, en comparación con las canalizaciones de aprendizaje automático tradicionales.

Desafíos:

Selección de una función de pérdida: Hay una variedad de funciones de pérdida diferentes que se pueden usar para modelos de aprendizaje automático basados en similitudes. Elegir la función de pérdida correcta es importante para garantizar la precisión y confiabilidad del modelo.
Estructuración de los datos de entrenamiento: La forma en que se estructuran los datos de entrenamiento depende de la función de pérdida elegida. Es importante estructurar los datos de entrenamiento de manera eficiente y efectiva.
Optimización del rendimiento: Los modelos de aprendizaje automático basados en similitudes pueden resultar costosos desde el punto de vista computacional. Es importante optimizar el proceso de entrenamiento para mejorar el rendimiento.

Optimizaciones:

Usa una GPU: Las GPU pueden acelerar significativamente el entrenamiento de modelos de aprendizaje automático basados en similitudes.
Haz un perfil del modelo: La elaboración de perfiles del modelo durante la capacitación puede ayudar a identificar los cuellos de botella y las áreas en las que se puede mejorar el proceso de capacitación.
Preprocese los datos: El preprocesamiento de los datos puede mejorar el rendimiento del modelo y reducir el tiempo de entrenamiento.
Reduzca los tokens de entrada: Si usa un modelo de lenguaje, reducir la cantidad de tokens de entrada puede mejorar el rendimiento del modelo y reducir el tiempo de entrenamiento.

Digits usa TensorFlow Extended y Vertex AI Pipelines para canalizaciones de aprendizaje automático basadas en similitudes

Digits usa TensorFlow Extended (TFX) y Vertex AI Pipelines para canalizaciones de aprendizaje automático basadas en similitudes. TFX es una plataforma integral de código abierto desarrollada por Google para crear, implementar y administrar canalizaciones de aprendizaje automático. Vertex AI Pipelines es un servicio en la nube totalmente gestionado para gestionar las canalizaciones de aprendizaje automático.

TFX proporciona una serie de componentes que son útiles para crear canalizaciones de aprendizaje automático basadas en la similitud, que incluyen:

Validación de datos TFX: Valida la calidad y la coherencia de los datos de entrenamiento.
Transformación TFX: Preprocesa los datos de entrenamiento, incluida la gestión de los valores faltantes, la conversión de los tipos de datos y el escalado de las funciones.
Análisis del modelo TFX: Evalúa el rendimiento de los modelos entrenados en un conjunto de validación retenido.
Servicio TFX: Implementa modelos entrenados en la producción.

Vertex AI Pipelines facilita la ejecución y la gestión de las canalizaciones TFX a escala. Vertex AI Pipelines ofrece una serie de funciones que son útiles para las canalizaciones de aprendizaje automático basadas en la similitud, entre las que se incluyen:

Escalado automático: Vertex AI Pipelines puede escalar automáticamente los recursos utilizados para ejecutar las canalizaciones, en función de la demanda.
Supervisión y alertas: Vertex AI Pipelines proporciona funciones de monitoreo y alerta que pueden ayudar a identificar y resolver problemas con las tuberías.
Control de versiones: Vertex AI Pipelines proporciona funciones de control de versiones que facilitan el seguimiento y la gestión de los cambios en las canalizaciones.

Digits utiliza Vertex Endpoints para el registro de modelos y TF Serving para la producción

Digits usa Vertex Endpoints para el registro de modelos y TF Serving para la producción.

Vertex Endpoints es un servicio en la nube totalmente gestionado para implementar y gestionar modelos de aprendizaje automático. Proporciona una serie de funciones que lo convierten en una buena opción para el registro de modelos, entre las que se incluyen:

Administración centralizada: Vertex Endpoints proporciona un lugar central para almacenar y administrar modelos.
Control de versiones: Vertex Endpoints proporciona funciones de control de versiones que facilitan el seguimiento y la administración de los cambios en los modelos.
Control de acceso: Vertex Endpoints proporciona funciones de control de acceso que facilitan el control de quién puede acceder a los modelos e implementarlos.

TF Serving es un sistema de servicio TensorFlow de alto rendimiento y listo para la producción. Proporciona una serie de funciones que lo convierten en una buena opción para la producción, que incluyen:

Alto rendimiento: TF Serving puede atender modelos con alto rendimiento y baja latencia.
Escalabilidad: El servicio TF se puede escalar para gestionar un gran número de solicitudes.
Fiabilidad: TF Serving está diseñado para ser confiable y estar listo para la producción.

Digits usa CI/CD para automatizar la implementación de modelos en Vertex Endpoints. Cuando se registra un modelo en el registro de modelos, se activa el sistema CI/CD. A continuación, el sistema CI/CD crea un modelo de servicio TF y lo implementa en un Vertex Endpoint.

Ventajas:

El uso de Vertex Endpoints y CI/CD para la producción tiene varios beneficios:

Escalabilidad: Vertex Endpoints puede escalar automáticamente los recursos utilizados para servir modelos, lo que facilita la gestión de grandes cantidades de solicitudes.
Fiabilidad: Vertex Endpoints está diseñado para ser confiable y estar listo para la producción.
Automatización: La CI/CD automatiza la implementación de modelos, lo que reduce el riesgo de errores humanos y facilita la implementación frecuente de modelos.

Cómo detecta Digits automáticamente cuándo es necesario volver a entrenar a los modelos

Digits utiliza una combinación de técnicas para detectar automáticamente cuándo es necesario volver a entrenar los modelos:

Monitorización de las predicciones del modelo: Digits monitorea las predicciones de los modelos en producción. Si las predicciones comienzan a ser inexactas, esto puede ser una señal de que es necesario volver a entrenar el modelo.
Seguimiento de las métricas de rendimiento del modelo: Digits rastrea una serie de métricas de rendimiento del modelo, como la precisión, la precisión y la recuperación. Si estas métricas comienzan a degradarse, puede ser una señal de que es necesario volver a entrenar el modelo.
Validación de fragmentos de datos: Digits valida periódicamente los fragmentos de datos de producción. Esto ayuda a identificar cualquier desviación de datos que pueda estar ocurriendo. Si se detecta una desviación de datos, esto puede ser una señal de que es necesario volver a entrenar el modelo.
Revisión de los resultados del modelo: Digits tiene una plataforma de revisión interna en la que los empleados pueden revisar los resultados de los modelos. Esto ayuda a identificar cualquier caso en el que el modelo no haga predicciones precisas. Si se identifican estos casos, esto puede ser una señal de que es necesario volver a entrenar el modelo.

Una vez que Digits detecta que es necesario volver a entrenar un modelo, utiliza CI/CD para automatizar el proceso de reentrenamiento e implementación. El sistema CI/CD crea un nuevo modelo de servicio TF utilizando los datos de entrenamiento más recientes y lo implementa en un Vertex Endpoint.

Ejemplo:

El siguiente es un ejemplo de cómo funciona el proceso automático de reentrenamiento de modelos de Digits:

Un modelo en producción hace una predicción inexacta.
El sistema de monitoreo de Digits detecta la predicción inexacta y envía una notificación al sistema CI/CD.
El sistema CI/CD desencadena un nuevo trabajo de formación.
El trabajo de formación entrena un nuevo modelo utilizando los datos de formación más recientes.
El sistema CI/CD implementa el nuevo modelo en un Vertex Endpoint.
El nuevo modelo ahora se usa para hacer predicciones en la producción.

La importancia de la colaboración entre ingenieros y diseñadores de ML

Los ingenieros y diseñadores de aprendizaje automático (ML) suelen trabajar en silos, lo que puede generar problemas al intentar llevar los modelos de ML a la producción. Los ingenieros de aprendizaje automático pueden desarrollar modelos que sean precisos pero no fáciles de usar, mientras que los diseñadores pueden crear interfaces que sean visualmente atractivas pero que no recopilen comentarios sobre las predicciones de los modelos.

Para abordar estos desafíos, es importante que los ingenieros y diseñadores de ML colaboren estrechamente. Esto se puede hacer de la siguiente manera:

Trabajando juntos en los requisitos del producto: Los ingenieros y diseñadores de ML deben trabajar juntos para definir los requisitos del producto para los modelos de ML. Esto ayudará a garantizar que los modelos se desarrollen para satisfacer las necesidades de los usuarios y que el diseño de las interfaces sea compatible con los modelos.
Compartir comentarios: Los ingenieros y diseñadores de ML deben compartir sus comentarios con regularidad. Esto ayudará a identificar cualquier problema potencial con los modelos o las interfaces desde el principio.
Creación de bucles de retroalimentación: Los ingenieros y diseñadores de ML deben crear circuitos de retroalimentación para recopilar comentarios de los usuarios sobre el rendimiento de los modelos y la usabilidad de las interfaces. Esta retroalimentación se puede utilizar para mejorar los modelos y las interfaces a lo largo del tiempo.

Consejos para crear plataformas de aprendizaje automático

Eficiencia: Concéntrese en crear canalizaciones de MLOps eficientes para aplicaciones específicas, como aquellas que requieren datos propietarios o altos niveles de privacidad y seguridad.
La API es lo primero: Considere la posibilidad de utilizar modelos previamente entrenados de OpenAI, Anthropic, Bard y otros proveedores para tareas genéricas.
Consulta: Concéntrese en consultar con otros miembros del equipo sobre cómo usar estas API y resolver problemas específicos de un dominio.

IA generativa @ Digits

La IA generativa tiene el potencial de revolucionar muchos sectores. Estos son algunos de los casos de uso de la IA generativa en Digits:

Impulsar la comunicación entre contadores y operadores: La IA generativa se puede utilizar para generar estimaciones de preguntas y respuestas, lo que puede ahorrar tiempo y esfuerzo a ambas partes.
Alojamiento interno de modelos lingüísticos de gran tamaño: Digits tiene su propia infraestructura para alojar grandes modelos lingüísticos, lo que le permite hacerlo de forma segura y orientada a la privacidad.
Uso del acceso basado en API a modelos de IA generativa: Existe la posibilidad de combinar el acceso basado en API a modelos de IA generativa con el aprendizaje automático basado en la similitud para proporcionar una experiencia de producto excelente.

Hay problemas de privacidad y seguridad asociado con la IA generativa, y es importante abordar estas preocupaciones de manera responsable. Como comunidad, podemos encontrar formas de desarrollar y utilizar la IA generativa de forma segura y beneficiosa para todos.

El panorama del alojamiento de castings y registros de modelos cambiará significativamente en los próximos años para adaptarse a las necesidades de los grandes modelos lingüísticos. - Hannes

Lea nuestros blogs anteriores de la serie True ML Talks:

‍

True ML Talks #14 - LLMs, RL @CX Score Co-Founder

Deep dive into LLM and Reinforcement Learning. We talk with Ashwin, Co-Founder at CX Score about the trends in the LLM and ML space.

TrueFoundry Blog TrueFoundry

‍

Sigue viendo el TrueML serie youtube y leyendo el TrueML serie de blogs.

True Foundry es un PaaS de implementación de aprendizaje automático sobre Kubernetes para acelerar los flujos de trabajo de los desarrolladores y, al mismo tiempo, permitirles una flexibilidad total a la hora de probar e implementar modelos, al tiempo que garantiza una seguridad y un control totales para el equipo de Infra. A través de nuestra plataforma, permitimos a los equipos de aprendizaje automático implementar y supervisar modela en 15 minutos con un 100% de confiabilidad, escalabilidad y la capacidad de revertirse en segundos, lo que les permite ahorrar costos y lanzar los modelos a la producción más rápido, lo que permite obtener un verdadero valor empresarial.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora