Próximo seminario web: Seguridad empresarial para Claude Code | 21 de abril · 11:00 a. m. PST. Regístrese aquí →

Ayudar a todos los niños a leer con Wadhwani AI

Solución de IA para evaluar y mejorar las habilidades de lectura de los niños en comunidades marginadas

Wadhwani AI es una organización sin fines de lucro que trabaja en múltiples soluciones de IA llave en mano para las poblaciones desatendidas de los países en desarrollo.

A través del proyecto Vachan Samiksha, el equipo está desarrollando una solución de inteligencia artificial personalizada que los profesores de las zonas rurales de la India pueden utilizar para evaluar la fluidez lectora de los estudiantes y desarrollar un plan de contingencia personalizado para mejorar las habilidades de lectura de cada estudiante.

El equipo había desplegado la solución en las escuelas primarias para llevar a cabo proyectos piloto. Sin embargo, el equipo se enfrentaba a los siguientes problemas que debían resolverse antes de ampliar el alcance del proyecto a más escuelas y estudiantes:

  1. Coste informático muy elevado: El modelo de Vachan Samiksha necesitaba GPU para hacer inferencias y, por lo tanto, el equipo tuvo que asumir costos muy altos para mantener las instancias de GPU aprovisionadas durante toda la implementación.
  2. La escala era limitada: Según la cuota de GPU de las instancias de aprendizaje automático que el equipo podía obtener en el servicio de aprendizaje automático gestionado, el proceso era lento e implicaba presentar un argumento empresarial. Era mucho más fácil instalar instancias de aprendizaje automático no administradas en Kubernetes sin procesar. El equipo ha creado un modelo que incluye el acento para evaluar el dominio del idioma regional y el inglés
  3. Algunas solicitudes tardaron mucho en responderse: Los proyectos piloto se llevaron a cabo en miles de escuelas y millones de estudiantes simultáneamente. Esto requería que el sistema escalara horizontalmente a medida que aumentaba el volumen de solicitudes. Sin embargo, el servicio de aprendizaje automático gestionado tardaba hasta 9 minutos en poder ampliarse, lo que resultaba una mala experiencia para el usuario final

El equipo de TrueFoundry se asoció con el equipo para resolver estos problemas. Con la plataforma TrueFoundry, el equipo pudo:

  1. Amplíe la aplicación para gestionar 10 veces más solicitudes por segundo en comparación con el servicio ML administrado.
  2. Reduzca el costo de la nube en aproximadamente un 55% con el mismo nivel de confiabilidad y rendimiento.
  3. Reduzca la latencia de las solicitudes en aproximadamente un 80% cuando los pods se escalan horizontalmente.

Acerca de Wadhwani AI

Wadhwani AI fue fundada por Romesh y Sunil Wadhwani (Parte de la lista de IA de Times100) para aprovechar la IA para resolver los problemas que enfrentan las comunidades desatendidas en los países en desarrollo. Se asocian con organismos gubernamentales y globales sin fines de lucro de todo el mundo para ofrecer valor a través de la solución. Como organización sin fines de lucro, Wadhwani AI utiliza inteligencia artificial para resolver problemas sociales en los campos de la agricultura, la educación y la salud, entre otros. Algunos de sus proyectos incluyen:

Wadhwani AI también trabaja con organizaciones asociadas para evaluar su preparación para la IA, es decir, su capacidad para crear y utilizar soluciones de IA de manera eficaz y sostenible. El trabajo de Wadhwani AI tiene como objetivo utilizar la IA para el bien y mejorar la vida de miles de millones de personas en los países en desarrollo.

Herramienta de fluidez en la lectura oral de Wadhwani AI: Vachan Samiksha

Las habilidades de lectura son fundamentales para la base educativa de cualquier niño. Desafortunadamente, muchos estudiantes de las regiones rurales y desfavorecidas de la India y otros países en desarrollo carecen de estas habilidades. Para resolver este problema desde un punto de vista fundamental, el equipo de IA de Wadhwani ha desarrollado una herramienta de frecuencia de lectura oral basada en la IA llamada Vachan Samiksha.

La herramienta utiliza la inteligencia artificial para analizar el rendimiento de lectura de cada niño. Por el momento, se dirige principalmente a las regiones rurales y semiurbanas del país y se utiliza en todos los grupos de edad. Para que la solución sea generalizable en la mayor parte del país, el equipo ha creado un modelo que incluye el acento para evaluar los idiomas regionales y el inglés. La evaluación manual de estas habilidades tiene sus sesgos y, a menudo, es inexacta.

La solución se ofrece a los usuarios (profesores de las escuelas objetivo) a través de una aplicación que invoca el modelo que se implementa en la nube. Se obliga al estudiante a leer un párrafo, que la aplicación graba y lo envía a la nube. En la nube, el modelo evalúa la precisión, la velocidad y la comprensión de la lectura y otros retrasos complejos en el aprendizaje que podrían pasarse por alto en una evaluación normal. Además de evaluar estas habilidades, la aplicación también crea un plan de aprendizaje personalizado para cada estudiante a fin de facilitar su aprendizaje y también crea informes demográficos para que las autoridades gubernamentales tomen medidas a nivel macroeconómico. El equipo había desplegado el modelo para el proyecto piloto con el servicio de aprendizaje automático gestionado del proveedor de la nube

Cuando comenzamos nuestra colaboración con el equipo de Vachan Samiksha dentro de Wadhwani AI, el equipo había estado aprovechando la pila nativa de MLOps de su proveedor de nube para implementar el modelo para su proyecto piloto en el Departamento de Educación de Gujarat.

La configuración de su infraestructura era la siguiente:

  1. Punto final asíncrono administrado: El equipo quería un motor de inferencia asíncrono, ya que el modelo podía tardar algún tiempo (entre 5 y 7 segundos) en inferir. Cuando la aplicación recibía mucho tráfico de forma simultánea, tenía que almacenar las solicitudes de forma intermitente antes de que un trabajador pudiera detectarlas e inferirlas. El punto final asíncrono del proveedor de nube utiliza internamente su cola nativa.
  2. Servicio de contenedores gestionado: El equipo utilizaba el servicio de contenedores gestionados para alojar el servicio de backend de la aplicación.
  3. Trabajadores en cola: El servicio gestionado de MLOps utilizaba instancias reservadas de ML para que los trabajadores de la cola pudieran recoger las solicitudes de la cola e inferir en ellas.
  4. Fuente de datos: La cola se escribía en el sistema de almacenamiento del proveedor de la nube y se leía desde allí
  5. SNS: se usó como intermediario para publicar la ruta de salida y los mensajes de éxito/fracaso de la cola de mensajes de salida
La arquitectura del equipo de Vachan Samiksha con el servicio de aprendizaje automático gestionado de Cloud Provider

Desafíos a los que se había enfrentado el equipo

El equipo se enfrentó a desafíos con esta configuración al intentar llevar a cabo la primera prueba piloto, lo que los motivó a probar otras soluciones:

La escala era limitada

Se esperaba que el proyecto piloto se ejecutara a gran escala (unos 6 millones de estudiantes en un mes). Sin embargo, el equipo no confiaba en que el servicio de aprendizaje automático gestionado pudiera soportar esta escala porque:

  1. Cuota separada: El servicio de aprendizaje automático administrado tiene una cuota y una asignación independientes para las instancias de aprendizaje automático que eran difíciles de aprovechar.
  2. Es difícil obtener la cuota de instancias de ML: Obtener una cuota adicional es un proceso lento y el equipo tenía que presentar un argumento empresarial para poder optar a una cuota mayor. Incluso cuando al equipo se le asignó una cuota mayor, ésta era apenas una décima parte de la cuota que el equipo esperaba.
  3. Obtener instancias que no sean de aprendizaje automático es mucho más fácil: El equipo descubrió que era mucho más fácil obtener una cuota para las instancias que no eran de aprendizaje automático. Sin embargo, al equipo le resultó difícil usarlo en su proyecto piloto sin las herramientas de MLOps habituales.

El soporte fue lento

Durante la prueba piloto, el equipo tuvo problemas con la velocidad de escalado y algunas cápsulas no salieron como se esperaba. Sin embargo, para resolver el problema, el equipo se puso en contacto con los representantes del proveedor de servicios en la nube, quienes a su vez se pusieron en contacto con el equipo técnico. Esto provocó un retraso en el sistema y provocó un retraso en el piloto.

El escalado fue lento

Cuando el tráfico de solicitudes aumentó durante la fase piloto, los módulos tuvieron que escalar horizontalmente (crear nuevos nodos que pudieran captar y procesar algunas de las solicitudes de la cola). Este proceso tardaba entre 9 y 10 minutos por cada pod nuevo que se generaba, lo que provocaba retrasos en las respuestas y una mala experiencia para el usuario final.

Costos insosteniblemente altos

Las instancias de GPU son muy caras debido a la escasez mundial de chips. A esto hay que añadir el margen de beneficio del 20 al 40% para las instancias de aprendizaje automático que aplica el proveedor de la nube. Esto hizo que el coste de las instancias fuera muy elevado e inviable para el equipo a la escala en la que querían ejecutar el proyecto.

El sistema estuvo listo para su implementación con TrueFoundry en menos de una semana

Cuando conocimos al equipo de Vachan Samiksha, estaban en el período entre su primer piloto y el segundo. Faltaba menos de una semana para el piloto y tuvimos que:

  1. Configure la plataforma TrueFoundry en su infraestructura de nube (ya que los datos son muy confidenciales y no se permitió que ningún dato fuera de la VPC del proyecto)
  2. Incorpore al equipo y guíelos a través de las diferentes funcionalidades de la plataforma.
  3. Migre la aplicación Vachan Samiksha a la plataforma
  4. Prueba de carga de la aplicación y compara el escalado horizontal

Pilot estuvo listo para ser enviado con TrueFoundry en menos de 1 semana

Durante el tiempo anterior al piloto:

Instalación de plataforma

Nuestro equipo ayudó al equipo de IA de Wadhwan a instalar la plataforma en sus propios Kubernetes sin procesar. Tanto el plano de control como el clúster de carga de trabajo se instalaron en su propia infraestructura. Todos los datos, los elementos de la interfaz de usuario necesarios para interactuar con la plataforma y los procesos de carga de trabajo para entrenar e implementar los modelos permanecieron en su propia VPC. La plataforma también cumplía con todas las normas y prácticas de seguridad de la empresa.

Formación e incorporación

Ayudamos al equipo a entender cómo interactúan los diferentes componentes durante el proceso de formación e incorporación. Les explicamos cómo configurar los recursos, configurar el escalado automático e implementar el modelo.

Migración

El equipo de IA de Wadhwani pudo migrar la aplicación por sí solo con la mínima ayuda del equipo de TrueFoundry. Esto se hizo en una llamada de 1 hora con el equipo.

Probando

Una vez implementada la aplicación, el equipo comenzó a probar la carga a nivel de producción en ella. El equipo amplió la aplicación de forma independiente a más de 100 nodos con un argumento sencillo basado en la interfaz de usuario de TrueFoundry, que es 5 veces mayor que la escala más alta alcanzable anteriormente. También intentaron comparar la velocidad de escalado de los nodos, que era mucho más rápida (entre 3 y 4 veces) que la proporcionada por ellos.

Envío

Una vez finalizadas las pruebas de carga, el equipo implementó la aplicación piloto y estaba preparado para implementarla en la segunda fase del piloto, que se implementó en 1000 escuelas, 9000 profesores y más de 2 lakh de estudiantes.

Más control a un costo mucho menor con TrueFoundry

Arquitectura de aplicaciones con TrueFoundry

Con un esfuerzo mínimo de menos de 10 horas, el equipo de IA de Wadhwani pudo lograr una mejora significativa en la velocidad, el control y los costos. Algunos de los principales cambios que se dieron cuenta fueron los siguientes:

Más control y visibilidad, independencia de los desarrolladores

Los científicos de datos y los ingenieros de aprendizaje automático pudieron configurar varios elementos, lo que les resultó difícil hacerlo a través de la consola del proveedor de la nube o tuvieron que confiar en el equipo de ingeniería:

Configuración de la política de escalado automático de nodos de GPU

En función de la longitud de la cola y en el aumento del número máximo de réplicas o nodos a 70 en lugar del límite anterior de 20

Configuración del escalado automático basado en el tiempo

Como la mayor parte del tráfico piloto llegaba durante el horario escolar, cuando los profesores interactuaban con los estudiantes, hubo un mínimo de solicitudes, si es que las hubo, durante la noche y por la noche. Teamconstant pudo establecer un cronograma escalable con el que los módulos se redujeron al mínimo durante las horas de inactividad (por la tarde y por la noche). Esto permitió ahorrar entre un 15 y un 20% del coste del proyecto piloto.

Métricas y sugerencias de utilización

El equipo podía supervisar fácilmente el tráfico, la utilización de los recursos y las respuestas directamente desde la interfaz de usuario de TrueFoundry. También recibían sugerencias a través de la plataforma cada vez que había un sobreaprovisionamiento o un aprovisionamiento insuficiente de recursos

"For me the biggest differentiator working with TrueFoundry was the ease of usage and the quick response and support provided by the team. I was able to setup and migrate our entire code base in less than 1 day which was amazing. During the pilot and whenever we had any doubts or request the TrueFoundry team was available immediately to solve our doubts and support us. Besides these factors we are getting a massive cost reduction which is super helpful for the project."

- Jatin Agrawal, Machine Learning Scientist @ Wadhwani AI

TrueFoundry ayudó al equipo a crecer y, al mismo tiempo, a reducir los costos

Escalado 5 veces más rápido

Para probar el escalado con TrueFoundry, el equipo envió una ráfaga de 88 solicitudes a la aplicación y comparó el rendimiento del servicio de aprendizaje automático gestionado del proveedor de nube con el de TrueFoundry. Todas las configuraciones del sistema se mantuvieron según la lógica de escalado (en función de la longitud de la cola de espera, la cantidad inicial de nodos, el tipo de instancia, etc.)

Nos dimos cuenta de que TrueFoundry podía ampliarse un 78% más rápido que el servicio de aprendizaje automático gestionado, lo que proporcionaba al usuario respuestas mucho más rápidas. El tiempo total necesario para responder a la consulta fue un 40% menor con TrueFoundry.

Autoscaling Test Results (A10g-4vCPUs, 2 Workers, 88 requests)
Managed ML Service TrueFoundry
Total Time to process all 88 requests 660s 395.9s
Time to scale up (1 worker to 2 worker) 9 min 2 min
Time before AutoScaler was triggered 2 min 30 secs 15 secs

Coste un 50% más bajo

El costo en el que incurrió el equipo para el proyecto piloto se redujo en aproximadamente un 50% al trasladarse a TrueFoundry. Esto se debió a los siguientes factores:

  1. Reducción de entre un 25 y un 30%: uso de Kubernetes básicos: Las instancias de aprendizaje automático administradas tienen un aumento del 25 al 40% para la misma instancia cuando se aprovisionan directamente en Kubernetes sin usar. Como TrueFoundry se ejecuta directamente en los K8, el equipo ahorró muchos costos en este sentido
  2. Reducción de entre un 15 y un 20%: escalado automático basado en el tiempo: El equipo programó la reducción de escala de los pods cuando esperaban que la aplicación tuviera menos tráfico. Esto permitió al equipo ahorrar entre un 15 y un 20% de los costes de la nube.
  3. Reducción de entre un 20 y un 30%: uso de instancias puntuales: Las instancias puntuales forman parte de la infraestructura no utilizada de los proveedores de nube, que ofrecen con descuentos del 50 al 60%. Al habilitar un indicador sencillo en la interfaz de usuario, el equipo puede usar una combinación de instancias puntuales y bajo demanda. Las instancias puntuales corren el riesgo de perder el aprovisionamiento, pero TrueFoundry ha creado una capa de confiabilidad que garantiza que, incluso en el caso de las instancias puntuales, se gestione la combinación de instancias puntuales y bajo demanda para proporcionar a los usuarios un nivel de disponibilidad confiable.

Alta disponibilidad de GPU con costos más bajos

Si bien el servicio Managed ML Service estaba limitado por la disponibilidad de instancias de GPU en la misma región del proveedor de nube, TrueFoundry puede agregar nodos de trabajo al sistema que podrían estar en cualquier región o proveedor de nube.
Esto significa que:

  1. Alta disponibilidad de GPU desde varios proveedores de nube o regiones: Los usuarios pueden activar nodos en una región diferente de la nube que tenga una mayor disponibilidad de GPU o con otros proveedores de nube como AWS, E2E Networks, RunPod, Azure, GCP u otros. Esto es fundamental, ya que todas las empresas tienen mensajes de éxito o fracaso, ya que permite a los usuarios suscribirse a determinadas cuotas de GPU limitadas y, para garantizar la fiabilidad del sistema, es necesario disponer de este tipo de copias de seguridad.
  2. Reducción de costos: Los distintos proveedores de nube tienen precios diferentes para las instancias de GPU. Esto puede variar incluso entre un 40 y un 80% entre un proveedor y otro. TrueFoundry permite al usuario conectar cualquier proveedor de GPU a un plano de control único y permite escalar sin problemas entre estos proveedores de nube, con la opción de elegir un proveedor de menor coste si están disponibles para ahorrar costes.

Usa las mejores herramientas sin ningún tipo de limitación

TrueFoundry proporciona una integración perfecta con cualquier herramienta que el equipo quiera usar. Con el proveedor de la nube, esto estaba limitado por las opciones de diseño adoptadas por el proveedor y sus integraciones nativas. Por ejemplo, el equipo quería usar NATS para publicar mensajes, algo que el servicio nativo del proveedor de nube no ofrecía actualmente. TrueFoundry hizo que tomar este tipo de decisiones fuera algo trivial para el equipo de IA de Wadhwani.

La forma más rápida de crear, gobernar y escalar su IA

Opere su oleoducto ML desde el día 0

conducto