Kommendes Webinar: Unternehmenssicherheit für Claude Code | 21. April · 11 Uhr PST. Registriere dich hier →

Mit Wadhwani AI jedem Kind beim Lesen helfen

KI-Lösung zur Bewertung und Verbesserung der Lesefähigkeiten von Kindern in unterversorgten Gemeinden

Wadhwani AI ist eine gemeinnützige Organisation, die an mehreren schlüsselfertigen KI-Lösungen für unterversorgte Bevölkerungsgruppen in Entwicklungsländern arbeitet.

Im Rahmen des Vachan Samiksha-Projekts entwickelt das Team eine maßgeschneiderte KI-Lösung, mit der Lehrer im ländlichen Indien die Lesefähigkeit der Schüler beurteilen und einen personalisierten Notfallplan entwickeln können, um die Lesefähigkeiten jedes einzelnen Schülers zu verbessern.

Das Team hatte die Lösung in Grundschulen zur Durchführung von Pilotprojekten eingesetzt. Das Team sah sich jedoch mit den folgenden Problemen konfrontiert, die gelöst werden mussten, bevor der Umfang des Projekts auf weitere Schulen und Schüler ausgedehnt wurde:

  1. Sehr hohe Rechenkosten: Das Vachan Samiksha-Modell benötigte GPUs, um Rückschlüsse ziehen zu können. Daher musste das Team sehr hohe Kosten tragen, um die Bereitstellung von GPU-Instances über die gesamte Bereitstellungsdauer sicherzustellen.
  2. Die Skalierung war begrenzt: Anhand der Anzahl der ML-Instances an GPUs, die das Team für den verwalteten ML-Dienst nutzen konnte. Der Prozess war langsam und beinhaltete die Erstellung eines Geschäftsszenarios. Es war viel einfacher, nicht verwaltete ML-Instanzen auf Roh-Kubernetes zu installieren. Das Team hat ein Modell entwickelt, das Akzente einbezieht, um die fließenden regionalen und englischen Sprachkenntnisse zu beurteilen
  3. Die Beantwortung einiger Anfragen nahm viel Zeit in Anspruch: Die Pilotprojekte wurden an Tausenden von Schulen und Millionen von Schülern gleichzeitig durchgeführt. Dazu musste das System horizontal skalieren, wenn der Anforderungsdurchsatz steigt. Es dauerte jedoch bis zu 9 Minuten, bis der verwaltete ML-Dienst skaliert werden konnte, was für den Endbenutzer zu einer schlechten Erfahrung führte

Das TrueFoundry-Team hat sich mit dem Team zusammengetan, um diese Probleme zu lösen. Mithilfe der TrueFoundry-Plattform war das Team in der Lage:

  1. Skalieren Sie die Anwendung so, dass sie im Vergleich zum verwalteten ML-Dienst zehnmal Anfragen pro Sekunde verarbeitet.
  2. Reduzieren Sie die anfallenden Cloud-Kosten um ~ 55% bei gleichbleibender Zuverlässigkeit und Leistung.
  3. Reduzieren Sie die Latenz von Anfragen um ~ 80%, wenn die Pods horizontal skalieren.

Über Wadhwani AI

Wadhwani AI wurde von Romesh und Sunil Wadhwani gegründet (Teil der Times100 AI-Liste), um KI zur Lösung von Problemen zu nutzen, mit denen unterversorgte Gemeinschaften in Entwicklungsländern konfrontiert sind. Sie arbeiten mit Regierungen und globalen gemeinnützigen Organisationen auf der ganzen Welt zusammen, um durch die Lösung einen Mehrwert zu schaffen. Als gemeinnützige Organisation nutzt Wadhwani AI künstliche Intelligenz, um soziale Probleme unter anderem in den Bereichen Landwirtschaft, Bildung und Gesundheit zu lösen. Einige ihrer Projekte umfassen:

  • Schädlingsbekämpfung für Baumwollfarmen: Die Lösung hilft, Ernteverluste zu reduzieren, indem Schädlinge, die die Baumwollpflanze befallen, erkannt und bekämpft werden.
  • Vorhersage der TB-Athärenz: Es wird in über 100 öffentlichen Gesundheitseinrichtungen eingesetzt und hilft dabei, Risikopatienten zu identifizieren, Arzneimittelresistenzen zu erkennen und mithilfe von Ultraschalldaten bei der TB-Diagnose zu helfen.
  • Anthropometrie für Neugeborene: Eine Lösung, die das Babygewicht mit einer Smartphone-Kamera misst und Wachstumsindikatoren verfolgt.
  • COVID-19-Prognose und Diagnose: Eine Lösung, die die Ausbreitung der Pandemie vorhersagt und eine COVID-19-Infektion anhand von Hustengeräuschen erkennt.

Wadhwani AI arbeitet auch mit Partnerorganisationen zusammen, um deren KI-Bereitschaft zu bewerten, d. h. ihre Fähigkeit, KI-Lösungen effektiv und nachhaltig zu entwickeln und zu nutzen. Die Arbeit von Wadhwani AI zielt darauf ab, KI für immer einzusetzen und das Leben von Milliarden von Menschen in Entwicklungsländern zu verbessern.

Das Tool zur mündlichen Lesefähigkeit von Wadhwani AI: Vachan Samiksha

Lesefähigkeiten sind für die Bildungsgrundlage eines Kindes von grundlegender Bedeutung. Leider fehlt es vielen Schülern aus den ländlichen und benachteiligten Regionen Indiens und anderer Entwicklungsländer an diesen Fähigkeiten. Um dieses Problem auf einer grundlegenden Ebene zu lösen, hat das Wadhwani AI-Team ein KI-gestütztes Tool namens Vachan Samiksha entwickelt.

Das Tool setzt KI ein, um die Leseleistung jedes Kindes zu analysieren. Es richtet sich derzeit hauptsächlich an ländliche und halbstädtische Regionen des Landes und wird altersübergreifend eingesetzt. Um die Lösung für den Großteil des Landes verallgemeinerbar zu machen, hat das Team ein Modell entwickelt, das Akzente einbezieht, um Regionalsprachen und Englisch zu bewerten. Die manuelle Bewertung dieser Fähigkeiten hat ihre eigenen Vorurteile und ist oft ungenau.

Die Lösung wird den Benutzern (Lehrern der Zielschulen) über eine App zur Verfügung gestellt, die das in der Cloud bereitgestellte Modell aufruft. Der Schüler muss einen Absatz lesen, der von der Anwendung aufgezeichnet und an die Cloud gesendet wird. In der Cloud bewertet das Modell die Lesequalität, die Geschwindigkeit, das Verständnis und andere komplexe Lernverzögerungen, die bei einer normalen Bewertung übersehen werden könnten. Neben der Bewertung dieser Fähigkeiten erstellt die Anwendung auch einen personalisierten Lernplan für jeden Schüler, um ihnen das Lernen zu erleichtern, und erstellt auch demografische Berichte für Maßnahmen der Regierungsbehörden auf Makroebene. Das Team hatte das Modell für das Pilotprojekt zusammen mit dem verwalteten ML-Dienst des Cloud-Anbieters bereitgestellt

Als wir unsere Zusammenarbeit mit dem Vachan Samiksha-Team innerhalb von Wadhwani AI begannen, nutzte das Team den nativen MLOps-Stack seines Cloud-Anbieters, um das Modell für das Pilotprojekt mit dem Bildungsministerium von Gujarat bereitzustellen.

Ihre Infrastruktur war wie folgt eingerichtet:

  1. Verwalteter asynchroner Endpunkt: Das Team wollte eine asynchrone Inferenz-Engine, da das Modell einige Zeit (~5-7 Sekunden) brauchen könnte, bis das Modell daraus ableitet. Wenn die Anwendung gleichzeitig viel Traffic erhielt, musste sie die Anfragen zeitweise speichern, bevor ein Mitarbeiter sie aufnehmen und daraus schließen konnte. Der asynchrone Endpunkt des Cloud-Anbieters nutzt intern seine native Warteschlange.
  2. Verwalteter Containerdienst: Das Team verwendete den verwalteten Containerdienst, um den Backend-Service für die Anwendung zu hosten.
  3. Mitarbeiter in der Warteschlange: Der verwaltete MLOps-Dienst verwendete reservierte ML-Instanzen für Warteschlangenarbeiter, um Anfragen aus der Warteschlange aufzunehmen und daraus abzuleiten.
  4. Datenquelle: Die Warteschlange wurde in das Speichersystem des Cloud-Anbieters geschrieben und daraus gelesen.
  5. SNS: es wurde als Broker verwendet, um den Ausgabepfad und die Erfolgs-/Fehlschlagsmeldungen aus der Warteschlange für Ausgabenachrichten zu veröffentlichen
Die Architektur des Vachan Samiksha-Teams mit dem Managed ML-Service des Cloud-Anbieters

Herausforderungen, mit denen das Team konfrontiert war

Das Team stand bei der Durchführung des ersten Pilotprojekts vor Herausforderungen mit diesem Aufbau, was es motivierte, andere Lösungen auszuprobieren:

Die Skalierung war begrenzt

Es wurde erwartet, dass das Pilotprojekt in großem Umfang durchgeführt wird (~6 Millionen Schüler in einem Monat). Das Team war sich jedoch nicht sicher, dass der verwaltete ML-Dienst in der Lage sein würde, diese Größenordnung zu unterstützen, und zwar aus folgenden Gründen:

  1. Separate Quote: Der verwaltete ML-Dienst hat ein eigenes Kontingent und eine separate Zuweisung für ML-Instances, von denen es schwierig war, mehr zu bekommen.
  2. Es ist schwierig, ein ML-Instance-Kontingent zu erhalten: Die Erlangung zusätzlicher Kontingente ist ein langsamer Prozess, und das Team musste ein Geschäftsszenario vorbringen, um für ein höheres Kontingent in Frage zu kommen. Selbst wenn dem Team eine höhere Quote zugewiesen wurde, war es kaum ein Zehntel der Quote, die das Team erwartet hatte.
  3. Es ist viel einfacher, Nicht-ML-Instanzen zu erhalten: Das Team fand es viel einfacher, Kontingente für Nicht-ML-Instances zu bekommen. Für das Team war es jedoch schwierig, es in seinem Pilotprojekt ohne die Meanage-MLOps-Tools zu verwenden.

Der Support war langsam

Während des Pilotprojekts hatte das Team Probleme mit der Skalierungsgeschwindigkeit, und einige Pods kamen nicht wie erwartet zum Einsatz. Um das Problem zu lösen, kontaktierte das Team jedoch die Vertreter des Cloud-Anbieters, die sich dann an das technische Team wandten. Dies führte zu einer Verzögerung des Systems und zu einer Verzögerung des Pilotprojekts.

Die Skalierung war langsam

Als der Anforderungsverkehr während des Pilotprojekts zunahm, mussten die Pods horizontal skalieren (neue Knoten einrichten, die einige der Anfragen aus der Warteschlange aufnehmen und verarbeiten konnten). Dieser Vorgang dauerte für jeden neuen Pod, der gestartet wurde, ~9-10 Minuten, was zu verzögerten Antworten und einer schlechten Erfahrung für den Endbenutzer führte.

Unhaltbar hohe Kosten

GPU-Instances sind aufgrund des weltweiten Chipmangels sehr teuer. Hinzu kommt der Aufschlag von 20-40% für ML-Instanzen, den der Cloud-Anbieter festlegt. Dadurch waren die Kosten für die Instanzen sehr hoch und für das Team in dem Umfang, in dem es das Projekt durchführen wollte, nicht durchführbar.

Das System war in weniger als einer Woche einsatzbereit mit TrueFoundry

Als wir das Vachan Samiksha-Team trafen, befanden sie sich in der Zeit zwischen ihrem ersten und dem zweiten Piloten. Der Pilot war weniger als eine Woche entfernt und wir mussten:

  1. Richten Sie die TrueFoundry-Plattform auf ihrer Cloud-Infrastruktur ein (Da die Daten sehr sensibel sind und keine Daten die VPC des Projekts überschreiten durften)
  2. Nehmen Sie das Team an Bord und führen Sie es durch die verschiedenen Funktionen der Plattform.
  3. Migrieren Sie die Vachan Samiksha-Anwendung auf die Plattform
  4. Auslastungstest der Anwendung und Benchmarking der horizontalen Skalierung

Pilot war bereit, in <1 Woche mit TrueFoundry ausgeliefert zu werden

In der Zeit vor dem Piloten:

Installation der Plattform

Unser Team half dem Wadhwan AI Team bei der Installation der Plattform auf ihrem eigenen Roh-Kubernetes. Die Steuerungsebene und der Workload-Cluster wurden beide auf ihrer eigenen Infrastruktur installiert. Alle Daten, Benutzeroberflächenelemente für die Interaktion mit der Plattform und die Workload-Prozesse für das Trainieren/Bereitstellen der Modelle blieben in ihrer eigenen VPC. Die Plattform entsprach außerdem allen Sicherheitsregeln und -praktiken des Unternehmens.

Schulung und Onboarding

Wir haben dem Team geholfen zu verstehen, wie die verschiedenen Komponenten während des Schulungs- und Onboarding-Prozesses zusammenwirken. Wir haben ihnen erklärt, wie Ressourcen eingerichtet, Autoscaling konfiguriert und das Modell bereitgestellt werden.

Migration

Das Wadhwani AI-Team war in der Lage, die Anwendung mit minimaler Hilfe des TrueFoundry-Teams selbstständig zu migrieren. Dies geschah in einem einstündigen Gespräch mit dem Team.

Testen

Nach der Bereitstellung der Anwendung begann das Team, die Auslastung der Anwendung auf Produktionsebene zu testen. Das Team skalierte die Anwendung unabhängig voneinander mithilfe eines einfachen Arguments auf der TrueFoundry-Benutzeroberfläche auf mehr als 100 Knoten, was dem Fünffachen der bisher höchsten erreichbaren Skala entspricht. Sie versuchten auch, die Geschwindigkeit der Node-Skalierung zu vergleichen, die viel (3-4 X) schneller war als die von ihnen angegebene.

Versand

Nachdem die Belastungstests abgeschlossen waren, stellte das Team die Pilotanwendung bereit und war darauf vorbereitet, sie in der zweiten Phase des Pilotprojekts einzuführen, das an 1000 Schulen, 9000 Lehrern und über 2 Lakh-Schülern eingeführt wurde.

Mehr Kontrolle zu viel geringeren Kosten mit TrueFoundry

Anwendungsarchitektur mit TrueFoundry

Mit einem minimalen Aufwand von weniger als 10 Stunden konnte das Wadhwani AI-Team eine deutliche Verbesserung in Bezug auf Geschwindigkeit, Kontrolle und Kosten erzielen. Einige der wichtigsten Änderungen, die sie feststellten, waren:

Mehr Kontrolle und Sichtbarkeit — Entwicklerunabhängigkeit

Die Data Scientists und Machine Learning Engineers waren in der Lage, mehrere Elemente zu konfigurieren, was für sie entweder über die Konsole des Cloud-Anbieters schwierig war oder sie sich auf das Engineering-Team verlassen mussten:

Konfiguration der Richtlinie zur automatischen Skalierung von GPU-Knoten

Basierend auf der Warteschlangenlänge und Erhöhung der maximalen Anzahl von Replikaten/Knoten auf 70 statt der vorherigen Grenze von 20

Zeitbasierte automatische Skalierung einrichten

Da der Großteil des Pilotverkehrs während der Schulzeit einging, wenn die Lehrer mit den Schülern interagierten, gab es am Abend und am Abend kaum Anfragen, wenn überhaupt. Die Teamkonstante war in der Lage, einen Skalierungszeitplan aufzustellen, bei dem die Pods während der Ausfallzeiten (abends und nachts) auf ein Minimum herunterskaliert wurden. Dadurch konnten etwa 15-20% der Pilotkosten eingespart werden.

Nutzungskennzahlen und Vorschläge

Das Team konnte den Traffic, die Ressourcenauslastung und die Antworten einfach direkt von der TrueFoundry-Benutzeroberfläche aus überwachen. Außerdem erhielten sie über die Plattform Vorschläge, wann immer es zu einer Über- oder Unterversorgung von Ressourcen kam

"For me the biggest differentiator working with TrueFoundry was the ease of usage and the quick response and support provided by the team. I was able to setup and migrate our entire code base in less than 1 day which was amazing. During the pilot and whenever we had any doubts or request the TrueFoundry team was available immediately to solve our doubts and support us. Besides these factors we are getting a massive cost reduction which is super helpful for the project."

- Jatin Agrawal, Machine Learning Scientist @ Wadhwani AI

TrueFoundry half dem Team bei der Skalierung und senkte gleichzeitig die Kosten

5-mal schnellere Skalierung

Um die Skalierung mit TrueFoundry zu testen, sendete das Team eine Reihe von 88 Anfragen an die Anwendung und verglich die Leistung des verwalteten ML-Dienstes des Cloud-Anbieters mit der von TrueFoundry. Alle Systemkonfigurationen wurden wie die Skalierungslogik beibehalten (basierend auf der Länge der Backlog-Warteschlange, der anfänglichen Anzahl der Knoten, dem Instanztyp usw.)

Wir haben festgestellt, dass TrueFoundry um 78% schneller skalieren kann als ein verwalteter ML-Dienst, wodurch der Benutzer viel schnellere Antworten erhielt. Die gesamte Zeit, die für die Beantwortung der Anfrage benötigt wurde, war mit TrueFoundry um 40% kürzer.

Autoscaling Test Results (A10g-4vCPUs, 2 Workers, 88 requests)
Managed ML Service TrueFoundry
Total Time to process all 88 requests 660s 395.9s
Time to scale up (1 worker to 2 worker) 9 min 2 min
Time before AutoScaler was triggered 2 min 30 secs 15 secs

50% geringere Kosten

Die Kosten, die dem Team für das Pilotprojekt entstanden waren, wurden durch die Umstellung auf TrueFoundry um ~ 50% reduziert. Dies wurde durch die folgenden Faktoren ermöglicht:

  1. ~ 25-30% Reduzierung — Verwendung von bloßem Kubernetes: Verwaltete ML-Instances haben einen Upmark von 25-40% für dieselbe Instanz, wenn sie direkt auf Bare-Kubernetes bereitgestellt werden. Da TrueFoundry direkt auf K8s läuft, sparte das Team hier eine Menge Kosten
  2. Reduzierung um ~ 15-20% — Zeitbasierte automatische Skalierung: Das Team plante das Downscaling der Pods, als es mit einem geringeren Traffic zur Anwendung rechnete. Dadurch sparte das Team 15-20% der Cloud-Kosten ein.
  3. ~ 20-30% Ermäßigung — Nutzung von Spot-Instances: Spot-Instances gehören zur ungenutzten Infrastruktur von Cloud-Anbietern, die sie mit 50-60% Rabatt anbieten. Durch die Aktivierung einer einfachen Markierung in der Benutzeroberfläche kann das Team eine Mischung aus Spot- und On-Demand-Instances verwenden. Spot-Instances laufen Gefahr, dass die Bereitstellung aufgehoben wird. TrueFoundry hat jedoch eine Zuverlässigkeitsebene eingebaut, die sicherstellt, dass selbst bei Spot-Instances die Mischung aus On-Demand- und Spot-Instances so verwaltet wird, dass den Benutzern ein zuverlässiges Maß an Verfügbarkeit geboten wird.

Hohe GPU-Verfügbarkeit bei niedrigeren Kosten

Während Managed ML Service durch die Verfügbarkeit von GPU-Instanzen in derselben Region des Cloud-Anbieters eingeschränkt war, kann TrueFoundry dem System Worker-Knoten hinzufügen, die sich in jeder Region oder bei jedem Cloud-Anbieter befinden konnten.
Das bedeutet, dass:

  1. Hohe GPU-Verfügbarkeit von mehreren Cloud-Anbietern/Regionen: Benutzer können Knoten in einer anderen Region der Cloud einrichten, die eine höhere GPU-Verfügbarkeit hat, oder bei anderen Cloud-Anbietern wie AWS, E2E-Netzwerken, RunPod, Azure, GCP oder anderen. Dies ist von entscheidender Bedeutung, da jedes Unternehmen Erfolgs- und Fehlschlagsmeldungen veröffentlicht, da es Benutzern ermöglicht, bestimmte GPU-Kontingentbeschränkungen zu abonnieren. Um die Zuverlässigkeit des Systems zu gewährleisten, ist eine solche Art von Backup erforderlich.
  2. Kostenreduzierung: Verschiedene Cloud-Anbieter haben unterschiedliche Preise für GPU-Instances. Dies kann zwischen den einzelnen Anbietern sogar um 40-80% variieren. Mit TrueFoundry kann der Benutzer jeden GPU-Anbieter mit einer einzigen Steuerungsebene verbinden und ermöglicht eine nahtlose Skalierung zwischen diesen Cloud-Anbietern mit der Option, einen kostengünstigeren Anbieter zu wählen, wenn dieser die Verfügbarkeit hat, um die Kosten zu sparen.

Verwenden Sie die besten Tools ohne Einschränkungen

TrueFoundry bietet eine nahtlose Integration mit jedem Tool, das das Team verwenden möchte. Beim Cloud-Anbieter war dies durch die Designentscheidungen des Anbieters und seine nativen Integrationen begrenzt. Zum Beispiel wollte das Team NATS verwenden, um Nachrichten zu veröffentlichen, was der native Dienst des Cloud-Anbieters derzeit nicht bot. Solche Entscheidungen zu treffen, wurde für das Wadhwani AI Team von TrueFoundry als trivial angesehen.

Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren

Betreiben Sie Ihre ML-Pipeline ab Tag 0

Rohrleitung