True ML Talks #8 - Plattform für maschinelles Lernen @ Intuit

Published: April 22, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Wir sind zurück mit einer weiteren Folge von True ML Talks. Darin tauchen wir tief ein Intuits ML-Plattform NumaFlow, und wir sprechen mit Vigith Maurice.

Vigith ist der Chefingenieur bei Intuit für die AI-Ops-Plattform. Wie jeder, der TurboTax, Credit Karma, Mint, QuickBooks und Mailchimp verwendet hat, ist Intuit die globale Technologieplattform hilft Ihnen, finanzielles Vertrauen zu gewinnen.

📌

Unsere Gespräche mit Vigith werden die folgenden Aspekte behandeln:
- ML-Anwendungsfälle in Intuit
- NUMA-Ansatz zur Erkennung von Anomalien in Echtzeit
- Einblicke in Argo-Workflows
- Bereitstellung von ML-Modellen mit Kubernetes und Numaflow
- Umschulungssysteme, Numaflow gegen Flink
- Sicherheits- und Compliance-Maßnahmen in AIOps bei Intuit
- MLOps gegen AIOps
- Teaser für Vigiths KubeCon-Präsentation

Sehen Sie sich die ganze Folge unten an:

Anwendungsfälle von ML @ Intuit

Der operationsorientierte ML-Anwendungsfall

Das AIOps-Team von Intuit hat einen anderen Anwendungsfall für ML, der sich auf die operative Seite des Unternehmens konzentriert. Dieser Anwendungsfall zielt darauf ab, Plattformprobleme schnell zu erkennen und zu lösen, wodurch die durchschnittliche Zeit bis zur Erkennung und Lösung reduziert wird. Zu den Aspekten dieses Anwendungsfalls gehören:

Aufbau eines operativen Data Lake: Das Team von Vigith hat einen operativen Data Lake entwickelt, der Echtzeitdaten aus allen Ebenen des Laufzeitsystems sammelt, wobei der Schwerpunkt auf reinen, anonymisierten Metriken ohne PII liegt.
Analyse in Echtzeit: Das Team analysiert diese Daten mit einer Latenz von weniger als einer Minute, um je nach Schwere des Problems Warnmeldungen oder Vorfälle zu erkennen und zu erstellen.
Hoher Durchsatz und niedrige Latenz: Der ML-Ansatz, den das Team von Vigith verwendet, unterscheidet sich von herkömmlichem kundenorientiertem ML, da es sich um eine Vielzahl von 250 Kubernetes-Clustern und eine Milliarde Ereignisse handelt, die täglich zur Analyse und Verarbeitung eingespeist werden.
Vorhersage anomaler Ereignisse: Das System des Teams folgt dem Data Mesh-Prinzip und schematisiert das gesamte System, um einen einheitlichen Ansatz für die Analyse von Daten in großem Maßstab zu bieten, der es ihnen hilft, anomale Ereignisse aus Ressourcen, CPO, Sicherheit und anderen Bereichen vorherzusagen.

Der kundenorientierte ML-Anwendungsfall

Bei Intuit konzentrieren sich mehrere ML-Anwendungsfälle auf die Verbesserung des Kundenerlebnisses. Einige dieser Anwendungsfälle umfassen:

Betrugserkennung: Einsatz von ML-Algorithmen zur Erkennung betrügerischer Aktivitäten wie Identitätsdiebstahl, gefälschte Rechnungen und Phishing-Betrügereien.
Scannen von Dokumenten: Verwenden Sie ML-Modelle, um Dokumente zu scannen und wichtige Informationen wie Quittungen, Rechnungen und Steuerformulare automatisch zu extrahieren.
Prognose: Verwendung von ML-Techniken zur Vorhersage zukünftiger Trends wie Umsatz, Nachfrage und Umsatz.
Suche nach Dokumenten: Mithilfe von ML-Algorithmen zur Verbesserung der Suchgenauigkeit und Relevanz, sodass Kunden leichter finden, wonach sie suchen.

‍

‍Intuit’s Radhika Kannan on how the company is leveraging AI to enhance customer experience

As a global technology platform company, Intuit helps customers and communities overcome their most important financial challenges.

Analytics India Magazine Amit Raja Naik

‍

Aufbau einer skalierbaren Plattform für die Erkennung von Anomalien in Echtzeit: Ein NUMA-Ansatz

Systeme zur Erkennung von Anomalien in Echtzeit müssen riesige Mengen unbegrenzter Datenströme verarbeiten. Herkömmliche Systeme für maschinelles Lernen (ML) arbeiten mit einem Anfrage-Antwort-Modell, bei dem die Nutzlast verarbeitet wird, um eine Prognose zu erstellen. Ein System zur Erkennung von Anomalien in Echtzeit erfordert jedoch eine auf asynchronen, gerichteten azyklischen Graphen (DAG) basierende Pipeline, die verschiedene Datenformate und sprachunabhängige Operationen verarbeiten kann.

Intuit hat eine skalierbare Plattform für die Erkennung von Anomalien in Echtzeit entwickelt, die einen NUMA-Ansatz (New, Unique and Mature Architecture) verwendet. Der NUMA-Ansatz umfasst zwei Teile: Numalogic, eine Reihe von Modellen, die täglich überprüft und verwendet werden, und die NumaFlow-Plattform, auf der die Numalogic-Modelle ausgeführt werden.

Die DAG-basierte Pipeline in der NumaFlow-Plattform umfasst eine Quelle (ein unbegrenzter Datenstrom), Vertices (sprachunabhängige Operationen) und eine Senke (Ausgabe von Anomalie-Scores). Die Pipeline umfasst einen Vorverarbeitungsschritt für das Feature-Engineering, einen Inferenzschritt und einen Nachbearbeitungsschritt zur Normalisierung der Ergebnisse in ein für Menschen lesbares Format.

Die Plattform ist hochgradig skalierbar und kosteneffizient und verwendet Lastberechnungen, um die Anzahl der benötigten Verarbeitungseinheiten zu ermitteln. Das System kann je nach Menge der eingehenden Daten auf null Verarbeitungseinheiten hoch- oder herunterskaliert werden. Die Plattform ist so konzipiert, dass sie Knoten- und Portmigrationen, automatische Skalierung und Systemausfälle bewältigt.

Insgesamt bieten der NUMA-Ansatz und die NumaFlow-Plattform eine hocheffiziente und effektive Lösung für Systeme zur Erkennung von Anomalien in Echtzeit.

📌

Architektur für die Skalierung auf Null in AIOps-Systemen:
AIOps-Systeme erfordern die Fähigkeit, Ressourcen basierend auf der Datenmenge, die in Echtzeit verarbeitet wird, hoch- und herunterskalieren zu können. Um dies zu erreichen, sind die Planungslogik und die Datenverarbeitungslogik getrennt. Dazu wird ein benutzerdefinierter Kubernetes-Controller bereitgestellt, der über einen integrierten Algorithmus zur automatischen Skalierung verfügt. Dieser Algorithmus ist in der Lage, die Verarbeitungsrate eines Scheitelpunkts und die Zeit zu verstehen, die für die Verarbeitung einer Nachricht benötigt wird, und verwendet diese Informationen, um die dem System zugewiesenen Ressourcen automatisch anzupassen.

Die Verwendung eines benutzerdefinierten Controllers unterscheidet sich vom nativen Kubernetes Horizontal Pod Autoscaler (HPA), der nicht auf Null herunterskaliert werden kann. Durch die Verwendung eines benutzerdefinierten Controllers kann das AIOps-System auf Null herunterskalieren, wenn es keine Daten verarbeitet, wodurch unnötige Ressourcenverschwendung vermieden wird.

Um eine unabhängige Skalierung jedes Scheitelpunkts zu ermöglichen, verwendet das System einen Puffer zwischen zwei Scheitelpunkten. Dieser Puffer trägt dazu bei, dass die Daten effizient verarbeitet werden, und ermöglicht die unabhängige Skalierung jedes Scheitelpunkts auf der Grundlage seiner spezifischen Anforderungen. Dies ist wichtig, da verschiedene Prozesse in einem AIOps-System unterschiedliche Ressourcenanforderungen haben können und deren unabhängige Skalierung zur Optimierung der Ressourcennutzung beiträgt.

Eines der coolsten Features ist die Möglichkeit, herunterzuskalieren, und das ist ein Muss für uns. - Vigith

Open-Source-Ökosystem und AIOps: Einblicke in Argo-Workflows

Argo-Workflows haben sich zu einem beliebten Tool für die Verwaltung von Workflows für maschinelles Lernen entwickelt, wobei Intuit maßgeblich zu seiner Entwicklung beigetragen hat. Der Erfolg von Argo liegt in seinem Open-Source-Charakter, der Feedback und Beiträge von Benutzern auf der ganzen Welt ermöglicht. Durch die Öffnung der Software fließen Ideen und Innovationen aus der Community ein, sodass Intuit seine Lösungen auf der Grundlage des Feedbacks der Benutzer verbessern kann.

Im Vergleich zu anderen DAG-Orchestratoren wie Airflow eignet sich Argo für Trainingsaufgaben, ist aber stapelorientiert. Die Benutzer wünschten sich ein gleichwertiges System, das Streaming-Daten verarbeiten kann. Intuit reagierte darauf mit der Entwicklung von Numaflow, einem streaming-orientierten System. Die beiden Systeme Argo und Numaflow können zu einem ständig aktiven Inferenzsystem für die Datenverarbeitung in Echtzeit zusammengeführt werden. Mit Numaflow hat das Unternehmen das Argo-System neu konzipiert, um mehr Funktionen zu integrieren und seine Funktionalität zu verbessern. Der Open-Source-Ansatz hat sich für Intuit und die gesamte Community als vorteilhaft erwiesen und ermöglicht eine gemeinsame Anstrengung zur Verbesserung der AIOps-Workflows.

Sie können hier mehr über Argo Workflows lesen:

‍

‍Argo Workflows - The workflow engine for Kubernetes

Apache Flink

‍

Bereitstellung von ML-Modellen mit Kubernetes und Numaflow

Die Bereitstellung von Modellen für maschinelles Lernen (ML) mit Kubernetes und Numaflow kann eine herausfordernde Aufgabe sein, insbesondere angesichts der Latenz- und Verkehrsmuster, die erheblich variieren. Intuit verwendet ein einzigartiges Serversystem, das in der operativen AI-Ops-Plattform verwendet wird. Wenn Daten empfangen werden, ähnelt der Inferenzprozess jeder anderen benutzerdefinierten Funktion (UDF), unabhängig davon, ob es sich um eine Konvertierung von Protobuf in Daten oder um eine Inferenz handelt. Numaflow stellt ein SDK für verschiedene Sprachen bereit, wobei Python aufgrund seines Verhaltens bei hohem Durchsatz, für das mehrere Prozesse und prozedurales Python erforderlich ist, am komplexesten zu unterstützen ist. Für andere Sprachen ist das kein Problem.

Um eine Handler-Funktion zu erstellen, muss der Benutzer nur eine Funktion schreiben, die angibt, wie eine von Numaflow bereitgestellte Nachricht behandelt werden soll. Die Funktion nimmt eine Nachricht entgegen und gibt eine flache Map zurück, die als Eingabe bzw. Ausgabe dient. Die Signatur der Funktion gilt für jeden Scheitelpunkt, unabhängig von der Aufgabe.

Wenn es um Modelle geht, werden sie basierend auf der Problemstellung abgerufen und zwischengespeichert. Eine Nachricht wird empfangen, verarbeitet und als Inferenz zurückgegeben, die an den nächsten Scheitelpunkt weitergeleitet wird. Je nach Anwendungsfall kann das Modell auf unterschiedliche Weise gespeichert werden. Für eine stark dezentrale Architektur mit hohem Durchsatz wird ein Schlüssel verwendet. Für eine zentralisierte Architektur wird in DynamoDB ein Verweis auf S3 gesetzt. Im Allgemeinen besteht das Ziel darin, den Prozess für einen ML-Ingenieur zu vereinfachen, der nur den Klassennamen ändern muss, da der Rest abstrahiert wird.

Die Plattform verwendet gRPC anstelle von REST, und je nach Problemstellung wird eine Kombination von Techniken verwendet, um den Modelllebenszyklus zu verwalten. MLflow wird verwendet, um den Lebenszyklus zu verwalten, wenn es angemessen ist, während andere Techniken für eine dezentralere Architektur verwendet werden, in der MLflow keine Option ist. Die wichtigste Erkenntnis für einen ML-Ingenieur ist, eine Handler-Funktion zu schreiben, die Eingabe und Ausgabe entgegennimmt und das System den Rest erledigen lässt.

Du kannst hier mehr über Numaflow lesen:

‍

‍Numaflow - Data/streaming processing platform on Kubernetes

Apache Flink

‍

Umschulungssysteme, Numaflow gegen Flink

Das von Numaflow verwendete Umschulungssystem variiert je nach Anwendungsfall. Für komplexere Fälle mit 20 Anfragen pro Sekunde setzt Numaflow einen vollständigen Argo-Workflow ein, der mehrere Schritte zum Abrufen von Daten und zum Aktualisieren des Modellspeichers umfasst. Für leichtere Systeme verwendet Numaflow eine benutzerdefinierte Funktion (UDF), die eine Funktion ausführt, um das gewünschte Ergebnis zu erzielen.

Unterschied zwischen Numaflow und Flink

Verarbeitungsgeschwindigkeit: Numaflow legt Wert auf die Entkopplung der Nachrichtenverarbeitungsgeschwindigkeit von der Latenz, während Flink sich auf einen hohen Durchsatz mit niedriger Latenz konzentriert und sich daher besser für die Datenverarbeitung mit hohem Durchsatz eignet.
Dieser Unterschied im Durchsatz ist darauf zurückzuführen, dass Numaflow für umfangreiche Zahlenverarbeitung und eingabe-/ausgabeintensive (I/O) -intensive Aktivitäten konzipiert ist, während Flink besser für die Datenverarbeitung mit hohem Durchsatz geeignet ist.
Format der Datenserialisierung: Flink verwendet sein eigenes effizientes und klar definiertes Serialisierungsformat, während Numaflow einen Blackbox-Ansatz verwendet, der es schwierig macht, Hashcodes und Equals für ein effizientes Speichern und Abrufen von Nachrichten zu definieren.

Sie können hier mehr über Apache Flink lesen:

‍

‍Use Cases

Use Cases # Apache Flink is an excellent choice to develop and run many different types of applications due to its extensive features set. Flink’s features include support for stream and batch processing, sophisticated state management, event-time processing semantics, and exactly-once consistency g…

Apache Flink

‍

Sicherheits- und Compliance-Maßnahmen in AIOps bei Intuit

Intuit verfügt über strenge Sicherheitsmaßnahmen, einschließlich Verschlüsselungsalgorithmen auf Anwendungsebene.
Das AIOps-System bei Intuit verfolgt einen wasserdichten Kompartimentierungsansatz, bei dem jeder Namespace isoliert und mit TLS für Daten im Ruhezustand und bei der Übertragung verschlüsselt wird.
Das AIOps-Team von Intuit folgt den Sicherheitsprinzipien von Argo, einem Open-Source-Projekt unter CNCF, zur Verschlüsselung von Daten auf allen Ebenen, einschließlich Metrik-Endpunkten.
Das AIOps-System für Kundendaten bei Intuit unterliegt noch strengeren Sicherheitsbeschränkungen mit gut geprüften und gut gepflegten Daten, auf die selbst Benutzer nicht zugreifen können. Aus diesem Grund sind Betriebsdaten von Kundendaten entkoppelt, es gelten jedoch weiterhin Sicherheitsmaßnahmen.

MLOps gegen AIOps

Machine Learning Operations (MLOps) und Artificial Intelligence Operations (AI Ops) sind zwei Begriffe, die oft synonym verwendet werden, aber tatsächlich haben sie unterschiedliche Prinzipien und Prozesse.
MLOps konzentriert sich in erster Linie auf die Verwaltung des Modelllebenszyklus, während sich AI Ops mehr auf den operativen Bereich konzentriert.

In KI-Operationen, wir verwenden in der Regel Technologien wie HyperLogLog und latenzbasierte Skizzen, die für die Arbeit mit Betriebsdaten konzipiert sind. Diese Technologien können Fehlerquoten von etwa 0,89 aufweisen und ermöglichen Näherungswerte. Wir stützen uns auch auf statistische Signifikanz, um Probleme zu erkennen und zu isolieren, mit dem Ziel, die mittlere Lösungszeit (Mean Time to Resolution, MTTR) zu reduzieren.

Im Gegensatz dazu MLOPs nutzt verschiedene Technologien wie ML Flow und andere Heuristiken, um den Lebenszyklus eines Modells zu verwalten. Bei Intuit haben sie auch Muster wie das Zukunftsmanagement entwickelt, um den Modelllebenszyklus zu optimieren. Ihr Ziel bei MLOps ist es, den gesamten Modelllebenszyklus zu verwalten, von der Schulung über die Bereitstellung bis hin zur Überwachung und Optimierung.

Teaser für Vigiths KubeCon-Präsentation: Kundenorientierte KI-Operationen mit Anomalieerkennung

In der bevorstehenden Präsentation von Vigith auf der KubeCon dreht sich alles um kundenorientierte KI-Operationen und Anomalieerkennung. Der Schwerpunkt liegt auf der Alarmierung, die auf der Erfahrung des Kunden und nicht auf der Erfahrung des Systems basiert. Das bedeutet, komplexe Abhängigkeitsdiagramme zu erstellen, die auf der Rückverfolgung von Daten und der Isolierung von Anomalien basieren, anstatt sie nur zu erkennen.

Die Plattform verwendet eine Sammlung von Dimensionen und Metriken, um anhand von Zeitreihendaten zusammengesetzte Schlüsselanomalien zu erkennen, sodass Anomalien auf einer ganz bestimmten Ebene lokalisiert werden können. Das Ziel dieses Projekts ist es, eine generalisierte Lösung für die Erkennung von Anomalien bereitzustellen, die es zu einem „Do It Yourself“ -Anomaliesystem machen.

In der Präsentation von Vigith werden die Funktionen der Plattform vorgestellt und gezeigt, wie sie bei Intuit for AI Ops erfolgreich implementiert wurde. Verpassen Sie nicht diese Gelegenheit, sich über die neuesten Fortschritte im Bereich kundenorientierter KI-Operationen und Anomalieerkennung zu informieren.

Lesen Sie unseren vorherigen Beitrag in der TrueML-Serie

‍

‍True ML Talks #7 - Machine Learning Platform @ Edge

In this blog, we dive deep into Edge’s ML Platform. Understand their ML architecture, how ML is used in the talent acquisition industry.

TrueFoundry Blog TrueFoundry

‍

Schaue weiter TrueML YouTube-Serie und das TrueML lesen Blog-Serie.

Wahre Gießerei ist ein ML Deployment PaaS über Kubernetes, um die Workflows von Entwicklern zu beschleunigen und ihnen gleichzeitig volle Flexibilität beim Testen und Bereitstellen von Modellen zu bieten und gleichzeitig die volle Sicherheit und Kontrolle für das Infra-Team zu gewährleisten. Über unsere Plattform ermöglichen wir Teams für maschinelles Lernen bereitstellen und überwachen Modelle innerhalb von 15 Minuten mit 100% iger Zuverlässigkeit, Skalierbarkeit und der Möglichkeit, innerhalb von Sekunden rückgängig zu machen. So können sie Kosten sparen und Modelle schneller für die Produktion freigeben, wodurch ein echter Geschäftswert erzielt wird.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo