LLMs zur programmatischen Datenkennzeichnung und Schulung bei Snorkel.ai

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last
Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!
- Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
- Produktionsbereit mit vollem Unternehmenssupport
Einführung
In der neuesten Folge von TrueML Talks führt Nikunj, Mitbegründer von True Foundry, ein aufschlussreiches Gespräch mit Vincent, einer grundlegenden Figur bei Snorkel AI. Als Unternehmen, das sich im Mittelpunkt der sich entwickelnden KI-Landschaft befindet, bietet der Weg von Snorkel AI von der Wissenschaft zum führenden Unternehmen in der datenzentrierten KI-Entwicklung tiefgreifende Einblicke. Vincent berichtet über seine Erfahrungen von den Anfängen im Stanford AI Lab bis hin zur Produkt- und Designsteuerung bei Snorkel AI. Er beleuchtet die Feinheiten des maschinellen Lernens (ML), der Large Language Models (LLMs) und die Auswirkungen generativer KI auf die Branche. Wir haben die folgenden Themen angesprochen:
- Die Entwicklung der Schnorchel-KI
- Datenzentrierte KI-Entwicklung
- Übergang zur Produktführerschaft
- Generative KI und offene Modelle
- Karriereberatung für KI-Enthusiasten
Beginn von Snorkel AI
Vincent erzählt von den Wurzeln von Snorkel AI als akademisches Projekt, das sich auf schwache Supervision und programmatische Kennzeichnung konzentriert. Dieser Ansatz legte den Grundstein für das, was Snorkel AI heute für Unternehmen im Bereich der KI-Anwendungsentwicklung geworden ist. Vincents Weg von einem Doktoranden zu einer Führungskraft bei Snorkel AI zeigt uns, wie aus starker akademischer Forschung ein Startup wird und was Snorkel heute ist. In Stanford arbeiteten sie mit Ärzten zusammen und erstellten maßgeschneiderte Datensätze für sie, die ihnen halfen, einen realen Anwendungsfall für ihre Forschung zu finden.
Er berichtet auch über seine Zeit bei Y-Combinator und erzählt von seinen Anfängen und seinem Hunger nach Wachstum und Lernen in der Technik.
Der Kern von Snorkel AI: Datenzentrierte KI-Entwicklung
Vincent erzählt, dass das Erstellen von Datenbanken am Anfang nur das Teilen großer Datensätze zwischen Teams und eine unorganisierte Aufgabe war, dies wurde geändert. Vincent geht näher auf den Schwerpunkt des Unternehmens ein, Unternehmensteams dabei zu unterstützen, Daten in großem Maßstab zu verwalten, zu kuratieren und zu kennzeichnen — und damit die Hausmeisteraufgaben der KI-Entwicklung. Dieser datenzentrierte Ansatz ermöglicht es Unternehmen, KI eng an ihren individuellen Zielen und Datensätzen auszurichten, wobei die entscheidende Rolle von Daten bei der Programmierung von KI-Systemen betont wird. Er erwähnt auch, dass in Branchen wie Banken und Gesundheitswesen keine Wahrscheinlichkeit einer Datengenauigkeit bestehen kann, da ein Fehler von LLMs für den Betrieb fatal sein kann.
- Programmatische Datenentwicklung: Einführung eines skalierbaren, anpassungsfähigen und effizienten Ansatzes zur Datenkennzeichnung, der von traditionellen manuellen Methoden abweicht.
- Auswirkungen auf Unternehmen: Es wird gezeigt, wie der Ansatz von Snorkel AI den Umgang mit Daten für Unternehmen revolutioniert hat und die KI-Entwicklung agiler gemacht hat und besser auf Veränderungen reagiert.
- Anpassungsfähigkeit und Skalierbarkeit: Die Fähigkeit von Unternehmen, ihre Datenkennzeichnungsprozesse schnell anzupassen, ohne bei Null anfangen zu müssen. Dies ist ein Vorzeichen für eine Zukunft, in der die KI-Entwicklung deutlich dynamischer ist.
Übergang von ML Engineering zur Produktführerschaft
Vincent hat einen ML-Hintergrund und erzählt, wie ihm die Rolle des Leiters für Produkt (KI/ML) und Design hilft, direkt mit Datenwissenschaftlern und ML-Ingenieuren zu sprechen. Dies hilft ihm, ihre Anwendungsfälle und Problembereiche zu verstehen, die er direkt in das Produkt integrieren kann. Aufgrund seiner multidimensionalen Einbindung in verschiedene Bereiche bei Snorkel kann er das Produkt an die Bedürfnisse der Kunden anpassen.
Die Auswirkungen generativer KI und offener Modelle
Das Zeitalter der generativen KI und die Verbreitung offener Modelle haben die KI-Landschaft erheblich beeinflusst. Vincent erklärt, dass LLMs die neueste Ergänzung bei der Generierung von Datensätzen für Trainingszwecke sind, dass sie aber andererseits oft mit der Genauigkeit der erstellten Datensätze zu kämpfen haben. Wie wir bereits besprochen haben, können von einem LLM generierte Daten für allgemeine Anwendungsfälle und Aufgaben auf Demo-Ebene geeignet sein. Dies gilt jedoch nicht für Anwendungsfälle, in denen Genauigkeit in Bereichen wie Banken, Finanzen, Versicherungen und Gesundheitswesen eine wichtige Rolle spielt.
- Post-ChatGPT-Landschaft: Überlegungen zur Entstehung generativer KI und ihren Auswirkungen auf die KI-Community und Unternehmensanwendungen.
- Bedeutung von Open-Source-Daten: Die Forderung nach einer Open-Source-Bereitstellung nicht nur von KI-Modellen, sondern auch von Datensätzen und Entwicklungsprozessen, um Innovationen zu fördern und die Sicherheit und Zuverlässigkeit der KI zu gewährleisten.
- Spezialisierte Daten für Unternehmensanwendungen: Der anhaltende Bedarf an hochwertigen, spezialisierten Daten, um generative KI-Modelle für spezifische Geschäftsanforderungen zu trainieren.
Aktuelle KI-Landschaft im Überblick
Vincents scharfer Blick auf den aktuellen Stand der KI-Entwicklung unterstreicht den entscheidenden Wandel hin zu Open-Source-Modellen und -Daten und schlägt einen ganzheitlicheren Ansatz für den Austausch von KI-Innovationen vor. Er argumentiert, dass das wahre Wesen von Open Sourcing im Bereich KI über die bloße Veröffentlichung der Modellgewichte hinausgehen sollte; es sollte auch beinhalten, Datensätze, Entwicklungsprozesse und die Beweggründe für das Modelltraining zugänglich zu machen. Dieser Ansatz fördert ein kollaboratives Ökosystem, das Innovationen beschleunigt, Reproduzierbarkeit gewährleistet und sicherere KI-Systeme aufbaut. Indem er sich für die Open-Data-Bewegung einsetzt, unterstreicht Vincent die Bedeutung von Transparenz bei der KI-Entwicklung, die es einer breiteren Gemeinschaft ermöglicht, zu den Fortschritten in diesem Bereich beizutragen und von ihnen zu profitieren. Diese Perspektive stellt nicht nur die herkömmlichen Praktiken der gemeinsamen Nutzung von KI in Frage, sondern erfordert auch eine umfassende Strategie, die die KI-Entwicklung demokratisieren und sicherstellen könnte, dass die Vorteile der KI-Technologien breit gestreut und zugänglich sind.
- Beschleunigt Innovation: Open-Source-Datensätze und Entwicklungsprozesse ermutigen die Community zu Innovationen und bauen auf bestehenden Arbeiten auf, anstatt bei Null anzufangen.
- Sorgt für Reproduzierbarkeit: Die Transparenz der KI-Entwicklungsprozesse ermöglicht die Überprüfung von Ergebnissen und Methoden, was für den wissenschaftlichen Fortschritt und das Vertrauen in KI-Anwendungen von entscheidender Bedeutung ist.
- Baut sicherere Systeme: Der Zugang zu den Datensätzen und der Logik, die in Trainingsmodellen verwendet werden, hilft bei der Identifizierung von Vorurteilen und Fehlern und trägt so zur Entwicklung zuverlässigerer und ethischerer KI-Lösungen bei.
- Demokratisiert die KI-Entwicklung: Die Bereitstellung umfassender KI-Ressourcen für ein breiteres Publikum gleicht die Wettbewerbsbedingungen aus und ermöglicht es Einzelpersonen und Organisationen mit unterschiedlichen Ressourcen, zu KI-Fortschritten beizutragen und von ihnen zu profitieren.
- Fordert konventionelle Praktiken heraus: Vincents Stellungnahme fordert die KI-Community auf, die Art und Weise, wie KI-Technologien geteilt und entwickelt werden, zu überdenken und sich für einen inklusiveren und kollaborativeren Ansatz einzusetzen.
Tipps für angehende KI-Experten
Vincent erwähnt, dass das Hackathon-Level nicht ausreicht, du musst dir die Hände schmutzig machen und etwas ausprobieren, das du benutzt, um Ergebnisse zu erzielen und dich von der Masse abzuheben. Vincent denkt über seine Reise nach und gibt denjenigen, die ihre KI-Karriere beginnen, Ratschläge. Er betont den Wert praktischer Erfahrung und ermutigt Einzelpersonen, KI-Projekte zu entwickeln und zu wiederholen, die sich mit realen Herausforderungen befassen. Dieses Erfahrungslernen, gepaart mit Zusammenarbeit und einer Leidenschaft für Erkundung, ist entscheidend, um sich in der sich schnell entwickelnden KI-Domäne zurechtzufinden.
TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.
Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren













.png)




.png)






.webp)

.webp)



