True ML Talks #11 - LLMs, LLMOPs und GENai CTO bei Greenhouse

Published: April 22, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Wir sind zurück mit einer weiteren Folge von True ML Talks. In dieser Ausgabe tauchen wir erneut tief in LLMs, LLMops und Generative KI ein, und wir sprechen mit Mike Boufford.

Michael ist der CTO von Greenhouse, der vor etwa 11 Jahren als erster Mitarbeiter zu uns kam, also die ersten Codezeilen geschrieben hat und das Unternehmen zu dem gemacht hat, was es heute ist.

📌

Unsere Gespräche mit Mike werden die folgenden Aspekte behandeln:
- Organisationsstruktur der ML-Teams bei Greenhouse
- Wie LLMs und generative KI-Modelle in Greenhouse verwendet werden
- Navigieren in großen Sprachmodellen
- Prompt Engineering verstehen
- LLMOPs und kritische Tools für LLMs

Sehen Sie sich die ganze Folge unten an:

Organisationsstruktur der Teams für Datenwissenschaft und maschinelles Lernen bei Greenhouse

Die Teams von Greenhouse für Datenwissenschaft und maschinelles Lernen haben sich mit dem Wachstum des Unternehmens weiterentwickelt und sind von Generalisten zu spezialisierten Rollen übergegangen. Zu den wichtigsten Aspekten ihrer Organisationsstruktur gehören:

Datentechnik und Plattform: Ein engagiertes Team kümmert sich um Data Engineering, Data Warehousing und die Entwicklung von Funktionen für maschinelles Lernen. Sie unterstützen die Marketingaktivitäten und kümmern sich um die Bereitstellung und den Betrieb von Code und Modellen.
Produktdatenwissenschaft: Dieses Team konzentriert sich auf die Unterstützung von Produktentscheidungen durch innovative Projekte, Datenanalysen und Erkenntnisse, die die Produktentwicklung vorantreiben.
ML Ingenieurwesen: Greenhouse verfügt über ein ML-Engineering-Team, das auf die Entwicklung skalierbarer und zuverlässiger, produktionsreifer Modelle für verschiedene Produktanwendungsfälle spezialisiert ist.

Zusätzlich ein Team für Geschäftsanalysten befasst sich mit geschäftsbezogenen Fragen und gibt Einblicke.

Das Infrastrukturmanagement liegt in der Verantwortung eines separaten Infrastruktur-Team, beaufsichtigt Komponenten wie Kubernetes und AWS. Datenspeicher verfügen über ein eigenes Team für die Verwaltung.

Wie LLMs und generative KI-Modelle in Greenhouse verwendet werden

Hier sind die verschiedenen Anwendungsfälle, in denen diese Modelle im Betrieb von Greenhouse eingesetzt wurden.

Berufsähnlichkeit und Datenverarbeitung: Greenhouse hat LLMs, darunter Bard und GPT-2, verwendet, um verschiedene Aspekte berufsbezogener Daten zu analysieren und zu verarbeiten. Diese Modelle helfen bei der Feststellung von Ähnlichkeiten zwischen verschiedenen Stellenangeboten sowie bei der Analyse und Verarbeitung von Rohdaten aus Lebensläufen. Der Schwerpunkt liegt auf einer effizienten Datenverarbeitung und Kennzeichnung im Zusammenhang mit Stellenbeschreibungen.
RAG-Architektur für schnellere Antworten: Greenhouse hat kürzlich den Einsatz von GPT-4 für innovative Anwendungsfälle untersucht. Eine davon beinhaltet die Implementierung der RAG-Architektur (Retrieval-Augmented Generation), um schnelle Antworten auf Benutzeranfragen zu ermöglichen. Durch den Einsatz generativer Modelle will Greenhouse Benutzern ermöglichen, Antworten auf komplexe Fragen zu erhalten, für die zuvor eine manuelle Berichtsgenerierung erforderlich war. Das generative Modell fungiert als Übersetzer, der englische Abfragen in eine Abfragesprache umwandelt, die mit dem Datenspeicher interagiert, und übersetzt die Antwort dann zur Nutzung zurück.
Berichterstattung und Business Intelligence (BI): Mit dem Zugriff auf riesige Mengen an Textdaten in Form von Stellenbeschreibungen und Lebensläufen ist Greenhouse gut positioniert, um LLMs und generative Modelle für Berichts- und BI-Zwecke zu nutzen. Greenhouse bietet bereits vorgefertigte Berichte, einen benutzerdefinierten Berichtsgenerator und ein Data Lake-Produkt an. Das Unternehmen plant, LLMs zu nutzen, um eine Vielzahl von Berichtsfragen im Zusammenhang mit der Rekrutierung zu beantworten, z. B. zur Leistung bei der Beschaffung, zum Ablauf von Vorstellungsgesprächen, zum Einstellungsstatus, zur Budgetanalyse und mehr.

In großen Sprachmodellen navigieren: Probleme angehen und Self-Hosting nutzen

Probleme mit großen Sprachmodellen

ChatGPT, das auf Modellen wie GPT-4 basiert, bietet zwar beeindruckende Ergebnisse, aber mit seiner Verwendung sind immer noch einige Herausforderungen und Bedenken verbunden. Hier sind ein paar Probleme, die bei ChatGPT auftreten:

Zuverlässigkeit: GPT-4 steckt noch in den Kinderschuhen und ist möglicherweise nicht vollständig zuverlässig für den Einsatz in der Produktionsinfrastruktur. Daher ist es möglicherweise nicht ratsam, sich bei kritischen Systemen, die eine gleichbleibende Leistung und Zuverlässigkeit erfordern, ausschließlich auf GPT-4 zu verlassen.
Nutzungsbedingungen und Datenschutz: Wie bei jedem KI-Modell gibt es Bedenken, wie mit Daten umgegangen wird und ob sie für Trainingszwecke verwendet werden. Es kann ein großes Problem sein, darauf zu vertrauen, dass Daten sicher behandelt werden und nicht durchgesickert oder missbraucht werden, insbesondere wenn es um sensible Daten wie personenbezogene Daten (PII) geht.
Selbst gehostete Modelle: Die Verwendung kleinerer, selbst gehosteter Modelle kann Vorteile in Bezug auf Zuverlässigkeit, Kosten und Leistung bieten. Indem Sie die Modelle in Ihrer eigenen Infrastruktur hosten, haben Sie mehr Kontrolle über Eingabe-/Ausgabeparameter, Überwachungs- und Sicherheitskonfigurationen. Dieser Ansatz kann die Risiken minimieren, die mit der Nutzung externer Dienste verbunden sind.
Talent und Infrastruktur: Das Hosten noch kleinerer Sprachmodelle erfordert spezielle Fähigkeiten und Infrastruktur. Es kann notwendig sein, das notwendige Fachwissen und die Ressourcen intern aufzubauen, um diese Modelle effektiv verwalten und nutzen zu können. Cloud-Anbieter wie Azure, Google und Amazon entwickeln zwar ihre eigenen großen Sprachmodelle, verfügen jedoch möglicherweise nicht über umfangreiche Erfahrung im Umgang mit nicht vertrauenswürdigen Eingaben und den damit verbundenen spezifischen Herausforderungen.
Datensicherheit: Der Schutz sensibler Daten ist von entscheidender Bedeutung, insbesondere bei der Verarbeitung personenbezogener Daten. Ein Ansatz besteht darin, Modelle zu trainieren, ohne die Rohdaten direkt zugänglich zu machen. Beispielsweise kann die Verwendung von verlustfreien Hashes von Werten anstelle der tatsächlichen Daten dazu beitragen, die Privatsphäre zu wahren und gleichzeitig aussagekräftige Zusammenhänge zu erfassen. Es wird unerlässlich sein, mit verschiedenen Ansätzen zu experimentieren und die Datensicherheit zu gewährleisten.

Vorteile von selbst gehosteten Modellen

Bessere Modellleistung: Kleinere Modelle können eine bessere Leistung bei der Beantwortung von Fragen bieten.
Kostenreduzierung: Die Rechenkosten sind niedriger, wenn kleinere Modelle verwendet werden, ohne den zusätzlichen Aufwand eines Drittanbieters.
Kontrolle und Rechenschaftspflicht: Self-Hosting-Modelle ermöglichen mehr Kontrolle und Rechenschaftspflicht, da sie in Ihrer eigenen Infrastruktur ausgeführt werden.
Datensicherheit und Datenschutz: Self-Hosting mindert das Risiko einer Datenflucht und gewährleistet eine bessere Kontrolle über Eingabe- und Ausgabeparameter.
Überwachung und Sicherheit: Selbst gehostete Modelle ermöglichen eine bessere Überwachung und die Möglichkeit, Sicherheitskonfigurationen gemäß Ihren Anforderungen einzurichten.
Für SaaS-Unternehmensanwendungen bevorzugt: Für Funktionen, die von selbst gehosteten Modellen bereitgestellt werden können und die erforderlichen Leistungsstandards erfüllen, ist es vorzuziehen, Self-Hosting zu wählen.
Lebensfähigkeit von GPT-4: Die Zuverlässigkeits-, Datensicherheits- und Datenschutzaspekte von GPT-4 werden noch bewertet und müssen weiter bewertet werden, bevor es für Produktionssysteme in Betracht gezogen wird.

Bewertung und Entscheidungsfindung

Bei der Überlegung, ob sie in selbst gehostete Modelle investieren oder sich auf große kommerzielle Sprachmodelle verlassen sollten, sollten Führungskräfte die folgenden Faktoren sorgfältig abwägen:

Anwendungsfälle: Beurteilen Sie, ob das vorliegende Problem mit kleineren Modellen im Hinblick auf Kosteneffizienz und Recheneffektivität effektiv gelöst werden kann.
Langfristige Auswirkungen auf die Kosten: Bedenken Sie die potenziellen Kosteneinsparungen, wenn Sie Ihr eigenes Modell hosten, im Vergleich zum Zugriff auf sehr große Modelle, was zu sinkenden Renditen führen kann.
Kontrolle und Autonomie: Wägen Sie die Vorteile einer größeren Kontrolle und Autonomie über die Infrastruktur und Ausrichtung des Modells sowie der Möglichkeit ab, das Modell an bestimmte Anwendungsfälle anzupassen und zu spezialisieren.
Investitions- und Lernmöglichkeiten: Machen Sie sich bewusst, dass das Erstellen und Trainieren kleinerer Modelle anfängliche Investitionen in Teamressourcen, Experimente und Feinabstimmung erfordern kann. Diese Investition kann jedoch zu optimierten Modellen führen, die auf bestimmte Anwendungsfälle zugeschnitten sind, und das Wissen und Verständnis des Teams verbessern.

Prompt Engineering verstehen

Prompt Engineering ist zu einem Diskussionsthema im Bereich der großen Sprachmodelle (LLMs) geworden. Es beinhaltet die Erstellung effektiver Prompts, um aus dem Modell die gewünschten Reaktionen hervorzurufen. Hier sind einige wichtige Punkte, um das Konzept und seine Auswirkungen zu verstehen:

Prompt Engineering als eigenständige Rolle: Prompt Engineering kann zu einer anerkannten Berufsbezeichnung oder einer speziellen Rolle in diesem Bereich werden, da Experten Eingabeaufforderungen optimieren und neuronale Netzwerke effektiv manipulieren.
Technischer Ansatz für Eingabeaufforderungen: Prompt Engineering beinhaltet die Anwendung der wissenschaftlichen Methode, um vorhersehbare Ergebnisse zu erzielen, indem die Eingabeaufforderungen optimiert und verfeinert werden, um die gewünschten Ergebnisse zu erzielen.
Unterschied zur Verwendung von Casual Prompt: Das einfache Kopieren und Einfügen von Eingabeaufforderungen ohne tieferes Verständnis oder Änderungen gilt nicht als Prompt-Engineering.
Vielfältiger Charakter von Prompt Engineering: Prompt Engineering erfordert ein umfassendes Verständnis darüber, wie Prompts neuronale Netzwerke beeinflussen, und welche spezifischen Informationen sie erfassen, was über sprachliche Fähigkeiten hinausgeht.
Fehlende deterministische Programmierung: LLMs führen aufgrund von Variationen in Modellen, Trainingsdaten und Verhaltensänderungen zu Komplexität, was ein schnelles Engineering zu einer Herausforderung macht.
Mögliche Verbesserungen der Effizienz und Vorhersagbarkeit: Ein tieferes Verständnis von LLMs kann zu einer effizienteren Aktivierung neuronaler Netzwerkteile führen, was zu vorhersehbareren und konsistenteren Ergebnissen führt.
Visualisierung der mehrschichtigen Kodierung: Transformatorarchitekturen in LLMs kodieren Informationen auf verschiedenen Ebenen, ähnlich wie CNNs Bilder verarbeiten. Prompt-Techniker können untersuchen, wie bestimmte Ebenen aktiviert werden, um die generierten Ergebnisse zu beeinflussen.
Tooling Landscape und LLMOPs: Die Aufmerksamkeit verlagert sich auf die Tooling-Landschaft rund um LLMs, die als LLMOPs bezeichnet werden und die Entwicklungs-, Bereitstellungs- und Managementpraktiken umfasst. Der Begriff befindet sich noch in der Entwicklung.

LLMOPs und kritische Tools für LLMs

LLMOPs und die Tooling-Landschaft rund um große Sprachmodelle (LLMs) gewinnen zunehmend an Aufmerksamkeit.

Wenn es um schnelle Verwaltung, schnelle Datenverarbeitung, Kennzeichnung von Feedback und andere wichtige Aufgaben geht, wird erwartet, dass bestimmte Tools im Zuge der zunehmenden Nutzung von LLM eine entscheidende Rolle spielen. Zu den wichtigsten Überlegungen gehören:

Faktor-Datenbanken: Durchsuchbare Datenbanken wie Minecon werden entscheidend sein, um relevanten Kontext abzurufen und in das neuronale Netzwerk zurückzugeben. Der Zugriff auf relevante Informationen ermöglicht eine schnelle Planung und Optimierung.
Projektrahmen: Projekte wie LangChain bieten Codierungsframeworks, die die Implementierung einer Vielzahl von Funktionen erleichtern und zu einer effizienten LLM-Nutzung beitragen.
Integration und Infrastruktur: LLMs sind in der Regel Teil umfassenderer Programme und erfordern eine effektive Integration und Verwaltung verschiedener Komponenten. Es ist unerlässlich, verschiedene Komponenten miteinander zu verbinden, um die gewünschten Ergebnisse zu erzielen, und erfordert möglicherweise Fachwissen in den Bereichen Infrastruktur und Speichermanagement.
Überwachung und Wartung: Traditionelle Methoden des maschinellen Lernens, wie die Überwachung von Regressionen, die Leistungsbewertung und die Bewertung der Infrastrukturkapazität, bleiben im Zusammenhang mit LLMs relevant. Die Gewährleistung einer angemessenen Infrastruktur- und Kapazitätsunterstützung ist für eine optimale Leistung von entscheidender Bedeutung.
Sofortige Aufbewahrung: Das Speichern von Eingabeaufforderungen für die zukünftige Verwendung erfordert eine sorgfältige Überlegung. Zwar können verschiedene Optionen, wie Datenbanken, Caching oder Dateispeicherung, zum Speichern von Text und sogar parametrisierbarem Text verwendet werden, doch die Entwicklung sinnvoller Möglichkeiten zum Speichern von Eingabeaufforderungen ist ein fortwährendes Forschungsgebiet.
Speicheroptimierung: Der Umgang mit den Speicheranforderungen großer Modelle kann eine Herausforderung sein. Die Verwaltung der GPU-RAM-Nutzung ist von entscheidender Bedeutung, insbesondere bei der Feinabstimmung von Modellen, die den Speicherbedarf erheblich erhöhen. Die Optimierung von Modellen für bestimmte GPU-Typen oder Latenzanforderungen erfordert Fachwissen und Toolunterstützung.
Werkzeuge für das Infrastrukturmanagement: Da Unternehmen LLMs auf ihren eigenen Cloud-Infrastrukturen ausführen, ergeben sich neue Herausforderungen in Bezug auf die Verwaltung der Infrastruktur. Für Aufgaben wie die automatische GPU-Skalierung, die Sicherstellung der Verfügbarkeit, die Kostenoptimierung und den Aufbau skalierbarer Systeme, die auf spezifische Geschäftsanforderungen abgestimmt sind, wird Unterstützung durch Tools benötigt.
Workflows für Entwickler: Tools, die die Arbeitsabläufe von Entwicklern bei der Arbeit mit LLMs verbessern, sind unerlässlich. Die Vereinfachung komplexer Prozesse und die Bereitstellung intuitiver Benutzeroberflächen können dazu beitragen, die Einführung zu beschleunigen und LLMs für ein breiteres Spektrum von Benutzern zugänglicher zu machen.
Bildung der Gemeinschaft: Da sich der LLM-Bereich noch in einer Explorationsphase befindet, haben Unternehmen wie Wahre Gießerei die Gelegenheit haben, die Community über verfügbare Tools, bewährte Verfahren und Lösungen für gemeinsame Herausforderungen aufzuklären und zu beraten.

📌

Evaluierung von Modellen mit großen Domänen
Im Zusammenhang mit der Beteiligung von Menschen an der Evaluierung wird der „Human in the Loop“ -Ansatz häufig in schwerwiegenden Anwendungsfällen mit LLMs angewendet. Die Validierung durch den Menschen ist entscheidend, um die Leistung des Modells zu beurteilen und seine Ergebnisse zu validieren. Selbst bei der Feinabstimmung der GPT-Modelle spielte die menschliche Beteiligung eine wesentliche Rolle.

Für weniger kritische Anwendungsfälle, in denen eine gewisse Fehlerquote besteht, besteht ein kostengünstiger Ansatz darin, größere Modelle zu verwenden, um die Antworten kleinerer Modelle zu bewerten. Mehrere Antworten, die von den kleineren Modellen generiert wurden, können mit einem größeren Modell verglichen und bewertet werden, sodass Metriken zur Leistungsmessung festgelegt werden können. Dieser Ansatz verursacht zwar einige Kosten, ist aber im Allgemeinen wirtschaftlicher, als sich ausschließlich auf menschliche Anstrengungen zu verlassen.

Bleiben Sie auf dem Laufenden in der sich ständig weiterentwickelnden Welt

In der sich ständig weiterentwickelnden Welt von LLMs und maschinellem Lernen auf dem Laufenden zu bleiben, kann eine Herausforderung sein. Hier sind einige effektive Ansätze, um auf dem Laufenden zu bleiben und Wissen zu erlangen:

Videos mit KI-Erklärungen: Das Anschauen von KI-Erklärvideos auf Plattformen wie YouTube bietet eine bequeme Möglichkeit, die wichtigsten Erkenntnisse und Ergebnisse wissenschaftlicher Arbeiten ohne umfangreiche Lektüre zu erfassen. Diese Videos fassen komplexe Konzepte zusammen und sparen Zeit und Mühe.
Online-Communities: Die Zusammenarbeit mit Online-Communities wie Hacker News und Subreddits für maschinelles Lernen bietet Einblicke, Diskussionen und Updates zu neuen Trends und Technologien in diesem Bereich.
Praktische Erfahrung: Die aktive Teilnahme an praktischen Anwendungen von LLMs ist entscheidend, um ein tieferes Verständnis ihrer Potenziale und Grenzen zu erlangen. Durch Experimentieren und Erkunden der Fähigkeiten kann man ihr Wissen erweitern.
Barrierefreiheit von APIs: Anders als in der Vergangenheit, als maschinelles Lernen die Überprüfung komplexer mathematischer Konzepte erforderte, ist die heutige Landschaft eher API-gesteuert. Vorgefertigte APIs und Bibliotheken ermöglichen es Entwicklern, mit dem Experimentieren und Erstellen von Anwendungen zu beginnen, ohne die fortgeschrittene Mathematik erneut erlernen zu müssen.
Programmierkenntnisse: Das Erlernen spezifischer Bibliotheksmethoden und das Lösen von Umweltproblemen sind wertvolle Fähigkeiten für die effektive Implementierung von LLMs.

Lesen Sie unsere vorherigen Blogs in der True ML Talks-Reihe:

‍

True ML Talks #10 - LLMs and Generative AI

Deep dive into LLM’s, Generative AI and ChatGPT. We talk with Anant, Engineering Director at Meta about the trends in the Machne Learning Space.

TrueFoundry Blog TrueFoundry

Schaue weiter TrueML YouTube-Serie und das TrueML lesen Blog-Serie.

Wahre Gießerei ist ein ML Deployment PaaS über Kubernetes, um die Workflows von Entwicklern zu beschleunigen und ihnen gleichzeitig volle Flexibilität beim Testen und Bereitstellen von Modellen zu bieten und gleichzeitig die volle Sicherheit und Kontrolle für das Infra-Team zu gewährleisten. Über unsere Plattform ermöglichen wir Teams für maschinelles Lernen bereitstellen und überwachen Modelle innerhalb von 15 Minuten mit 100% iger Zuverlässigkeit, Skalierbarkeit und der Möglichkeit, innerhalb von Sekunden rückgängig zu machen. So können sie Kosten sparen und Modelle schneller für die Produktion freigeben, wodurch ein echter Geschäftswert erzielt wird.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo