Open-Source-LLMs: Umarmen oder untergehen

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last
Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!
- Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
- Produktionsbereit mit vollem Unternehmenssupport
Wir sprechen mit vielen Unternehmen und Geschäftsführern, die versuchen, ihre Strategie für den Einsatz von LLMs in diesem KI-Podest herauszufinden — sollten wir uns für OpenAI oder OpenSource LLMs entscheiden? Es gibt viele gute Blogs die die Vor- und Nachteile verschiedener Ansätze mit neutraler Stimmung aufzeigen. Wir haben hier eine eigensinnige Haltung-
- Wenn du denkst, LLMs werden für Ihr Unternehmen von entscheidender Bedeutung sein, Sie müssen in die Nutzung investieren Open Source LLMs, auf Ihrer eigenen Infrastruktur- gestern!!!
- Wenn Sie der Meinung sind, dass LLMs für Ihr Unternehmen nicht entscheidend sein werden, denken Sie genauer nach. Wenn Sie immer noch die gleiche Antwort erhalten, denken Sie noch einmal darüber nach. Danach haben Sie vielleicht Recht und verwenden einfach OpenAI oder andere kommerzielle LLMs für einige schnelle Anwendungsfälle, die Sie lösen möchten.
Wenn Ihr Unternehmen, Ihre Technologie-DNA und Ihr Umfang es erfordern, LLMs von Grund auf neu zu schulen, investieren Sie bitte in diese Ausbildung. Aber die meisten Unternehmen werden nicht in diesen Bereich fallen — und aus diesem Grund haben wir eine klare Empfehlung:
Ihre letzte Chance, im KI-Spiel zu bleiben, besteht darin, jetzt Open-Source-LLMs einzuführen und sie auf Ihrer Infrastruktur auszuführen!
Die Bedeutung von Open-Source-LLMs
Wir glauben, dass Unternehmen, die in Open-Source-LLMs investieren und diese intern nutzen, von einer verbesserten Datensicherheit, einer besseren Kontrolle über ihre Technologie und schnelleren Iterationszeiten profitieren werden. Aber diejenigen, die diesen Trend ignorieren, laufen Gefahr, ins Hintertreffen zu geraten und gegenüber Wettbewerbern zu verlieren, die bereits damit begonnen haben, ihre KI-Muskulatur mithilfe kleinerer, effizienterer Modelle aufzubauen. Lassen Sie uns hier in die Details eintauchen-
Datensicherheit und Moat
Die meisten Unternehmen stecken in internen Diskussionen über die Festlegung von Datensicherheitsrichtlinien fest. Welche Daten dürfen an kommerzielle LLM-Anbieter gesendet werden? Wo übertrete ich eine Compliance-Grenze und wo verliere ich meinen Wettbewerbsvorteil? Ja, Sie können verhindern, dass OpenAI Ihre Chat-Daten nicht direkt für die Feinabstimmung verwendet, aber eines Tages werden das einige Entwickler tun Irrtum.
Vieles davon passiert, aber die agile Konkurrenz macht bereits Fortschritte, indem sie Open-Source-LLMs einsetzt und das Vertrauen ihrer Kunden gewinnt. Sie bringen Funktionen schnell auf den Markt, lernen schnell und bauen gleichzeitig durch den langfristigen Einsatz von Open-Source-LLMs einen Wettbewerbsvorteil auf.
Iterieren Sie, um sich zu verbessern
Viele, einschließlich Google, sind voraussehend dass kleinere, fein abgestimmte Open-Source-Modelle gegenüber großen, generischen, statischen, sehr großen Modellen gewinnen könnten. Das ist intuitiv, da es fast unmöglich ist, auf sehr großen Sprachmodellen zu iterieren. Sie haben einen einzigen Versuch oder Ihre Kosten und Ihre Iterationszeit vervielfachen sich.
Die Teams, die begonnen haben, in den Aufbau dieser Muskeln zu investieren, haben einen enormen Positionsvorteil, da sie so schnelle Iterationen und Verbesserungen mit kleinen Modellen zu einem Bruchteil der Kosten großer Modelle ermöglichen! Sobald diese Lücke geschlossen ist, ist es sehr schwierig, sie einzugrenzen, da in diesem Prozess so viel gelernt wird.
Kontrolliere dein Schicksal
Das Aufrufen von OpenAI-APIs ist einfach, es gibt jedoch Bedenken hinsichtlich Latenz und Verfügbarkeit. Dies wird sich wahrscheinlich mit der Zeit verbessern, aber was ist, wenn sie beschließen, für die Latenzgarantien viel mehr zu verlangen? Was ist, wenn das Hosten fein abgestimmter Modelle nicht zu ihrem langfristigen Geschäftsmodell passt und sie beschließen, es ganz einzustellen?
Beiträge der Gemeinschaft
Sehr große Sprachmodelle entwickeln sich mit der Geschwindigkeit, mit der Dutzende oder Hunderte von Menschen, die bei OpenAI/Google arbeiten, Beiträge leisten und gleichzeitig den Bedürfnissen von Millionen von Menschen Priorität einräumen können. Auf der anderen Seite entwickelt die gesamte Community von Open-Source-Entwicklern in rasantem Tempo viele Versionen kleinerer Modelle — einige mit Optimierungen auf niedrigem Rang, andere laufen auf Mobilgeräten, andere können personalisiert werden, andere sind größer und auf die Anweisungen abgestimmt. Dieser Innovation und Personalisierung sind buchstäblich keine Grenzen gesetzt. Sie können wählen, welches Modell für welchen Anwendungsfall am besten geeignet ist.
Darüber hinaus bietet es den Vorteil, dass Sie schnell und kostengünstig arbeiten können, wenn Sie mehrere kleinere Modelle verwenden, die für eine bestimmte Aufgabe spezifisch sind. In der Produktion erfordert dies oft eine LLM-Router das jede Anfrage auf der Grundlage von Kosten, Latenz oder Aufgabenkomplexität an das am besten geeignete Modell weiterleiten kann. Dies ist auch die architektonische Ausrichtung von modern LLM-Agenten, bei dem kleinere spezialisierte Modelle aufgabenübergreifend koordiniert werden, anstatt sich auf ein einziges Allzweckmodell zu verlassen.

Warum verwendet nicht jeder Open Source LLMs?
Eine so starke Empfehlung wirft die Frage auf: Wenn es so wichtig ist, warum tun es dann nicht alle? Zunächst einmal investieren immer mehr Menschen bereits mehr und mehr Zeit und Ressourcen, um die Landschaft zu verstehen und auf Open-Source-LLMs aufzubauen. Das Axiom, dass jeder, der es nicht tut, wird von Tag zu Tag unwahr:) Aber es gibt einige inhärente Herausforderungen, die mit der Verwendung von Open-Source-LLMs und deren Ausführung auf Ihrer Infrastruktur verbunden sind, verglichen mit der Verwendung ihrer kommerziellen Gegenstücke-
Mangelndes technisches Fachwissen
Die meisten Teams verfügen heute nicht über das vielfältige Fachwissen, um großsprachige Modelle intern zu verfeinern und zu hosten. Kluge Leute können es irgendwann immer herausfinden, aber wenn sie diese komplizierte Modellierung herausfinden und Infra- Gleichzeitig werden täglich neue Tools und Modelle veröffentlicht, was einfach schwierig und zeitaufwändig ist.
Nutzungsbedingungen
Viele Führungskräfte aus Technik und Wirtschaft sind sich nicht sicher, welcher LLM, welcher Datensatz oder welche Bibliothek kommerziell genutzt werden darf oder nicht? Genau aus diesem Grund verstehen LLM-Lizenzen ist entscheidend geworden, weil die Lizenzbedingungen häufig darüber entscheiden, ob ein Modell legal von der Erprobung zur Produktion übergehen kann. Zum Beispiel ist Vicuna, das anscheinend unter der Apache 2.0-Lizenz steht, auf Lama trainiert, das nicht kommerziell erhältlich ist. Es ist daher unmöglich, es zu benutzen, und es ist auch nicht trivial, zu erkennen, dass es sich um einen Verstoß handeln könnte. Sehen Sie sich Details an, über die wir in einem früheren Blog geschrieben haben hier.
Speicher- und Zeitbeschränkungen
Die meisten vernünftigen großen Sprachmodelle (13B+ Parameter) passen nicht auf allgemein verfügbare GPUs oder können aufgrund von Speicherbeschränkungen nicht fein abgestimmt werden. Wenn Sie sich dafür entscheiden, den Speicher zu optimieren, was nicht trivial ist, wird Ihre Trainingszeit beeinträchtigt. Es gibt eine Menge Techniken rund um Gradientenmanagement, Approximation mit niedrigem Rang, Mix-Precision-Serving, beschleunigtes Training und Bereitstellung, modellspezifische Optimierungen unter Verwendung verschiedener Bibliotheken — all dies ist schwer zu erlernen und schnell zu implementieren. Das bedeutet, dass die Teams das Problem mit Hardware lösen und für jeden erfolgreichen Lauf auf die GPUs aufpassen.
GPU-Verfügbarkeit und Verwaltung
Cloud-Anbieter verlangen GPU-Kontingente, die häufig begrenzt und teuer sind und oft in Chargen von 8 GPU-Karten geliefert werden, was aus Kostensicht suboptimal sein könnte. Die meisten Teams wissen nicht, wie man ein Modell auf mehrere GPUs verteilt, weil sie nicht auf eine passen und sie optimal ausführen können.
Außerdem besteht immer der Druck, Dinge schnell zu erledigen, weil Unternehmen befürchten, dass ihre Konkurrenz den Vorteil der Vorreiter haben und ihre Kunden begeistern könnte, wenn sie ihre eigene LLM-Ankündigung nicht früh genug veröffentlichen. Unabhängig davon ist diese Sorge nicht unbegründet, da wir gesehen haben, dass sie bei einer Reihe von Kunden, mit denen wir sprechen, passiert ist.
Was unternimmt TrueFoundry dagegen?
Bei TrueFoundry sind einige dieser Probleme von zentraler Bedeutung für das, was wir lösen. Unsere Plattform ist so konzipiert, dass sie auf Ihrer Infrastruktur läuft, vollständige Datensicherheit gewährleistet und aussagekräftige Abstraktionen erstellt, bei denen wir irrelevante Komplexitäten der Infrastruktur verbergen und gleichzeitig die Kontrolle in den Händen des Entwicklers behalten. Als sich schnell entwickelnder Bereich erfordern KI und LLMs ständiges Lernen und Anpassung. Das TrueFoundry-Team ist bestrebt, Ihnen mit unseren Produkten, Anleitungen, Vorschlägen und maßgeschneiderten Lösungen dabei zu helfen, sich in dieser Situation zurechtzufinden.
Die Investition in Open-Source-LLMs und deren interne Nutzung ist ein strategischer Schritt, der Ihrem Unternehmen hilft, der Konkurrenz immer einen Schritt voraus zu sein. TrueFoundry kann Ihnen helfen, Ihre KI-Initiativen zu beschleunigen und sich in einer sich ständig verändernden Landschaft einen Wettbewerbsvorteil zu sichern. Bleiben Sie nicht zurück — nutzen Sie Open-Source-LLMs und sichern Sie sich Ihren Platz an der Spitze der KI-Innovation.
TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.
Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren















.png)






.png)






.webp)

.webp)



