LLMs open source : Embrace or Perish

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge
Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !
- Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
- Prêt pour la production avec un support complet pour les entreprises
Nous discutons avec de nombreuses entreprises et chefs d'entreprise qui essaient de définir leur stratégie d'utilisation des LLM dans ce piédestal de l'IA. Devons-nous opter pour des LLM OpenAI ou OpenSource ? Il y en a de nombreux bons blogs qui présentent les avantages et les inconvénients de différentes approches avec un sentiment neutre. Nous avons une position opiniâtre ici-
- Si tu penses, Les LLM vont être cruciaux pour votre entreprise, vous devez investir dans l'utilisation LLMs Open Source, sur votre propre infrastructure- hier ! ! !
- Si vous pensez que les LLM ne seront pas cruciaux pour votre entreprise, réfléchissez bien. Si vous obtenez toujours la même réponse, réfléchissez encore une fois. Après cela, vous avez peut-être raison et utilisez simplement OpenAI ou d'autres LLM commerciaux pour certains cas d'utilisation rapides que vous souhaitez résoudre.
Évidemment, si votre entreprise, votre technologie et votre envergure exigent des LLMs de pré-formation à partir de zéro, investissez dans ce domaine. Mais la plupart des entreprises ne tomberont pas dans cette catégorie, et c'est pourquoi nous avons une recommandation claire :
Votre dernière chance de rester dans le jeu de l'IA est d'adopter dès maintenant des LLM Open Source et de les exécuter sur votre infrastructure !
L'importance des LLM open source
Nous pensons que les entreprises qui investissent dans des LLM open source et qui les exploitent en interne sont bien placées pour bénéficier d'une sécurité des données améliorée, d'un meilleur contrôle de leur technologie et de temps d'itération plus rapides. Mais ceux qui ignorent cette tendance risquent de prendre du retard et de perdre la place face à des concurrents qui ont déjà commencé à développer leur force d'IA à l'aide de modèles plus petits et plus efficaces. Examinons les détails ici-
Sécurité des données et douves
La plupart des entreprises sont confrontées à des discussions internes concernant la mise en place de politiques de sécurité des données. Quelles données peuvent être envoyées à des fournisseurs commerciaux de LLM ? Où est-ce que je franchis la limite de conformité et où est-ce que je perds mes douves concurrentielles ? Oui, vous pouvez empêcher OpenAI de ne pas utiliser directement vos données de chat pour les peaufiner, mais un jour, un développeur le fera faute.
Alors que cela se produit en grande partie, la concurrence agile progresse déjà grâce aux LLM Open Source et gagne la confiance de ses clients. Ils lancent des fonctionnalités rapidement, apprennent rapidement et construisent en même temps un fossé concurrentiel à long terme grâce à des LLM open source.
Répéter pour améliorer
Beaucoup, y compris Google, sont anticiper que des modèles open source plus petits et affinés pourraient l'emporter sur de très grands modèles génériques et statiques de très grande taille. C'est intuitif car il est presque impossible d'itérer sur de très grands modèles de langage. Vous n'avez qu'une chance ou votre coût et votre temps d'itération se multiplient.
Les équipes qui ont commencé à investir dans le renforcement de cette force disposent d'un avantage de position considérable, car cela leur permet d'itérer et d'améliorer rapidement leurs performances à l'aide de petits modèles à une fraction du coût des grands modèles ! Une fois cet écart établi, il est très difficile de le réduire, car ce processus permet d'apprendre beaucoup.
Contrôlez votre destin
Il est facile d'invoquer les API OpenAI, mais la latence et la disponibilité suscitent des inquiétudes. Cela s'améliorera probablement avec le temps, mais que se passerait-il s'ils décidaient de facturer beaucoup plus cher pour les garanties de latence ? Et si l'hébergement de modèles affinés ne correspondait pas à leur modèle commercial à long terme et qu'ils décidaient de l'abandonner complètement ?
Contributions de la communauté
Les très grands modèles linguistiques évoluent à la vitesse à laquelle les dizaines ou les centaines de personnes travaillant chez OpenAI/Google peuvent contribuer tout en donnant la priorité aux besoins de millions de personnes. D'autre part, l'ensemble de la communauté des développeurs open source développe rapidement de nombreuses versions de modèles plus petits, certaines avec des optimisations de bas niveau, d'autres fonctionnant sur mobile, d'autres pouvant être personnalisées, d'autres plus grandes et adaptées aux instructions. Il n'y a littéralement aucune limite à cette innovation et à cette personnalisation. Vous pouvez choisir le modèle qui convient le mieux à votre cas d'utilisation.
De plus, il y a un avantage inhérent à pouvoir fonctionner rapidement et à moindre coût si vous utilisez plusieurs modèles plus petits spécifiques à une tâche donnée. En production, cela nécessite souvent un Routeur LLM qui peut diriger chaque demande vers le modèle le plus approprié en fonction du coût, de la latence ou de la complexité des tâches. C'est également la direction architecturale de la modernité Agents LLM, où des modèles spécialisés plus petits coordonnent les différentes tâches au lieu de s'appuyer sur un seul modèle à usage général.

Pourquoi tout le monde n'utilise-t-il pas des LLM Open Source ?
Une recommandation aussi forte soulève la question suivante : si c'est si important, pourquoi tout le monde ne le fait-il pas ? Tout d'abord, de plus en plus de personnes investissent déjà de plus en plus de temps et de ressources pour comprendre le paysage et tirer parti des LLM open source. Donc, l'axiome selon lequel tout le monde ne le fait pas devient faux de jour en jour:) Mais l'utilisation de LLM Open Source et leur exécution sur votre infrastructure présentent certains défis inhérents à l'utilisation de LLM Open Source, par rapport à l'utilisation de leurs homologues commerciaux-
Manque d'expertise technique
Aujourd'hui, la plupart des équipes ne disposent pas de l'expertise polyvalente nécessaire pour affiner et héberger en interne des modèles en langage large. Les personnes intelligentes peuvent toujours le comprendre un jour, mais en découvrant cette modélisation compliquée et infra dans le même temps, alors que de nouveaux outils et modèles sont publiés chaque jour, c'est tout simplement difficile et prend du temps.
Termes d'utilisation
De nombreux responsables techniques et commerciaux ne savent pas quel LLM, ensemble de données ou bibliothèque peut être utilisé commercialement ou non. C'est exactement pourquoi comprendre Licences LLM est devenue essentielle, car les conditions de licence déterminent souvent si un modèle peut légalement passer de l'expérimentation à la production. Par exemple, Vicuna, qui semble être sous licence Apache 2.0, est entraîné sur Llama, qui n'est pas disponible dans le commerce, ce qui rend son utilisation impossible et très simple de se rendre compte que cela pourrait être une violation. Voir les détails dont nous avons parlé dans un blog précédent ici.
Contraintes de mémoire et de temps
La plupart des modèles de langage volumineux de taille raisonnable (plus de 13 Go de paramètres) ne s'adaptent pas ou ne peuvent pas être ajustés avec précision sur les GPU courants en raison de contraintes de mémoire. Si vous décidez d'optimiser la mémoire, ce qui n'est pas anodin, votre temps d'entraînement en prend un coup. Il existe de nombreuses techniques relatives à la gestion des dégradés, à l'approximation de bas rang, à la précision du mixage, à la formation et au déploiement accélérés, aux optimisations spécifiques aux modèles à l'aide de différentes bibliothèques. Toutes ces techniques sont difficiles à apprendre et à mettre en œuvre rapidement. Les équipes doivent donc apporter du matériel pour résoudre le problème et s'occuper des GPU à chaque course réussie.
Disponibilité et gestion du GPU
Les fournisseurs de cloud exigent des quotas de GPU qui sont souvent limités et coûteux et sont souvent fournis en 8 lots de cartes GPU, ce qui peut être sous-optimal du point de vue des coûts. La plupart des équipes ne savent pas comment distribuer un modèle sur plusieurs GPU, car elles ne peuvent pas s'adapter à un seul et ne pas les exécuter de manière optimale.
En outre, il y a toujours une pression pour faire les choses rapidement, car les entreprises craignent que si elles ne publient pas leur propre annonce LLM assez tôt, leurs concurrents n'obtiennent l'avantage du premier arrivé et n'impressionnent pas leurs clients. Par ailleurs, cette inquiétude n'est pas sans fondement, car nous l'avons constatée chez un groupe de clients avec lesquels nous discutons.
Que fait TrueFoundry à ce sujet ?
Chez TrueFoundry, certains de ces problèmes sont au cœur de ce que nous sommes en train de résoudre. Notre plateforme est conçue pour fonctionner sur votre infrastructure, garantissant une sécurité complète des données et crée des abstractions significatives où nous masquons les complexités non pertinentes de l'infrastructure tout en gardant le contrôle entre les mains du développeur. En tant qu'espace en évolution rapide, l'IA et les LLM nécessitent un apprentissage et une adaptation constants. L'équipe TrueFoundry s'engage à vous aider à naviguer dans ce paysage grâce à nos produits, à nos conseils, à nos suggestions et à nos solutions personnalisées.
Investir dans des LLM open source et les utiliser en interne est une décision stratégique qui aidera votre entreprise à garder une longueur d'avance. TrueFoundry peut vous aider à accélérer vos initiatives en matière d'IA et à conserver un avantage concurrentiel dans un environnement en constante évolution. Ne vous laissez pas distancer : adoptez les LLM open source et sécurisez votre place à la pointe de l'innovation en matière d'IA.
TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.
Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA















.webp)





.png)


.webp)




.webp)







