LLM de código abierto: abrazar o perecer

Actualizado: May 25, 2023

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

Hablamos con muchas empresas y líderes empresariales que están intentando averiguar su estrategia para utilizar los LLM en este pedestal de la IA. ¿Deberíamos optar por los LLM de OpenAI o OpenSource? Hay muchos buenos blogs que muestran los pros y los contras de los diferentes enfoques con un sentimiento neutral. En este sentido, tenemos una postura obstinada:

Si crees que, Los LLM van a ser cruciales para su negocio, necesitas invertir en usar LLM de código abierto, en su propia infraestructura- ¡¡¡ayer!!!
Si piensas que los LLM no van a ser cruciales para tu negocio, piénsalo mejor. Si sigues recibiendo la misma respuesta, piénsalo una vez más. Después de eso, tal vez tengas razón y simplemente utilices OpenAI u otros LLM comerciales para algunos casos de uso rápidos que quieras resolver.

Obviamente, si su negocio, su tecnología, ADN y escala exigen una formación previa de LLM desde cero, invierta en ello. Pero la mayoría de las empresas no caerán en esta categoría, y por eso tenemos una recomendación clara:

¡Tu última oportunidad de mantenerte en el juego de la IA es adoptar los LLM de código abierto ahora y ejecutarlos en tu infraestructura!

La importancia de los LLM de código abierto

Creemos que las empresas que invierten en LLM de código abierto y las aprovechan internamente están preparadas para beneficiarse de una mayor seguridad de los datos, un mayor control sobre su tecnología y tiempos de iteración más rápidos. Sin embargo, quienes ignoran esta tendencia corren el riesgo de quedarse atrás y perder terreno frente a los competidores que ya han empezado a desarrollar su capacidad de inteligencia artificial utilizando modelos más pequeños y eficientes. Vamos a profundizar en los detalles aquí:

Seguridad de datos y foso

La mayoría de las empresas mantienen conversaciones internas sobre la creación de políticas de seguridad de datos: ¿qué datos se pueden enviar a los proveedores comerciales de LLM? ¿Dónde estoy cruzando los límites de cumplimiento y dónde estoy perdiendo mi ventaja competitiva? Sí, puedes evitar que OpenAI no utilice directamente tus datos de chat para realizar ajustes, pero algún día algún desarrollador lo hará error.

Si bien gran parte de esto sucede, la competencia ágil ya está progresando utilizando los LLM de código abierto y ganándose la confianza de sus clientes. Están lanzando funciones rápidamente, aprendiendo rápido y, al mismo tiempo, creando un foso competitivo a largo plazo utilizando los LLM de código abierto.

Repite para mejorar

Muchos, incluido Google, son anticipando que los modelos de código abierto más pequeños y ajustados podrían triunfar sobre los modelos grandes, genéricos y estáticos de gran tamaño. Esto es intuitivo porque es casi imposible repetir modelos de lenguaje muy grandes. Tienes una oportunidad única o tu coste y el tiempo de iteración se multiplica.

Los equipos que han empezado a invertir en desarrollar esta fuerza tienen una enorme ventaja posicional, ya que esto les permite repetir y mejorar rápidamente utilizando modelos pequeños a una fracción del coste de los modelos grandes. Una vez que se establece esta brecha, es muy difícil reducirla porque se aprende mucho en este proceso.

Controlando tu destino

Invocar las API de OpenAI es fácil, pero existen preocupaciones sobre la latencia y el tiempo de actividad. Es probable que esto mejore con el tiempo, pero ¿y si deciden cobrar mucho más por las garantías de latencia? ¿Qué pasa si el alojamiento de modelos ajustados no se ajusta a su modelo de negocio a largo plazo y deciden descontinuarlo por completo?

Contribuciones de la comunidad

Los modelos lingüísticos de gran tamaño evolucionan a la velocidad a la que las docenas o cientos de personas que trabajan en OpenAI/Google pueden contribuir y, al mismo tiempo, priorizar las necesidades de millones de personas. Por otro lado, toda la comunidad de desarrolladores de código abierto está creando rápidamente muchas versiones de modelos más pequeños: algunas con optimizaciones de bajo rango, otras que se ejecutan en dispositivos móviles, otras que se pueden personalizar y otras que son más grandes y están adaptadas a las instrucciones. Literalmente, esta innovación y personalización no tienen límites. Puedes elegir qué modelo funciona mejor para cada caso de uso tuyo.

Además, existe la ventaja inherente de poder funcionar de forma rápida y económica si utiliza varios modelos más pequeños específicos para una tarea determinada. En producción, esto a menudo requiere un Enrutador LLM que puede dirigir cada solicitud al modelo más apropiado en función del costo, la latencia o la complejidad de la tarea. Esta es también la dirección arquitectónica detrás de la arquitectura moderna Agentes de LLM, donde los modelos especializados más pequeños se coordinan entre las tareas en lugar de basarse en un único modelo de uso general.

OM is one of the largest open source LLMs capable of handling multiple languages (available on Hugging Face) — **BLOOM es uno de los LLM de código abierto más grandes capaz de manejar varios idiomas (disponible en Hugging Face)**

¿Por qué no todo el mundo usa los LLM de código abierto?

Una recomendación tan sólida plantea la pregunta: si es tan importante, ¿por qué no lo hace todo el mundo? En primer lugar, cada vez son más las personas que invierten cada vez más tiempo y recursos en entender el panorama y aprovechar los LLM de código abierto. Por lo tanto, el axioma de que todo el mundo no lo hace es cada vez más falso:) Sin embargo, el uso de LLM de código abierto y su ejecución en infraestructura presentan algunos desafíos inherentes, en comparación con el uso de sus homólogos comerciales:

Falta de experiencia técnica

La mayoría de los equipos actuales no tienen la experiencia multifacética necesaria para ajustar y alojar internamente modelos con gran cantidad de idiomas. Las personas inteligentes siempre pueden darse cuenta con el tiempo, pero descubrir este complicado modelado y infra al mismo tiempo, si bien cada día se lanzan nuevas herramientas y modelos, es difícil y lleva mucho tiempo.

Términos de uso

Muchos líderes técnicos y empresariales están confundidos sobre qué LLM, conjunto de datos o biblioteca se puede usar comercialmente y qué no. Esta es exactamente la razón por la que entender Licencias LLM se ha vuelto fundamental, porque las condiciones de la licencia suelen determinar si un modelo puede pasar legalmente de la experimentación a la producción. Por ejemplo, Vicuña, que parece tener la licencia Apache 2.0, está entrenada en Llama, lo que no está disponible comercialmente, lo que hace que sea imposible de usar y, por lo tanto, no es trivial darse cuenta de que esto podría ser una infracción. Consulta los detalles sobre los que escribimos en un blog anterior aquí.

Limitaciones de memoria y tiempo

La mayoría de los modelos de lenguaje de gran tamaño razonable (más de 13 000 millones de parámetros) no caben o no se pueden ajustar con precisión en las GPU más disponibles debido a limitaciones de memoria. Si decides optimizar la memoria, algo que no es trivial, tu tiempo de entrenamiento se ve afectado. Hay muchas técnicas relacionadas con la gestión de gradientes, la aproximación de rangos bajos, el servicio con precisión combinada, el entrenamiento y la implementación acelerados y las optimizaciones específicas de cada modelo utilizando diferentes bibliotecas; todas estas técnicas son difíciles de aprender e implementar rápidamente. Esto hace que los equipos se ocupen del problema con el hardware y se ocupen de las GPU para cada ejecución exitosa.

Disponibilidad y administración de GPU

Los proveedores de servicios en la nube exigen cuotas de GPU, que con frecuencia son limitadas y caras, y a menudo vienen en lotes de 8 tarjetas GPU, lo que podría ser subóptimo desde el punto de vista del costo. La mayoría de los equipos no están familiarizados con la forma de distribuir un modelo entre varias GPU porque no caben en una sola y no funcionan de forma óptima.

Además, siempre existe la presión de hacer las cosas rápido porque a las empresas les preocupa que si no anuncian su propio LLM lo suficientemente pronto, sus competidores puedan obtener la ventaja de ser los primeros y sorprender a sus clientes. Por otro lado, esta preocupación no carece de fundamento, ya que hemos visto lo mismo con un montón de clientes con los que hablamos.

¿Qué está haciendo TrueFoundry al respecto?

En TrueFoundry, algunos de estos problemas son fundamentales para lo que estamos resolviendo. Nuestra plataforma está diseñada para funcionar en su infraestructura, lo que garantiza una seguridad total de los datos y crea abstracciones significativas en las que ocultamos las complejidades irrelevantes de la infraestructura y, al mismo tiempo, mantenemos el control en manos del desarrollador. Al tratarse de un espacio en rápida evolución, la IA y los LLM requieren un aprendizaje y una adaptación constantes. El equipo de TrueFoundry se dedica a ayudarlo a navegar por este panorama a través de nuestros productos, orientación, sugerencias y soluciones personalizadas.

Invertir en LLM de código abierto y utilizarlos internamente es un movimiento estratégico que ayudará a su empresa a mantenerse a la vanguardia. TrueFoundry puede ayudarlo a acelerar sus iniciativas de inteligencia artificial y mantener una ventaja competitiva en un panorama en constante cambio. No se quede atrás: adopte los LLM de código abierto y asegure su lugar a la vanguardia de la innovación en inteligencia artificial.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora