True ML Talks #12 - Cofundador de Llama-Index

Actualizado: June 1, 2023

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

Volvemos con otro episodio de True ML Talks. En esto, nos sumergimos profundamente Índice Llama, y estamos hablando con Jerry Liu.

Jerry Liu es el creador y cofundador de LlamainDex. Aporta su experiencia en investigación e ingeniería de aprendizaje automático de prestigiosas empresas como Uber, Quora y Robust Intelligence. Con un fuerte enfoque en los modelos generativos y una pasión por el avance de las tecnologías de inteligencia artificial, Jerry fue pionero en el desarrollo de LlamainDex, una herramienta de código abierto que conecta sin problemas los modelos lingüísticos con las fuentes de datos privadas.

📌

Nuestras conversaciones con Jerry abordarán los siguientes aspectos:
- La génesis de Llama-Index
- Características versátiles de Llamaindex
- Modelo de ventana antrópico de 100k
- Desafíos en los modelos de síntesis de respuestas
- Comparación de los enfoques de recuperación y ajuste fino

Mira el episodio completo a continuación:

La génesis de Llamaindex: creación de sistemas con estado para modelos lingüísticos

Los diversos antecedentes de Jerry Liu en aprendizaje automático e inteligencia artificial, incluidas sus experiencias en Uber y Quora, lo prepararon para su trabajo en Llama-Index. Su fascinación por los modelos generativos, provocada por el descubrimiento de las GAN, lo llevó al mundo de los grandes modelos lingüísticos (LLM).

Al darse cuenta de la apatridia inherente de los LLM como el GPT-3, Jerry buscó integrar datos externos en estos modelos para proporcionarles contexto. Inspirándose en la arquitectura informática, concibió LlamaIndex como un sistema global con módulos de memoria y almacenamiento adicionales. Esto permitió al LLM almacenar y analizar datos externos mediante una estructura basada en un árbol denominada índice GPT, que permitía razonar sobre los datos del árbol.

El proyecto de diseño inicial de Jerry resonó en otros que se enfrentaban a desafíos similares, lo que lo llevó a reconocer el potencial de una solución práctica. Llamaindex evolucionó hasta convertirse en un conjunto de herramientas integral que permitía a los usuarios aprovechar sus datos estructurados y no estructurados en aplicaciones de modelos lingüísticos.

Este cambio permitió a LlamaIndex facilitar los mecanismos de recuperación de datos y ofrecer formas intuitivas de aumentar los LLM con el estado. Al cerrar la brecha entre los modelos lingüísticos y los datos privados, Llamaindex abrió nuevas posibilidades de aplicaciones prácticas para trabajar con datos estructurados y no estructurados.

LlamaIndex pasó de ser una idea a convertirse en un poderoso conjunto de herramientas, lo que permitió a los usuarios superar los desafíos de integrar datos externos en modelos lingüísticos. Simplificó el proceso de aprovechar los datos personalizados y revolucionó las aplicaciones de modelos lingüísticos.

Desbloquear el empoderamiento de los usuarios: la ventaja de Llamaindex

LlamaIndex ha ganado popularidad como una herramienta versátil, apreciada por los usuarios por sus diversas funciones. Tres características clave que los usuarios adoran de LlamaIndex son:

Ingestión y cargadores de datos: LLamaIndex simplifica el proceso de cargar datos de diferentes fuentes en la herramienta. Una característica destacable es Llama Hub, un sitio impulsado por la comunidad que ofrece una amplia gama de cargadores de datos. Estos cargadores permiten a los usuarios importar fácilmente texto no estructurado de varios formatos de archivo, como PDF, PowerPoints, hojas de Excel y datos de plataformas como Salesforce, Notion y Slack. Al aprovechar las contribuciones de la comunidad, LLamaIndex permite a los usuarios aprovechar las capacidades de las tecnologías de análisis de textos y documentos, lo que mejora la flexibilidad y la accesibilidad de la herramienta.
Comenzar es fácil: Los usuarios aprecian la naturaleza sencilla de la API de LlamainDex. Con solo unas pocas líneas de código, los usuarios pueden cargar, indexar y consultar datos, lo que permite aprovechar rápidamente el valor de la herramienta. Esta simplicidad atrae tanto a los usuarios con conocimientos técnicos como a los que tienen una experiencia técnica limitada. La capacidad de interactuar sin esfuerzo con sus datos y acceder a potentes funciones permite a los usuarios obtener información valiosa sin necesidad de contar con una experiencia técnica significativa.
Capacidades de recuperación avanzadas: LlamaIndex ofrece una funcionalidad de recuperación avanzada, dirigida a los usuarios que requieren funciones sofisticadas para casos de uso específicos. Estas capacidades permiten a los usuarios hacer preguntas complejas, comparar documentos, realizar razonamientos en varios pasos y acceder a diferentes fuentes de datos. Los usuarios que buscan capacidades de recuperación más avanzadas aprecian la capacidad de Llamaindex para gestionar diversos escenarios y satisfacer sus complejas necesidades de recuperación de información.

Con una combinación de funciones fáciles de usar, amplias opciones de ingesta de datos, facilidad de uso y capacidades de recuperación avanzadas, Llamaindex se ha ganado una base de usuarios leales. La herramienta continúa evolucionando, lo que permite a los usuarios aprovechar sus datos de manera efectiva y extraer información significativa de sus fuentes de datos estructuradas y no estructuradas.

Sumérjase en el modelo antrópico de ventanas de 100 000 pulgadas: ideas y consideraciones

El modelo de ventana Anthropic de 100 000 pulgadas ha despertado entusiasmo y ha revelado ideas fascinantes. Esta amplia ventana de contexto complementa los enfoques existentes, como LlamaIndex, y amplía las posibilidades de modelado del lenguaje gracias a su capacidad de procesar hasta 100 000 fichas.

Experimentar con la prolongada presentación de la SEC 10-K por parte de Uber superó el límite simbólico, pero puso de relieve la ventaja del modelo: la inclusión de una gran cantidad de información sin métodos de recuperación complejos ni indicaciones selectivas. Incluir todo el documento en el folleto arrojó resultados interesantes.

La API de 100 000 fichas mostró una velocidad impresionante en comparación con la consulta del GPT-3 en troncos más pequeños. El algoritmo subyacente detrás de estas aceleraciones sigue sin revelarse, lo que alimenta la especulación y la curiosidad.

La ventana de contexto más grande permite que el modelo lingüístico comprenda los datos de manera holística, sintetizando razonablemente bien las relaciones entre partes de texto distantes. El ajuste preciso es crucial para abordar los problemas ocasionales con instrucciones complejas y la confusión, un área en la que el GPT-4 muestra mejoras.

Si bien los beneficios del modelo de ventana de 100 000 son evidentes, se plantean consideraciones prácticas. Llenar la ventana con ciertos tipos de preguntas puede resultar costoso desde el punto de vista computacional, lo que conlleva un aumento de los gastos de consulta. Evaluar la viabilidad económica resulta crucial, ya que cada consulta cuesta aproximadamente entre 1 y 2 dólares, según el caso de uso.

A pesar de las limitaciones y las implicaciones financieras, los investigadores y desarrolladores dan prioridad a la exploración continua del modelo de ventana Anthropic de 100 000 ventanas. Los valiosos conocimientos obtenidos a partir de estos experimentos impulsarán los futuros avances en este campo.

Abordar los desafíos en los modelos de síntesis de respuestas

La síntesis de respuestas es un aspecto fundamental del contexto del modelo de nube, cuyo objetivo es abordar los desafíos asociados con la gestión de grandes ventanas de contexto que superan el límite de prontitud. Implica el desarrollo de estrategias para simplificar el proceso de generación de respuestas precisas y completas. Dos de estas estrategias son Crear y refinar y Resumen del árbol.

Crear y refinar

Crear y refinar implica dividir el contexto en partes manejables. Por ejemplo, cuando se trata del documento de Uber ante la SEC, este se dividiría en dos partes de 90 000 fichas. La primera parte se introduce en el mensaje de entrada, junto con la pregunta, para obtener una respuesta inicial. Luego, esta respuesta se refina mediante un mensaje refinado que incorpora la respuesta existente, el contexto adicional y la pregunta. Este proceso iterativo continúa sintetizando una respuesta en todos los contextos.

Si bien Crear y refinar es eficaz, la solicitud refinada tiende a confundir al modelo. Su complejidad, con múltiples componentes a tener en cuenta, dificulta la capacidad de razonamiento.

Resumen del árbol

El resumen de árboles ofrece un enfoque alternativo que ha demostrado un mejor rendimiento. En esta estrategia, cada fragmento de contexto se procesa de forma independiente para generar respuestas individuales. Estas respuestas se combinan jerárquicamente, formando una estructura similar a un árbol, hasta que se obtiene una respuesta final en el nodo raíz, basada en la pregunta. Al simplificar la pregunta y aprovechar la combinación jerárquica de respuestas, la sumarización en árbol logra mejores resultados en comparación con el enfoque rápido refinado.

La razón exacta detrás de la mejora de la eficacia del resumen de árboles aún no se comprende completamente. Sin embargo, puede atribuirse, al menos en parte, a la simplicidad del mensaje utilizado en esta estrategia. La exploración y el perfeccionamiento continuos de estas estrategias de síntesis de respuestas contribuirán a seguir avanzando en la generación de respuestas precisas y completas dentro del marco del modelo de nube.

📌

Desafíos prácticos en el análisis del contexto:
Al analizar iterativamente el contexto dentro de las estrategias de síntesis de respuestas, surgen ciertos desafíos. Estas estrategias ofrecen soluciones alternativas eficaces para adaptarse a un contexto amplio en un breve período de tiempo, pero conllevan limitaciones y desventajas.

El enfoque Crear y refinar, destinado a comprimir la información, tiene una observación interesante. Con el tiempo, el modelo tiende a acumular detalles, lo que da como resultado respuestas más largas, independientemente de su precisión o relevancia. Esta acumulación puede suponer un inconveniente para Create and Refine.

Por el contrario, el enfoque de resumen en árbol resume jerárquicamente el contexto, combinando respuestas individuales en fragmentos. Sin embargo, este proceso de resumen sacrifica detalles de nivel más detallado. Lograr un equilibrio entre el resumen y la preservación de la información matizada es crucial cuando se emplea el resumen en árbol.

Recuperación frente a ajuste fino: un análisis comparativo

La elección entre los enfoques de recuperación y ajuste fino para trabajar con datos es un tema de exploración. La generación aumentada por recuperación, que se utiliza habitualmente en sistemas como LLamaIndex, implica introducir fragmentos de contexto en un modelo lingüístico previamente entrenado, lo que facilita su uso y no es necesario entrenar a los modelos.

El ajuste fino es otro enfoque con un potencial significativo. Al aprovechar modelos previamente entrenados y entrenados con datos extensos, el ajuste fino permite realizar tareas como la transferencia de estilos, la generación de poesía y servir como fuente de conocimiento. Sin embargo, el perfeccionamiento actual de las API de las empresas más grandes puede plantear desafíos en términos de costo, mantenimiento y usabilidad.

Los avances recientes, como LoRa, y la disponibilidad de modelos de código abierto más pequeños, ofrecen vías más accesibles para ajustar los datos de los usuarios. Esto sugiere que, en el futuro, el ajuste fino puede ofrecer una mejor relación costo-beneficio en comparación con la dependencia exclusiva de sistemas de recuperación aumentada.

Se prevé que en el futuro prevalezca un enfoque híbrido que combine la recuperación y el ajuste fino. Este enfoque implica un modelo de aprendizaje continuo que puede hacer referencia a fuentes externas de información según sea necesario, lo que permite combinar conocimientos internos y externos.

A medida que los avances continúen y la accesibilidad mejore, se espera que una combinación de enfoques de recuperación y ajuste fino dé forma al futuro del trabajo con datos dentro del marco del modelo de nube.

Lea nuestros blogs anteriores de la serie True ML Talks:

‍

True ML Talks #11 - LLMs, LLMops and Generative AI

Deep dive into LLMs, LLMops, Generative AI and ChatGPT. We talk with Micheal, CTO at GreenHouse about the trends in the Machne Learning Space.

TrueFoundry Blog TrueFoundry

Sigue viendo el TrueML serie youtube y leyendo el TrueML serie de blogs.

True Foundry es un PaaS de implementación de aprendizaje automático sobre Kubernetes para acelerar los flujos de trabajo de los desarrolladores y, al mismo tiempo, permitirles una flexibilidad total a la hora de probar e implementar modelos, al tiempo que garantiza una seguridad y un control totales para el equipo de Infra. A través de nuestra plataforma, permitimos a los equipos de aprendizaje automático implementar y supervisar modela en 15 minutos con un 100% de confiabilidad, escalabilidad y la capacidad de revertirse en segundos, lo que les permite ahorrar costos y lanzar los modelos a la producción más rápido, lo que permite obtener un verdadero valor empresarial.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora

La forma más rápida de crear, gobernar y escalar su IA

Inscríbase

¿Cómo se puede evitar que los costos de GenAI se disparen a gran escala?

Gartner report on best practices for optimizing generative and agentic AI costs and projected statistics.

Acceda al informe completo de 2026

Gartner Hype Cycle for Platform Engineering 2026

Access Full 2026 Report

One Layer of Control for All AI

Route and govern model and tool traffic with a centralized AI Gateway

Book Demo

Tabla de contenido

Enlace de texto

Controle, implemente y rastree la IA en su propia infraestructura

Reserva 30 minutos con nuestro Experto en IA

Reserve una demostración

Boyu Wang

True ML Talks #12 - Cofundador de Llama-Index

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Mira el episodio completo a continuación:

La génesis de Llamaindex: creación de sistemas con estado para modelos lingüísticos

Desbloquear el empoderamiento de los usuarios: la ventaja de Llamaindex

Sumérjase en el modelo antrópico de ventanas de 100 000 pulgadas: ideas y consideraciones

Abordar los desafíos en los modelos de síntesis de respuestas

Crear y refinar

Resumen del árbol

Recuperación frente a ajuste fino: un análisis comparativo

Lea nuestros blogs anteriores de la serie True ML Talks:

La forma más rápida de crear, gobernar y escalar su IA

One Layer of Control for All AI

Controle, implemente y rastree la IA en su propia infraestructura

La forma más rápida de crear, gobernar y escalar su IA

True ML Talks #23: Apps MLOps and LLMS in GitLab

¿Qué son las incrustaciones en el aprendizaje automático?

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

Las mejores herramientas de observación de LLM

Herramientas de gestión rápida para sistemas de IA de producción

Blogs recientes

Decoding the Gartner® Hype Cycle™ for Platform Engineering 2026

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

What Is Multi-Agent Orchestration? A Practical Guide for Enterprise Teams

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Agent Platforms in 2026: Compared for Enterprise and Developer Teams

PII Redaction at the Gateway vs. the Application Layer: A Performance and Correctness Analysis

Context Engineering at the Gateway Layer: How Session Management Enables Long-Running Agents

Separating Agent Logic from Runtime: The Case for a Managed Agent Layer

Converting an OpenAPI Spec to an MCP Server: Architecture and Edge Cases

How to Test AI-Powered Systems and LLM Workflows in Production-Like Environments

Implementing SCIM at TrueFoundry: Automating User & Team Management with Okta

Real-Time LLM Cost Attribution: From Token Counts to Team Budgets

OpenTelemetry for LLMs: How we instrument a multi-provider AI gateway

Introducing Agent Gateway: A Unified Control Plane for Enterprise AI Agents

Provider-Agnostic Prompt Caching: How an LLM Gateway Normalizes Anthropic, OpenAI, and Bedrock

Blog

True ML Talks #12 - Cofundador de Llama-Index

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Mira el episodio completo a continuación:

La génesis de Llamaindex: creación de sistemas con estado para modelos lingüísticos

Desbloquear el empoderamiento de los usuarios: la ventaja de Llamaindex

Sumérjase en el modelo antrópico de ventanas de 100 000 pulgadas: ideas y consideraciones

Abordar los desafíos en los modelos de síntesis de respuestas

Crear y refinar

Resumen del árbol

Recuperación frente a ajuste fino: un análisis comparativo

Lea nuestros blogs anteriores de la serie True ML Talks:

La forma más rápida de crear, gobernar y escalar su IA

One Layer of Control for All AI

Controle, implemente y rastree la IA en su propia infraestructura

La forma más rápida de crear, gobernar y escalar su IA

Descubra más

True ML Talks #23: Apps MLOps and LLMS in GitLab

¿Qué son las incrustaciones en el aprendizaje automático?

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

Las mejores herramientas de observación de LLM

Herramientas de gestión rápida para sistemas de IA de producción

Blogs recientes

Decoding the Gartner® Hype Cycle™ for Platform Engineering 2026

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

What Is Multi-Agent Orchestration? A Practical Guide for Enterprise Teams

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Agent Platforms in 2026: Compared for Enterprise and Developer Teams

PII Redaction at the Gateway vs. the Application Layer: A Performance and Correctness Analysis

Context Engineering at the Gateway Layer: How Session Management Enables Long-Running Agents

Separating Agent Logic from Runtime: The Case for a Managed Agent Layer

Converting an OpenAPI Spec to an MCP Server: Architecture and Edge Cases

How to Test AI-Powered Systems and LLM Workflows in Production-Like Environments

Implementing SCIM at TrueFoundry: Automating User & Team Management with Okta

Real-Time LLM Cost Attribution: From Token Counts to Team Budgets

OpenTelemetry for LLMs: How we instrument a multi-provider AI gateway

Introducing Agent Gateway: A Unified Control Plane for Enterprise AI Agents

Provider-Agnostic Prompt Caching: How an LLM Gateway Normalizes Anthropic, OpenAI, and Bedrock

Blog

Suscríbase a nuestro boletín