Was ist LLM Tool Calling und wie funktioniert es?
.webp)
Large Language Models (LLMs) haben die Art und Weise, wie wir KI verwenden, verändert und sich von einfachen Textgeneratoren zu leistungsstarken Agenten entwickelt, die komplexe Aufgaben bewältigen können. Dies wird durch den Aufruf von Tools (oder Funktionsaufrufen) ermöglicht, mit denen LLMs auf Echtzeitdaten zugreifen, Aktionen ausführen und mit externen Systemen interagieren können.
Durch das Aufrufen von Tools werden die Grenzen statischer Trainingsdaten aufgehoben und LLMs werden zu aktiven Teilnehmern an Workflows und nicht nur zu Konversationstools.
In diesem Handbuch wird erklärt, was LLM-Tool-Calling ist, wie es funktioniert, warum es wichtig ist und worauf Sie bei der Implementierung in der Produktion achten müssen.
Was ist LLM Tool Calling?
.webp)
Der LLM-Toolaufruf ist die Fähigkeit eines Large Language Models, zu erkennen, wann eine externe Aktion erforderlich ist, eine strukturierte Anfrage (normalerweise in JSON) zu erstellen und sie von einem externen System ausführen zu lassen. Dies erweitert die Fähigkeiten des LLM über seine Trainingsdaten hinaus und ermöglicht es ihm, mit der realen Welt zu interagieren.
In Produktionssystemen werden diese Anfragen in der Regel über eine KI-Gateway, das die Orchestrierung, Authentifizierung und Kommunikation mit externen Diensten abwickelt.
Was gilt als „Tool“
Ein Tool ist jede externe Funktions-, API-, Datenbank- oder Codeumgebung, die das LLM verwenden kann, um Informationen abzurufen oder zu verarbeiten. Zu den Beispielen gehören:
- APIs: Greifen Sie auf Webdienste, Echtzeitdaten oder Plattformen wie Salesforce oder GitHub zu.
- Datenbanken: Fragen Sie strukturierte (SQL/NoSQL) oder unstrukturierte (Vektor) Daten ab oder aktualisieren Sie sie.
- Codeausführung: Führen Sie Skripts für Berechnungen, Analysen oder Transformationen aus.
- Plugins/Erweiterungen: Vorgefertigte Module für Aufgaben wie Bildgenerierung oder Dokumentenverarbeitung.
- Automatisierungen: Lösen Sie Workflows aus oder interagieren Sie mit intelligenten Geräten.
Was Tool Calling nicht ist
- Tool Calling ist mehr als schnelles Engineering: Das LLM generiert einen echten Aufruf einer externen Funktion, nicht nur einen Textvorschlag.
- Das Aufrufen von Tools unterscheidet sich vom einfachen Abrufen: Im Gegensatz zu einem Modell, das lediglich Inhalte abruft und liest, konstruiert der Werkzeugaufruf präzise, strukturierte Argumente, die echte Aktionen auslösen können.
Wie funktioniert LLM Tool Calling?
.webp)
Das Aufrufen von LLM-Tools erfolgt über einen strukturierten Arbeitsablauf, der es dem Modell ermöglicht, mit externen Systemen zu interagieren, häufig in dynamischen Produktionsumgebungen. Dieser Prozess kann als eine sechsstufige Agentenschleife verstanden werden:
Schritt 1: Erkennen der Notwendigkeit eines Tools
Wenn ein Benutzer eine Aufforderung einreicht, bestimmt das LLM, ob es anhand seines internen Wissens antworten kann oder ob ein externes Tool benötigt wird. Das Modell interpretiert die Absicht des Benutzers, um zu entscheiden, wann externe Daten oder Aktionen erforderlich sind. Zum Beispiel: „Wie ist das Wetter in London gerade?“ signalisiert die Notwendigkeit einer Wetter-API.
Schritt 2: Auswahl des Tools
Nach der Identifizierung des Bedarfs bewertet das LLM die verfügbaren Tools anhand von Beschreibungen und Eingabeschemas, um das am besten geeignete auszuwählen. In Systemen mit vielen Tools werden in einem ersten Schritt der „Tool Discovery“ relevante Tools herausgefiltert, um das LLM nicht zu überfordern und das Kontextfenster zu optimieren.
Schritt 3: Eine Anfrage erstellen und senden
Sobald ein Tool ausgewählt ist, generiert das LLM einen strukturierten Aufruf, normalerweise im JSON-Format, der den Werkzeugnamen und die erforderlichen Parameter enthält. Diese Ausgabe wird dann von der Orchestrierungsschicht aufgenommen, die sie zur Ausführung an das entsprechende externe System sendet. Zum Beispiel {"name“: „get_weather“, „arguments“: {"city“: „London"}}. Diese Nutzlast wird zur Verarbeitung an eine externe Anwendung oder Ausführungsebene gesendet.
Schritt 4: Empfangen und Verarbeiten der Antwort
Die Anwendungs- oder Middleware-Ebene führt den Toolaufruf aus und kümmert sich um Authentifizierung, Fehlermanagement und Datentransformationen, bevor ein sauberes Ergebnis an das LLM zurückgegeben wird. Das Ergebnis wird erfasst und für das LLM vorbereitet, sodass Zuverlässigkeit und Richtigkeit gewährleistet sind, bevor es zurückgegeben wird.
Schritt 5: Informationen präsentieren oder Maßnahmen ergreifen
Das LLM empfängt die Ausgabe und bezieht sie in die Konversation ein. Zum Abrufen von Informationen generiert es eine für Menschen lesbare Antwort. Bei Aktionen wie dem Senden einer E-Mail wird möglicherweise bestätigt, dass die Aufgabe erfolgreich abgeschlossen wurde, sodass eine reibungslose Benutzererfahrung gewährleistet ist.
Schritt 6: Den Prozess verfeinern
Bei mehrstufigen oder komplexen Aufgaben kann das LLM die Konversation anhand der Ergebnisse des Tools neu bewerten. Es kann wählen, ob es zusätzliche Tools aufrufen, seine Argumentation anhand neuer Daten verfeinern oder den Benutzer um eine Klarstellung bitten möchte, um genaue, vollständige und dem Kontext angemessene Ergebnisse zu gewährleisten.
Warum Tool Calling wichtig ist
Das Aufrufen von LLM-Tools erweitert grundlegend die Möglichkeiten von KI-Modellen — sie werden von passiven Textgeneratoren zu Agenten, die reale Aktionen ausführen können.
- Verwandelt LLMs in Wirkstoffe: Führt LLMs über die Textgenerierung hinaus und ermöglicht es ihnen, reale Aufgaben auszuführen und Probleme eigenständig zu lösen.
- Überwindet LLM-Einschränkungen: Ermöglicht den Zugriff auf Echtzeitinformationen, firmeneigene Datenbanken und private Systeme und verbessert so die Genauigkeit, Relevanz und Aktualität der Antworten.
- Verbessert die Zuverlässigkeit: Strukturierte Ausgaben wie JSON bieten vorhersehbare, maschinenlesbare Anweisungen, wodurch Formatfehler und Mehrdeutigkeiten beim Analysieren reduziert werden. Und weil die Antworten des LLM auf realen Daten basieren, die von den Tools zurückgegeben werden, und nicht nur auf Trainingsdaten, nehmen auch die tatsächlichen Halluzinationen ab.
- Ermöglicht praktische Maßnahmen: LLMs können Aufgaben wie das Senden von E-Mails, das Abfragen von Datenbanken, das Aktualisieren von Datensätzen oder das Auslösen komplexer Workflows ausführen und sie so wirklich produktiv machen.
- Liefert Geschäftswert: Beschleunigt den Betrieb, senkt die Kosten, automatisiert sich wiederholende Prozesse und entlastet die Mitarbeiter für wertvollere strategische Arbeiten, wodurch die Gesamteffizienz gesteigert wird.
Was sind die Arten von Tool Calling?
.webp)
Das Aufrufen von LLM-Tools kann nach der Art der externen Interaktion und den damit verbundenen Problemen kategorisiert werden. Zu den wichtigsten Typen gehören:
1. Abrufen und Suchen von Informationen
Mit diesen Tools können LLMs Daten aus externen Quellen abrufen und verarbeiten. Zu den Beispielen gehören:
- Externe APIs: Greifen Sie auf Echtzeitinformationen wie Wettervorhersagen, Börsenaktualisierungen, Nachrichtenartikel oder Suchmaschinenergebnisse zu.
- Datenbanken (SQL/NoSQL): Fragen Sie strukturierte Daten wie Kundendatensätze, Bestellhistorien oder Produktkataloge ab.
Vektor-Datenbanken: Führen Sie semantische Suchen in großen, unstrukturierten Dokumentensammlungen durch. Diese werden häufig in RAG-Architekturen (Retrieval-Augmented Generation) verwendet, bei denen abgerufene Blöcke zusammen mit der Benutzerabfrage als Kontext an das LLM übergeben werden.
2. Ausführung des Codes
Tools zur Codeausführung ermöglichen es LLMs, Berechnungen, Datenanalysen und andere Transformationen durchzuführen, die über ihre integrierten Funktionen hinausgehen:
- Programmiersprachen (z. B. Python): Führen Sie Skripts für komplexe Berechnungen, statistische Analysen oder Datenmanipulationen aus.
- Spezialisierte mathematische Werkzeuge (z. B. Wolfram Alpha): Erledigen Sie fortgeschrittene Mathematik, symbolische Berechnungen oder wissenschaftliche Problemlösungen.
3. Automatisierung von Prozessen
Mit diesen Tools können LLMs Workflows auslösen oder mit anderen Softwaresystemen interagieren:
- Plattformen zur Workflow-Automatisierung: Initiieren Sie Aufgaben in Projektmanagement-Tools wie Jira, lösen Sie CI/CD-Pipelines aus oder verwalten Sie Genehmigungsprozesse.
- Kommunikations-Tools: Sende E-Mails, Slack-Nachrichten, SMS-Benachrichtigungen oder erstelle Kalenderereignisse.
- CRM-/ERP-Systeme: Verwalte Leads, aktualisiere Kundenprofile oder verwalte Inventar auf Plattformen wie Salesforce oder HubSpot.
4. Intelligente Geräte und IoT-Überwachung
Diese Tools ermöglichen es LLMs, mit physischen Geräten zu interagieren und diese zu steuern:
- APIs für IoT-Geräte: Schalten Sie Geräte ein/aus, stellen Sie Thermostate ein oder fragen Sie Sensordaten von angeschlossenen Geräten ab.
- Hausautomationssysteme: Integrieren Sie in Smart-Home-Hubs, um Befehle auszuführen oder Gerätestatus abzurufen.
Was sind die häufigsten Beispiele für Tool Calling?
LLM Tool Calling kann in einer Vielzahl praktischer Szenarien in Aktion gesehen werden. Diese Beispiele veranschaulichen, wie LLMs über das Generieren von Text hinausgehen und reale Aufgaben ausführen:
1. Abrufen von Informationen in Echtzeit
LLMs können Live-Daten aus externen Quellen abrufen, um aktuelle Antworten bereitzustellen.
Zum Beispiel:
- Wenn ein Benutzer fragt: „Was ist Teslas Aktienkurs gerade?“ ruft das LLM eine get_stock_price (symbol="TSLA“) -API auf.
- Für eine Frage wie: „Was sind heute die Top-Schlagzeilen in der Tech-Branche?“ fragt das LLM eine get_news_headlines (category „technology“) -API ab.
2. Mathematische Ausführung und Codeausführung
LLMs können komplexe Berechnungen durchführen oder Code für analytische Aufgaben ausführen.
Zum Beispiel:
- Wenn ein Benutzer fragt: „Berechne die Quadratwurzel von 12345“, löst einen Aufruf von calculate_math (expression="sqrt (12345)“) aus.
- Für Anfragen wie „Analysieren Sie diesen Datensatz für Verkaufstrends“ generiert das LLM ein Python-Skript und führt es aus, um statistische Analysen durchzuführen und Visualisierungen zu erstellen.
3. Datenbank-Aktionen
LLMs können strukturierte Daten in Datenbanken abfragen oder aktualisieren.
Zum Beispiel:
- Wenn ein Support-Mitarbeiter fragt: „Finde alle offenen Support-Tickets für John Doe“, führt das LLM dazu, find_tickets (customer_name="John Doe“) in einer CRM-Datenbank auszuführen.
- Ein Vertriebsmitarbeiter, der anfordert, „den Lead-Status für 'Project Phoenix' auf 'Qualifiziert' zu aktualisieren“, fordert den LLM auf, update_crm_lead (project="Project Phoenix“, status="Qualified“) aufzurufen.
4. Automatisierung von Aktionen
LLMs können Workflows auslösen oder mit Anwendungen interagieren, um Aufgaben auszuführen.
Zum Beispiel:
- Wenn ein Benutzer sagt: „Sende eine E-Mail an mein Team, in der wir unser letztes Meeting zusammenfassen“, veranlasst das LLM, die E-Mail zu verfassen und send_email (Empfänger, Betreff, Text) anzurufen.
- Für eine Anfrage wie „Buchen Sie nächsten Monat einen Flug von London nach New York“ verwendet das LLM eine book_flight (Herkunft, Ziel, Datum) -API, möglicherweise nach Bestätigung der Daten mit dem Benutzer.
Tool Calling im Vergleich zur Werkzeugsuche im Vergleich zu MCP
Obwohl es oft in verwandten Kontexten verwendet wird, ist es wichtig, die unterschiedlichen Rollen von Tool Calling, Tool Search und dem Model Context Protocol (MCP) zu verstehen:
Werkzeugaufruf: Dies ist der Kernmechanismus, die grundlegende Fähigkeit eines LLM, strukturierte Ausgaben (wie JSON) zu generieren, um eine externe Funktion oder API aufzurufen. Es ist die „Hand“, die es dem „Gehirn“ des LLM ermöglicht, externe Objekte zu manipulieren.
Werkzeugsuche: Dies ist die Discovery-Ebene. Da die Anzahl der verfügbaren Tools wächst (potenziell auf Hunderte oder Tausende), wird die Bereitstellung aller Tooldefinitionen im Kontextfenster des LLM ineffizient und kostspielig. Die Werkzeugsuche ermöglicht es dem LLM, dynamisch die relevantesten Werkzeugdefinitionen aus einem großen Katalog abzurufen, in der Regel durch eine semantische Suche in den Werkzeugbeschreibungen, basierend auf der Absicht des Benutzers, sodass nur relevante Tools in das Kontextfenster geladen werden.
Modellkontextprotokoll (MCP): Dies ist ein Schnittstellenstandard. Modellkontextprotokoll (MCP) bietet eine standardisierte Methode zum Definieren und Verbinden von Tools mit LLMs, ähnlich wie ein „USB-C-Anschluss“ standardisiert, wie Peripheriegeräte an einen Computer angeschlossen werden. Es zielt darauf ab, den Integrationsprozess zu vereinfachen, indem es ein einheitliches Kommunikationsprotokoll (z. B. Tools/Liste zur Erkennung, Tools/Aufruf zum Ausführen) für die Kommunikation bereitstellt, unabhängig vom zugrunde liegenden Tool oder LLM-Anbieter.
Sicherheit und Verwaltung für Tool Calling
Die sichere Implementierung von LLM-Tool-Calling erfordert strenge Sicherheits- und Governance-Praktiken wie:
- Authentifizierung und Autorisierung: Verwenden Sie OAuth, API-Schlüssel oder Dienstkonten, um den Toolzugriff zu sichern. Wenden Sie die Prinzipien der geringsten Rechte an und verwalten Sie Token pro Benutzer.
- Prompte Injektion verhindern: Schützen Sie sich vor Prompt-Injection, einschließlich indirekter Injection über Tool-Outputs, indem Sie Eingaben anhand strenger Schemas validieren, die Tool-Ausführung im Sandboxing durchführen und einschränken, welche Tools je nach Kontext und Benutzerrolle aufgerufen werden können.
- Eingangs- und Ausgangssicherheit: Validieren Sie Eingaben anhand von Schemas und bereinigen Sie die Ausgaben. Verwenden Sie Zulassungslisten für zulässige Werkzeuge und Parameter.
- Datenschutz und Compliance: Halten Sie sich an Vorschriften wie GDPR oder HIPAA. Protokollieren Sie alle Tool-Aufrufe und definieren Sie klare Richtlinien zur Datenspeicherung.
- Menschen-in-the-Loop für kritische Aktionen: Unterbrechen Sie bei sensiblen oder irreversiblen Vorgängen die Agentenschleife, um eine ausdrückliche menschliche Genehmigung einzuholen, bevor der Toolaufruf ausgeführt wird.
Was macht ein Modell gut für Tool Calling?
Die Effektivität eines LLM beim Tool-Calling hängt von mehreren Schlüsselmerkmalen ab, wie z. B.:
- Hohe Einhaltung der strukturierten Ausgabe (JSON/Syntax): Ein gutes Modell zum Aufrufen von Tools gibt das erforderliche strukturierte JSON-Format konsistent und genau aus, einschließlich korrekter Werkzeugnamen und wohlgeformter Argumente, ohne Abweichungen oder „halluzinierte“ Syntax.
- Starke Denk- und Entscheidungsfähigkeit: Das Modell muss die Benutzerabsicht effektiv verstehen, erkennen, wann ein Tool erforderlich ist, und logisch das am besten geeignete Tool aus der Liste der verfügbaren Tools auswählen. Es sollte auch in der Lage sein, mehrere Tool-Aufrufe zu verketten, falls eine komplexe Aufgabe dies erfordert.
- Native Tool-Calling-Schulung: Modelle, die explizit mit Datensätzen zum Aufrufen von Werkzeugen optimiert oder vorab trainiert wurden, schneiden deutlich besser ab. Sie lernen die Muster der Identifizierung des Werkzeugeinsatzes, des Extrahierens von Parametern und der Formatierung der Ausgabe kennen, was zu einer höheren Zuverlässigkeit führt als bei Modellen, mit denen nachgerüstet wurde schnelles Engineering allein.
- Hohe Zuverlässigkeit und niedrige „Werkzeughalluzination“: Das Modell sollte selten „halluzinieren“ oder Werkzeugnamen oder Parameter erfinden, die nicht existieren. Es muss Benutzeranfragen den verfügbaren Werkzeugen und ihren Schemas genau zuordnen.
- Effektives Kontext- und Parametermanagement: Die Fähigkeit, den Gesprächsverlauf zu verwalten, Tool-Ausgaben zu integrieren und präzise Parameter aus verschiedenen Eingaben in natürlicher Sprache zu extrahieren, ist von entscheidender Bedeutung. Bei komplexen Szenarien sollte das Modell eine größere Anzahl von Tools effizient handhaben, was häufig mit Strategien wie der Werkzeugsuche einhergeht, um die Einschränkungen des Kontextfensters zu bewältigen.
Fazit
LLM Tool Calling verwandelt große Sprachmodelle von einfachen Textgeneratoren in dynamische, interaktive KI-Agenten. Es ermöglicht ihnen den Zugriff auf externe APIs, Datenbanken und Code, um Informationen in Echtzeit abzurufen, komplexe Berechnungen durchzuführen und praktische Aktionen auszuführen.
Um dies effektiv zu implementieren, benötigen Sie die richtige Infrastruktur, die die Komplexität bewältigt, ohne Sie auszubremsen.
TrueFoundry ermöglicht Ihnen die Bereitstellung, Sicherung und Skalierung von KI-Systemen mit integrierter Unterstützung für Toolintegrationen, Zugriffskontrollen und Überwachung. Dies erleichtert die Verwaltung des Modellverhaltens und die Entwicklung zuverlässiger, produktionsfähiger KI-Anwendungen, die über einfache Konversationen hinausgehen.

Steuern, implementieren und verfolgen Sie KI in Ihrer eigenen Infrastruktur
Häufig gestellte Fragen
Wie werden LLMs für Tool Calling trainiert?
LLMs werden durch Fine-Tuning oder Pre-Training mit Datensätzen trainiert, die Benutzer-Prompts und strukturierte Tool-Aufrufe verbinden. Sie lernen zu erkennen, wann externe Tools benötigt werden, das richtige Tool auszuwählen und Aufrufe präzise zu formatieren, manchmal unter Analyse dynamischer Tool-Definitionen.
Was ist ein LLM-Aufruf?
Ein LLM-Aufruf ist jede Interaktion, bei der ein Prompt an ein Large Language Model gesendet wird und dieses eine Antwort zurückgibt. Es kann sich um einfache Textgenerierung oder komplexe Workflows handeln, einschließlich mehrstufiger Argumentation, Tool-Nutzung oder Retrieval-Augmented Generation (RAG).
Wie rufen LLMs MCP-Tools auf?
LLMs rufen MCP-Tools auf, indem sie MCP-konforme Tool-Definitionen empfangen, das geeignete Tool basierend auf der Benutzerabsicht auswählen, einen strukturierten Aufruf generieren, diesen an eine Ausführungsschicht senden und standardisierte Ergebnisse für die weitere Verarbeitung oder die endgültige Ausgabe erhalten.
Was ist der Unterschied zwischen Function Calling und LLM-Tools?
Die Begriffe werden oft synonym verwendet. 'Function Calling' war der ursprüngliche Begriff, der von Anbietern wie OpenAI verwendet wurde, während 'Tool Calling' der breitere, aktuellere Begriff ist, der Funktionen, APIs, Codeausführung und andere externe Fähigkeiten umfasst. Im engeren Sinne ist eine 'Funktion' eine Art von Tool, aber in der Praxis ist der Unterschied weitgehend semantisch.

GenAI infra- einfach, schneller, günstiger
Top-Teams vertrauen uns bei der Skalierung von GenAI












