Ein neuronales Netzwerk, das auf riesigen Textmengen trainiert wurde und natürliche Sprache verstehen sowie generieren kann. Beispiele sind Claude (Anthropic), GPT-4 (OpenAI) und Llama (Meta). Die Basis fast aller KI-Anwendungen, mit denen wir arbeiten.
In der Praxis
Wenn ein Voice-Agent einen Anruf entgegennimmt, ist es ein LLM, das die Frage versteht, einen Plan formt und die Antwort formuliert.
Eine numerische Darstellung von Text, mit der KI-Systeme Bedeutungs-Ähnlichkeit berechnen können. Zwei Sätze mit ähnlichem Inhalt haben ähnliche Embeddings — auch wenn keine gemeinsamen Wörter vorkommen. Grundlage für RAG und semantische Suche.
Die Recheneinheit von LLMs. Ein Token entspricht etwa 0,75 deutschen Wörtern. Sowohl Input als auch Output werden in Token gemessen — das ist der Grund, warum KI-Anbieter pro 1.000 Token abrechnen.
Context Window
Auch: Kontextfenster
Wie viel Text ein LLM gleichzeitig verarbeiten kann. Moderne Modelle wie Claude haben Kontextfenster von 200.000 Token — genug, um ein ganzes Buch in einem Aufruf zu analysieren.
Halluzination
Auch: Hallucination
Wenn ein LLM überzeugend klingende, aber falsche Aussagen produziert. Halluzinationen sind der Hauptgrund, warum produktive KI-Systeme RAG, Validierung und Fact-Checking einsetzen — und nicht blind dem Modell vertrauen.
Die Fähigkeit eines LLMs, externe Werkzeuge zu nutzen — Datenbanken abzufragen, APIs aufzurufen oder Aktionen auszulösen. Ohne Function Calling könnten KI-Agenten nur reden, nicht handeln.
Wie ein LLM aus mehreren möglichen Antworten eine auswählt. Über Parameter wie Temperature (Kreativität) und Top-P (Token-Wahrscheinlichkeit) lässt sich steuern, ob die Antwort eher konservativ-präzise oder kreativ-vielfältig wird. In Produktionssystemen meist niedrige Temperature für Konsistenz.
Die übergeordnete Anweisung, die dem LLM Rolle, Tonalität und Verhalten vorgibt — bevor der Nutzer überhaupt etwas sagt. Der System Prompt ist meistens der Unterschied zwischen einem KI-Spielzeug und einem produktiven Agent.
Streaming
Auch: Token-Streaming
LLM-Antworten Token für Token zurückliefern, statt auf die fertige Antwort zu warten. Reduziert die wahrgenommene Wartezeit drastisch — der User sieht erste Worte nach 200 ms statt nach 5 Sekunden.
Latency
Auch: Antwortlatenz
Die Zeit zwischen Anfrage und erster Antwort eines KI-Systems. Bei Voice Agents kritisch (>800 ms wirkt 'tot'), bei Chatbots tolerierbar bis 2-3 Sekunden. Wird durch Streaming, Modell-Auswahl, Caching und Region des Inferenz-Servers beeinflusst.
Die Anzahl numerischer Werte pro Embedding — typisch 384, 768, 1.536 oder 3.072. Mehr Dimensionen erfassen feinere Bedeutungs-Nuancen, brauchen aber mehr Speicher und Rechenleistung. Standard für deutschsprachige RAG-Systeme: 1.536 (text-embedding-3-small).
Sampling-Parameter (typisch 0–2), der steuert wie ‚kreativ‘ das LLM antwortet. Niedrige Werte (0–0,3) → konsistent und vorhersehbar, gut für Klassifizierung, Datenextraktion und Compliance-Workflows. Hohe Werte (0,7–1,2) → variabler und kreativer, gut für Brainstorming und Content-Generierung. Standard für produktive Systeme: 0,1–0,3.
Top-P
Auch: Nucleus Sampling
Sampling-Parameter (0–1), der die kumulative Wahrscheinlichkeit der zur Auswahl stehenden Tokens limitiert. Top-P = 0,9 bedeutet: Modell wählt nur aus dem kleinsten Token-Set, dessen Wahrscheinlichkeiten sich auf 90% summieren. Wirkt wie ein dynamisches Wahrscheinlichkeits-Filter zusätzlich zur Temperature.
Top-K
Auch: K-Top Sampling
Sampling-Parameter, der das LLM auf die K wahrscheinlichsten Tokens je Schritt einschränkt. Top-K = 10 → Modell wählt aus den Top-10 möglichen Folge-Tokens. Wird oft mit Top-P kombiniert, ist aber bei modernen Modellen seltener nötig — Temperature und Top-P reichen meistens.