Ein Token ist die grundlegende Texteinheit, in die ein KI-Sprachmodell Eingaben zerlegt — ein Token kann ein ganzes Wort, ein Wortteil, ein Satzzeichen oder ein Sonderzeichen sein. Tokens bestimmen, wie viel Text ein Modell verarbeiten kann und wie viel die Nutzung kostet.
Token einfach erklärt
Wenn Sie einen Text an ChatGPT, Claude oder ein anderes Large Language Model senden, lesen die KI nicht Wort für Wort wie ein Mensch. Stattdessen zerlegt sie den Text in kleine Stücke — sogenannte Tokens. Diese Tokens sind die “Atome” der Sprachverarbeitung.
Ein Token ist oft ein ganzes Wort (“Hund” = 1 Token), manchmal aber auch ein Wortteil (“Un|ter|neh|men” könnte 3-4 Tokens sein) oder ein Satzzeichen (”.” = 1 Token). Als Faustregel für deutsche Texte: 1 Token entspricht ungefähr 0,6-0,8 Wörtern. Oder anders: 100 Wörter sind etwa 130-170 Tokens.
Warum ist das für Sie relevant? Weil Tokens zwei Dinge bestimmen: wie viel Text die KI auf einmal verarbeiten kann (Kontextfenster) und wie viel die Nutzung kostet (Abrechnung pro Token).
Wie funktionieren Tokens?
Die Zerlegung von Text in Tokens heisst “Tokenisierung” und ist der erste Schritt jeder NLP-Verarbeitung:
- Tokenisierung: Der Text wird in Tokens aufgeteilt. Der Satz “Das Wetter ist schön” wird z. B. in die Tokens [“Das”, ” Wetter”, ” ist”, ” sch”, “oen”] zerlegt.
- Nummerische Darstellung: Jedes Token bekommt eine Nummer aus dem Vokabular des Modells — z. B. “Das” = 1234, ” Wetter” = 5678.
- Verarbeitung: Das neuronale Netz verarbeitet diese Zahlen und berechnet die wahrscheinlichsten nächsten Tokens.
- Ausgabe: Die berechneten Token-Nummern werden zurück in lesbaren Text übersetzt.
Wichtige Token-Konzepte:
- Kontextfenster: Die maximale Anzahl Tokens, die ein Modell gleichzeitig verarbeiten kann. GPT-4 hat z. B. ein Kontextfenster von 128.000 Tokens — das sind grob 200 Seiten Text.
- Input-Tokens: Die Tokens Ihrer Eingabe (Frage, Kontext, Dokumente).
- Output-Tokens: Die Tokens, die das Modell als Antwort generiert.
- Token-Limit: Wenn Input + Output das Kontextfenster überschreiten, muss der Input gekürzt werden.
Bei RAG-Systemen ist das Kontextfenster besonders wichtig: Die abgerufenen Dokumente verbrauchen Input-Tokens und begrenzen, wie viel Kontext bereitgestellt werden kann.
Tokens im Unternehmensalltag
Tokens beeinflussen Kosten und Qualität Ihrer KI-Anwendungen:
- Kostenplanung: KI-APIs werden pro Token abgerechnet. Ein Chatbot mit 1.000 Gesprächen pro Monat verbraucht eine vorhersagbare Menge Tokens — und damit ein planbares Budget.
- Kontextmanagement: Bei langen Dokumenten oder komplexen Anfragen muss entschieden werden, welche Informationen ins Kontextfenster passen.
- Prompt-Optimierung: Kürzere, präzisere Prompts verbrauchen weniger Tokens und sparen Kosten.
- Modellwahl: Verschiedene Modelle haben unterschiedliche Token-Preise und Kontextfenster — die richtige Wahl spart Geld.
- Chatbot-Design: Die Länge von System-Prompts und bereitgestelltem Kontext beeinflusst die Kosten pro Gespräch.
Beispiel: Ein Unternehmen betreibt einen Chatbot, der pro Kundenanfrage durchschnittlich 2.000 Tokens verbraucht (Eingabe + Antwort). Bei 500 Anfragen pro Monat und einem Preis von 0,01 Euro pro 1.000 Tokens kostet der Betrieb nur 10 Euro im Monat. Bei einem komplexeren System mit RAG und langen Dokumenten kann der Verbrauch auf 10.000 Tokens pro Anfrage steigen — dann sind es 50 Euro monatlich.
Vorteile des Token-Verständnisses
- Kostenkontrolle: Sie verstehen, wofür Sie zahlen, und können die Kosten optimieren
- Bessere Ergebnisse: Effiziente Token-Nutzung maximiert den verfügbaren Kontext
- Richtige Modellwahl: Sie wählen das Modell mit dem besten Preis-Leistungs-Verhältnis
- Prompt-Optimierung: Kürzere Prompts bei gleicher Qualität sparen Geld
- Skalierungsplanung: Sie können Kosten für steigende Nutzung realistisch planen
- Architekturentscheidungen: Token-Limits beeinflussen, wie RAG-Systeme und Chatbots designed werden
Verwandte Begriffe
- Large Language Model — die Modelle, die Tokens verarbeiten
- Prompt Engineering — effiziente Token-Nutzung durch gute Prompts
- Natural Language Processing — Tokenisierung als erster NLP-Schritt
- Retrieval Augmented Generation — Token-Limits beeinflussen RAG-Design
- Chatbot — Token-Verbrauch bestimmt die Betriebskosten
Häufige Fragen zu Tokens
Wie berechne ich die Token-Kosten meiner KI-Anwendung?
Schätze den durchschnittlichen Token-Verbrauch pro Anfrage (Input + Output) und multipliziere mit der erwarteten Anzahl Anfragen pro Monat. Die Preise finden Sie bei den Anbietern — typisch sind 0,001-0,06 Euro pro 1.000 Tokens, je nach Modell. Tools wie der OpenAI Tokenizer helfen, den Token-Verbrauch für konkrete Texte zu berechnen.
Warum werden deutsche Texte in mehr Tokens zerlegt als englische?
Die meisten LLMs wurden primär auf englischen Texten trainiert. Ihr Vokabular enthält viele englische Wörter als einzelne Tokens, während deutsche Wörter — besonders lange Komposita — in mehrere Teile zerlegt werden. “Datenschutzbeauftragter” braucht mehr Tokens als “data protection officer”. Deutsche Texte verbrauchen dadurch typischerweise 20-40 % mehr Tokens als vergleichbare englische Texte.
Kann ich den Token-Verbrauch meines Chatbots senken?
Ja, auf mehrere Arten: Kürzen Sie Ihren System-Prompt auf das Wesentliche. Begrenzen Sie die Länge der Konversationshistorie, die mitgesendet wird. Nutzen Sie bei RAG nur die relevantesten Textausschnitte statt ganzer Dokumente. Setzen Sie für einfache Anfragen günstigere Modelle ein und reservieren Sie leistungsstärkere für komplexe Fälle.
Sie wollen Ihre KI-Kosten optimieren? Sprechen Sie uns an — wir beraten Sie unverbindlich.