Token sind die kleinste Verrechnungseinheit, in der KI-Modelle Texte verarbeiten und Anbieter wie OpenAI oder Anthropic ihre Rechnung schreiben. Für KMU ist der Begriff 2026 entscheidend, weil eine schlecht geschriebene Anfrage doppelt so teuer sein kann wie eine gute — und weil Token-Limits bestimmen, wie viel Firmenwissen die KI gleichzeitig im Kopf behalten kann.
Kurze Antwort
Ein Token ist ein Stück Text — oft eine Silbe, ein kurzes Wort oder ein Satzzeichen. KI-Modelle zerlegen jeden Input in Token, verarbeiten sie und geben wieder Token aus. Die Anbieter rechnen pro 1.000 oder 1 Million Token ab. Faustregel: 100 Token entsprechen im Deutschen etwa 60–80 Wörtern — also einem kurzen Absatz.
| Begriff | Bedeutung |
|---|---|
| Input-Token | Was Du an die KI schickst |
| Output-Token | Was die KI antwortet |
| Kontext-Fenster | Maximale Token, die ein Modell gleichzeitig “sieht” |
| Token-Preis | Kosten pro 1 Mio. Input- oder Output-Token |
Definition
Tokenisierung ist der Vorgang, mit dem ein KI-Modell Rohtext in maschinell verarbeitbare Stücke zerlegt. Die meisten modernen Modelle nutzen sogenannte Byte-Pair-Encoding-Verfahren (BPE) oder SentencePiece. Häufige Wörter wie “der” werden zu einem einzigen Token, seltene wie “Mandantenbetreuungsvertrag” zu mehreren.
Deutsche Texte erzeugen tendenziell mehr Token als englische, weil die Tokenizer ursprünglich auf englischen Daten trainiert wurden. Ein deutscher Text kostet bei gleichem Informationsgehalt häufig mehr Token als die englische Übersetzung — der genaue Mehraufwand hängt vom jeweiligen Tokenizer und Modell ab.
Jedes LLM hat ein Kontext-Fenster — die maximale Anzahl Token, die es gleichzeitig verarbeiten kann. 2026 reichen die Fenster von 4.000 Token (alte Modelle) bis zu 2 Millionen Token (Gemini, Claude Opus mit 1M-Context). Sobald das Fenster ausgeschöpft ist, kann das Modell ältere Inhalte nicht mehr berücksichtigen — bei modernen Modellen mit sehr großen Kontextfenstern (bis zu 1 Million Token und mehr) ist das im Alltag seltener ein Problem als früher.
Beispiel aus der Praxis
Ein Marketingbüro mit 4 Mitarbeitern lässt täglich Produktbeschreibungen durch ChatGPT umschreiben. Anfangs schicken sie den kompletten Produktkatalog mit (50.000 Token) plus die Anweisung pro Text. Monatsrechnung: 380 Euro.
Nach der Token-Analyse stellt das Büro um: nur noch das relevante Produkt plus eine kurze Stilrichtlinie als Kontext (3.500 Token statt 50.000). Die Qualität bleibt gleich, weil das Modell das ganze Sortiment ohnehin nicht braucht. Neue Monatsrechnung: 32 Euro.
Ersparnis: 348 Euro pro Monat, allein durch das Verständnis, dass jeder Token Geld kostet. Das gleiche Prinzip gilt für interne KI-Anwendungen — wer im RAG-System nur den wirklich relevanten Ausschnitt einer 80-Seiten-PDF liefert statt der ganzen Datei, halbiert die Kosten.
Typische Anwendungsfälle
- Kostenplanung: Monatliches KI-Budget anhand Token-Verbrauch hochrechnen
- Prompt-Optimierung: Lange Prompts kürzen, ohne Qualität zu verlieren
- Kontext-Limit prüfen: Passt das ganze Dokument ins Modell oder muss gechunkt werden?
- Anbieter-Vergleich: Token-Preise zwischen OpenAI, Anthropic, DeepSeek vergleichen
- Modellwahl: Kleines Modell für einfache Aufgaben (weniger Token-Kosten)
- Streaming-Kosten: Output-Token kosten meist 2-5x mehr als Input-Token
- Batch-Verarbeitung: 50 % Rabatt bei manchen Anbietern für asynchrone Jobs
- Caching: Wiederkehrende System-Prompts werden bei manchen Anbietern stark vergünstigt
Wann lohnt sich Token-Optimierung?
Lohnt sich, wenn: ✅ Monatlich mehr als 10 Euro KI-Kosten anfallen ✅ Die gleichen langen System-Prompts immer wieder gesendet werden ✅ Ganze Dokumente als Kontext mitgeschickt werden ✅ Mehrere Mitarbeiter parallel KI nutzen ✅ Das Tool über eine API direkt angesteuert wird
Lohnt sich nicht, wenn: ❌ Du nur die Web-Oberfläche (ChatGPT Plus, Claude Pro) nutzt — dort gilt eine Pauschale ❌ Monatlich unter 5 Euro Verbrauch ❌ Nur sporadisch Einzel-Anfragen ohne Kontext
Faustregel: Erst messen, dann optimieren. Die meisten Anbieter zeigen den Token-Verbrauch im Dashboard.
DSGVO-Relevanz
Token-Wissen ist DSGVO-relevant, weil viele KMU Daten ohne Not in die KI laden. Jedes Token, das Du in einen Cloud-Prompt schickst, verlässt bei Cloud-KI-Anbietern für die Dauer der Verarbeitung das eigene Haus — bei US-Anbietern auch die EU. Wer lokale Modelle einsetzt (z.B. auf eigenem Server), überträgt keine Daten nach außen. Wer beim Token-Sparen ist, schickt automatisch weniger Daten und reduziert das Risiko.
Konkret: Wenn Du einer KI 50.000 Token Kunden-Mails als Kontext mitschickst, sind das im Klartext personenbezogene Daten. Du brauchst dafür einen AVV mit dem Anbieter. Sind die Server in den USA, zusätzlich DPF oder SCCs. Ein gut geschnittener Prompt mit nur 3.000 wirklich nötigen Token ist nicht nur 95 Prozent billiger, sondern auch das, was die DSGVO unter “Datenminimierung” (Art. 5 Abs. 1 lit. c) versteht.
Ein zweiter Punkt: Manche Anbieter zählen den Output-Token mit, behalten ihn aber für Trainingszwecke. Prüfe in den AGB, ob ein Opt-out existiert (bei OpenAI Business und Anthropic standardmäßig kein Training, bei kostenlosen Tarifen oft schon).
Für sensible Datenkategorien (Art. 9 DSGVO: Gesundheit, Religion, Gewerkschaft) gilt: Auch einzelne Token können datenschutzrechtlich relevant sein, wenn sie personenbezogene Daten enthalten und keine Rechtsgrundlage für die Übermittlung vorliegt.
Verwandte Begriffe
- Kontext-Fenster: Maximale Token-Zahl, die ein Modell gleichzeitig verarbeitet
- Tokenizer: Software, die Text in Token zerlegt (z.B. tiktoken von OpenAI)
- Prompt: Der Token-Input, den die KI bekommt
- LLM: Verarbeitet Token-Sequenzen
- Prompt-Caching: Mehrfach genutzte Token werden vergünstigt abgerechnet
- Temperature: Steuert, wie kreativ die KI Output-Token wählt
- Embedding: Token werden in Vektoren übersetzt für die Modellverarbeitung
Häufige Missverständnisse
- “Ein Token ist immer ein Wort.” Falsch. “Unternehmensberatung” sind im Deutschen etwa 6 Token, “the” nur eines.
- “Mehr Kontext = bessere Antwort.” Stimmt nur bis zu einem Punkt. Lange Kontexte verlieren die KI in der Mitte — der bekannte “Lost-in-the-Middle”-Effekt.
- “Output-Token sind genauso teuer wie Input-Token.” Falsch. Output-Token kosten bei den meisten Anbietern 2-5 mal mehr.
- “Token-Limit ist gleich Dokument-Limit.” Falsch. PDFs mit vielen Bildern oder Tabellen erzeugen oft 2-3x mehr Token als reiner Text gleicher Länge.
Häufig gestellte Fragen
Wie viele Token hat eine A4-Seite? Eine deutsche A4-Seite mit ca. 400 Wörtern entspricht 600-700 Token. Englische Texte erzeugen rund 30 % weniger.
Wie kann ich Token vorher zählen?
OpenAI bietet tiktoken als kostenlose Python-Bibliothek. Anthropic hat einen Token-Counter in der API. Online-Tools wie tokencost.dev rechnen Texte direkt im Browser durch.
Welcher Anbieter ist 2026 am günstigsten? Die Preise unterscheiden sich erheblich und ändern sich regelmäßig. Günstige Anbieter haben häufig ihren Sitz außerhalb der EU — was DSGVO-Pflichten auslöst. EU-Alternativen wie Mistral bieten europäisches Hosting. Aktuelle Preise immer direkt beim Anbieter prüfen.
Was bedeutet “Context-Window 200k”? Das Modell verarbeitet bis zu 200.000 Token gleichzeitig — etwa 150.000 deutsche Wörter oder 350 A4-Seiten. Über diese Grenze hinaus muss gechunkt werden.
Kosten Eingabe-Bilder auch Token? Ja. Multimodale Modelle wie GPT-4o oder Claude rechnen ein typisches Bild mit 700-2.000 Token ab — je nach Auflösung.
Fazit
Token zu verstehen ist die wichtigste Sparmaßnahme im KI-Alltag. Wer regelmäßig API-Zugriffe nutzt, sollte einmal pro Quartal seinen durchschnittlichen Prompt analysieren und kürzen. Faustregel: Erst messen (Dashboard prüfen), dann den Prompt halbieren und schauen, ob die Qualität leidet. Für Web-Oberflächen mit Pauschalpreis ist Token-Optimierung weniger wichtig, dafür aber das Bewusstsein, was alles in die Cloud wandert.
Passende Tooltests
Weiterführende Begriffe