Inferenz bezeichnet den Moment, in dem ein trainiertes KI-Modell eine neue Eingabe verarbeitet und daraus eine Ausgabe erzeugt – eine Antwort, eine Klassifikation oder eine Vorhersage.
Jedes Mal, wenn du eine Nachricht in ChatGPT tippst, ein KI-Tool einen Text zusammenfasst oder ein Bildgenerator deine Beschreibung in ein Bild verwandelt, läuft im Hintergrund eine Inferenz ab. Für Unternehmen, die KI-Dienste nutzen oder in eigene Prozesse einbinden, lohnt sich das Verständnis dieses Begriffs – denn Inferenz bestimmt, was du zahlst, wie schnell Antworten kommen und ob deine Daten das Unternehmen verlassen.
Was bedeutet Inferenz bei KI?
Der Begriff leitet sich vom lateinischen inferre (schließen, ableiten) ab und beschreibt in der KI genau das: Ein Modell zieht aus einer Eingabe einen Schluss. Im englischsprachigen Umfeld begegnet dir derselbe Begriff als AI inference oder model inference; spezialisierte Dienste, die ausschließlich Modelle ausführen, heißen Inference Engine oder Inference Server.
Um Inferenz zu verstehen, hilft der Vergleich mit dem Training. Jedes KI-Modell – ob Sprachmodell, Bildgenerator oder Klassifikator – durchläuft zwei grundlegende Phasen. Im Training lernt das Modell: Es wird auf riesigen Datensätzen verarbeitet, erkennt Muster und entwickelt dabei ein statistisches „Wissen” über seinen Aufgabenbereich. Training ist aufwendig, dauert Tage bis Wochen auf spezialisierter Hardware und kostet viel Rechenleistung – ein einmaliger (oder periodisch wiederholter) Prozess, den normalerweise der Anbieter übernimmt.
Bei der Inferenz kommt das fertige Modell zum Einsatz. Es verändert sich dabei nicht mehr – es wendet das Gelernte auf neue, unbekannte Eingaben an. Du schickst eine Anfrage (Frage, Bild, Dokument), das Modell verarbeitet sie und gibt ein Ergebnis zurück. Das passiert je nach Modell und Hardware innerhalb von Millisekunden bis wenigen Sekunden.
Merke: Training = Modell lernt · Inferenz = Modell arbeitet
Technisch gesehen zerlegt ein Sprachmodell deine Eingabe zunächst in kleinere Einheiten – sogenannte Token. Dann berechnet es Schritt für Schritt, welches Wort als nächstes am wahrscheinlichsten passt, basierend auf dem, was es im Training gelernt hat. Das wiederholt sich, bis die Antwort vollständig ist. Diese scheinbar einfache Abfolge erfordert Milliarden von Rechenoperationen, die in spezialisierter Hardware – GPUs oder dedizierte KI-Chips – parallel ausgeführt werden. Cloud-Anbieter betreiben dafür ganze Rechenzentren mit Inference Servern; lokale Lösungen nutzen optimierte Bibliotheken, die auch auf handelsüblicher Business-Hardware laufen können.
Für die meisten Unternehmen, die KI-Dienste abonnieren, ist Inferenz der einzige Prozess, mit dem sie direkt in Kontakt kommen. Training bleibt beim Anbieter – Inferenz findet bei jeder einzelnen Nutzung statt.
Warum ist Inferenz für mein Unternehmen wichtig?
Kosten: pro Anfrage, pro Token
Die meisten KI-APIs berechnen nach tatsächlicher Nutzung – pro Token, pro Zeichen, pro Bild oder pro Sekunde, je nach Dienst. Was du zahlst, ist die Rechenleistung für eine Inferenz. Wer täglich viele Anfragen stellt, führt täglich viele Inferenzen durch und zahlt entsprechend. Ein Kundenservice-Bot, der 500 Gespräche pro Tag führt, erzeugt 500 Inferenzen – Kostenkontrolle beginnt damit, das zu verstehen. Aktuelle Preise findest du direkt beim jeweiligen Anbieter (Stand: Juni 2026).
Geschwindigkeit und Latenz
Je nach Modellgröße und Hardware dauert eine Inferenz zwischen einem Bruchteil einer Sekunde und mehreren Sekunden. Für Echtzeit-Anwendungen wie Chatbots oder Live-Übersetzungen ist diese Verzögerung entscheidend. Große Modelle liefern oft bessere Ergebnisse, brauchen aber länger. Viele Anbieter bieten deshalb Modell-Größenklassen an: schnelle, kleine Modelle für Standardanfragen, leistungsfähigere Modelle für komplexe Aufgaben.
Datenschutz: Wo findet die Inferenz statt?
Das ist der datenschutzrechtlich sensible Punkt: Wenn eine Inferenz in der Cloud stattfindet – bei Google, OpenAI, Anthropic oder einem anderen Anbieter –, verlassen deine Eingabedaten dein Unternehmen und werden auf den Servern des jeweiligen Anbieters verarbeitet. Kundendaten, interne Dokumente, Verträge oder Geschäftszahlen, die in eine Cloud-KI eingegeben werden, sollten deshalb auf Zulässigkeit geprüft werden. Je nach Verarbeitung personenbezogener Daten kann ein Auftragsverarbeitungsvertrag (AVV) mit dem Anbieter erforderlich sein.
Besonders bei Diensten mit Serverstandort außerhalb der EU solltest du zusätzlich den Cloud Act im Blick haben – US-amerikanische Behörden können unter bestimmten Umständen auf Daten zugreifen, selbst wenn der Server physisch in Europa steht. Wer sensible Geschäftsdaten schützen will, bevorzugt Anbieter, die ihre Inferenz-Infrastruktur vollständig in der EU betreiben.
Wer keine Daten nach außen geben möchte oder kann, hat Alternativen: Selbst gehostete Modelle laufen auf eigener Hardware – keine Daten verlassen das Unternehmen. On-Premise-Lösungen ermöglichen den Betrieb im eigenen Rechenzentrum. Bei Edge-Inferenz läuft das Modell direkt auf dem Endgerät, vollständig offline – relevant für mobile Anwendungen oder Produktions-Hardware.
Viele Unternehmen kombinieren automatische Inferenz außerdem mit einer menschlichen Freigabe – bekannt als Human in the Loop –, bevor KI-gestützte Entscheidungen tatsächlich umgesetzt werden.
Modellwahl: Kosten und Qualität abwägen
Nicht jede Aufgabe braucht das leistungsfähigste Modell. Einfache Textklassifikationen, Stimmungsanalysen oder Standardantworten lassen sich mit kleineren, günstigeren Modellen lösen. Nur wo komplexe Reasoning-Aufgaben, kreative Texte oder mehrsprachige Ausgaben gefragt sind, rechtfertigt sich ein großes Modell. Viele Unternehmen optimieren ihre KI-Kosten, indem sie Anfragen nach Komplexität filtern und auf verschiedene Modelle verteilen.
Inferenz bei KI in der Praxis
Ein Handwerksunternehmen möchte eingehende E-Mails automatisch kategorisieren: Bestellung, Reklamation, allgemeine Anfrage. Dazu nutzt es ein KI-Modell, das jede eingehende E-Mail bei Eingang klassifiziert.
Jedes Mal, wenn eine neue E-Mail eintrifft, wird ihr Text an das Modell geschickt. Das Modell führt eine Inferenz durch – analysiert den Text und gibt eine Kategorie zurück, zum Beispiel „Reklamation”. Das passiert automatisch, ohne menschliches Zutun.
Datenschutz-Frage: Enthält die E-Mail Kundendaten – Name, Adresse, Auftragsnummer? Wenn die Inferenz über einen Cloud-Dienst läuft, verlassen diese Daten das Unternehmen und werden auf den Servern des Anbieters verarbeitet. Lösung: Entweder die persönlichen Daten vor der Übermittlung pseudonymisieren, ein Modell selbst hosten oder mit dem Cloud-Anbieter einen AVV abschließen und sicherstellen, dass der Server in der EU steht.
Kostenoptimierung: Nach einigen Wochen stellt das Unternehmen fest, dass kurze, klare E-Mails zuverlässig von einem kleinen, günstigen Modell kategorisiert werden. Nur lange, mehrdeutige E-Mails brauchen das leistungsfähigere Modell. Durch diese Aufteilung sinken die Inferenzkosten deutlich.
Was sich gerade verändert
Inferenz wird kontinuierlich effizienter. Techniken wie Quantisierung – dabei werden Modelle so komprimiert, dass sie auf schwächerer Hardware mit ähnlicher Qualität laufen – senken die Hardwareanforderungen und damit die Kosten. Gleichzeitig entstehen spezialisierte Inference-Server-Anbieter: Dienste, die Modelle verschiedener Entwickler ausführen, ohne selbst Modelle zu entwickeln. Das entkoppelt die Frage „Welches Modell?” von der Frage „Wo und wie läuft es?” – und schafft mehr Wettbewerb beim Preis.
Für Unternehmen in der DACH-Region bedeutet das konkret: Inferenz-Dienste mit EU-Serverstandort werden zunehmend zur Standardoption, was die Datenschutz-Compliance vereinfacht. Wer heute einen Cloud-KI-Dienst auswählt, sollte explizit nach dem Serverstandort fragen und prüfen, ob die Inferenz ausschließlich in der EU stattfindet. Lokal betriebene Modelle, die vor einigen Jahren noch ein eigenes Rechenzentrum erforderten, lassen sich durch effizientere Inference Engines zunehmend auch auf einem leistungsfähigen Server im eigenen Büro betreiben.
Weiterführendes
- Was ist ein LLM? – die Sprachmodelle hinter den meisten Inferenz-Diensten
- Was ist KI-Training? – wie Modelle vor der Inferenz ihr Wissen aufbauen
- Was ist ein Token bei KI-Modellen? – die Einheit, nach der Inferenz häufig abgerechnet wird
- Was ist der Cloud Act? – warum US-Serverstandorte auch für Cloud-KI relevant sind
Häufige Fragen
Was ist der Unterschied zwischen KI-Training und Inferenz?
Training ist der einmalige Prozess, bei dem ein Modell auf großen Datensätzen lernt. Inferenz ist das Anwenden des fertigen Modells auf neue Eingaben – das passiert bei jeder einzelnen Nutzung. Training findet beim Anbieter statt; Inferenz passiert, sobald du das Tool verwendest.
Was kostet eine KI-Inferenz?
Die Kosten hängen vom Anbieter und Modell ab und werden meist pro Token, pro Zeichen oder pro Sekunde berechnet. Aktuelle Preise findest du direkt beim jeweiligen Anbieter. Als Faustregel gilt: Je größer das Modell, desto teurer die Inferenz.
Verlassen meine Daten das Unternehmen bei jeder Cloud-KI-Anfrage?
Ja. Jede Anfrage an einen Cloud-KI-Dienst wird auf den Servern des Anbieters verarbeitet. Je nach Verarbeitung personenbezogener Daten kann ein Auftragsverarbeitungsvertrag (AVV) erforderlich sein. Wer sensible Daten schützen will, sollte außerdem prüfen, ob die Inferenz ausschließlich auf EU-Servern stattfindet.
Kann ich Inferenz auch ohne Cloud-Dienst durchführen?
Ja. Mit selbst gehosteten Modellen oder On-Premise-Lösungen läuft die Inferenz auf deiner eigenen Hardware. Das ist technisch aufwendiger, aber datenschutzrechtlich oft vorzuziehen, weil keine Eingabedaten das Unternehmen verlassen.