Was ist eine Vektordatenbank?

Eine Vektordatenbank speichert Embeddings — die mathematischen Bedeutungs-Vektoren, die KI-Modelle aus Texten oder Bildern erzeugen — und findet daraus blitzschnell die ähnlichsten Einträge. Für KMU ist sie 2026 das Rückgrat fast jeder ernsthaften KI-Lösung mit Firmenwissen: ohne Vektordatenbank kein Chatbot mit AVV-festen Antworten, kein semantisches Wiki, kein RAG-Setup.

Kurze Antwort

Eine Vektordatenbank ist eine spezialisierte Datenbank für Zahlenfolgen (Vektoren) mit typischerweise einigen hundert bis einigen tausend Dimensionen. Sie sucht nicht nach exakten Treffern, sondern nach Nähe im hochdimensionalen Raum. Klassische relationale Datenbanken sind für semantische Ähnlichkeitssuchen meist nicht optimiert — eine Vektordatenbank schon.

Klassische DB (SQL)	Vektordatenbank
Sucht nach exakten Werten	Sucht nach Ähnlichkeit
WHERE name = ‘Müller‘	“Welcher Text bedeutet ungefähr X?”
Index per B-Baum	Index per HNSW oder IVF
Mikrosekunden für Lookups	Millisekunden für Top-10 ähnlichste
Strukturierte Daten	Unstrukturierte Bedeutung

Definition

Eine Vektordatenbank speichert pro Eintrag (Dokument, Absatz, Bild) einen Vektor — eine Liste aus mehreren hundert Zahlen, die ein Embedding-Modell erzeugt hat. Beim Abfragen wird auch die Suchanfrage in einen Vektor umgewandelt. Die Datenbank vergleicht diesen Anfrage-Vektor mit allen gespeicherten und liefert die nächsten Nachbarn zurück.

Damit das bei Millionen Vektoren nicht Sekunden dauert, nutzen moderne Vektordatenbanken sogenannte Approximate-Nearest-Neighbor-Algorithmen (ANN). Bekannt sind HNSW (Hierarchical Navigable Small World), IVF (Inverted File Index) und PQ (Product Quantization). Sie tauschen minimale Genauigkeit gegen massive Geschwindigkeit.

Bekannte Vektordatenbanken 2026: Pinecone (Cloud), Weaviate (Open-Source und Cloud), Qdrant (Open-Source, EU-Hosting verfügbar), Milvus, Chroma, sowie die Vektor-Erweiterungen von PostgreSQL (pgvector) und Elasticsearch.

Beispiel aus der Praxis

Eine Anwaltskanzlei mit 12 Mitarbeitern hat 8.500 alte Mandantenakten, Verträge und Gerichtsentscheidungen als PDF im Archiv. Bisher sucht ein Anwalt im Schnitt 25 Minuten, bis er einen alten Vergleichsfall findet — oft erinnert er nur das ungefähre Thema.

Mit Vektordatenbank: Jede PDF wird in Absätze geschnitten, pro Absatz ein Embedding erzeugt und in Qdrant gespeichert (1,2 Millionen Vektoren). Der Anwalt tippt “Mietminderung wegen Schimmel im Gewerbeobjekt” — die Datenbank liefert in 80 Millisekunden die 10 inhaltlich ähnlichsten Absätze, inklusive Quell-PDF und Seite.

Suchzeit: 30 Sekunden statt 25 Minuten. Bei 4 Recherchen pro Anwalt und Tag spart das pro Anwalt rund 100 Minuten — multipliziert mit 12 Anwälten und einem Stundensatz von 180 Euro: rund 7.000 Euro pro Tag, die für andere Tätigkeiten frei werden. Die DSGVO-Konformität bleibt gewahrt, weil die Datenbank selbst gehostet wird.

Typische Anwendungsfälle

RAG-Backend: Quellen für KI-Chatbot mit Firmenwissen finden
Semantische Suche: Wiki, Handbuch, Ticket-Archiv durchsuchbar machen
Ähnlichkeits-Empfehlungen: “Ähnliche Produkte”, “Ähnliche Tickets”
Duplikat-Erkennung: Dubletten in CRM oder Mandantendaten finden
Bilder-Suche: Visuell ähnliche Produktfotos finden
Audio-Suche: Ähnliche Aufzeichnungen, Voiceprints
Klassifikation: Eingehende Anfragen automatisch zur richtigen Abteilung routen
Compliance-Vergleiche: Neue Verträge mit Archiv-Versionen abgleichen

Wann lohnt sich eine Vektordatenbank?

Lohnt sich, wenn: ✅ Mehr als 1.000 Dokumente semantisch durchsucht werden sollen ✅ Ein KI-Chatbot Antworten aus Firmenwissen geben soll ✅ Klassische Stichwort-Suche regelmäßig versagt ✅ Mehrsprachige Inhalte verglichen werden müssen

Lohnt sich nicht, wenn: ❌ Unter 200 Dokumenten — eine Excel-Tabelle reicht ❌ Es nur um exakte Treffer geht (Kundennummern, Rechnungsnummern) ❌ Keine technische Person im Haus oder beim Dienstleister ❌ Keine Bereitschaft für laufende Hosting-Kosten (50-500 Euro/Monat)

Faustregel: Erst klären, ob das Problem überhaupt semantisch ist. Wenn die Antwort “ja” lautet und mehr als 1.000 Dokumente betroffen sind, lohnt sich das Setup.

DSGVO-Relevanz

Vektordatenbanken sind aus DSGVO-Sicht der heikelste Teil eines KI-Stacks, weil sie Embeddings personenbezogener Daten dauerhaft speichern. Auch wenn die Vektoren wie harmlose Zahlen aussehen: Embeddings können personenbezogene Informationen enthalten oder Rückschlüsse auf den Ursprungstext ermöglichen. Aus Datenschutzsicht werden Embeddings häufig als personenbezogene Daten betrachtet, wenn sie aus personenbezogenen Informationen erzeugt wurden.

Konkret heißt das für KMU: Wer eine Cloud-Vektordatenbank wie Pinecone (USA) oder OpenAI Vector Store nutzt, transferiert personenbezogene Daten in ein Drittland. Das braucht einen AVV, und je nach Anbieter DPF oder SCCs. Bei sensiblen Daten (Mandantendaten, Patientendaten, HR-Daten) bevorzugen viele Organisationen Self-Hosting oder EU-Hosting-Anbieter, um Risiken zu reduzieren — z.B. Qdrant oder pgvector auf eigenem Server.

Weitere Pflichten: Löschkonzept (Recht auf Vergessen — Vektoren müssen löschbar bleiben), Verschlüsselung im Ruhezustand, Zugriffsprotokolle. Je nach Auslegung können auch aus personenbezogenen Daten abgeleitete Vektor-Repräsentationen datenschutzrechtlich relevant werden (z.B. bei Löschpflichten oder Portabilität).

EU-Hosting ist 2026 die sicherste Wahl: Qdrant Cloud bietet Frankfurt-Server, Weaviate hat EU-Zonen, pgvector läuft auf jedem EU-Postgres-Server.

Häufige Missverständnisse

“Eine SQL-Datenbank kann das auch.” Theoretisch ja, praktisch nein. Ohne ANN-Index dauern Suchen bei 100.000 Vektoren mehrere Sekunden statt Millisekunden.
“Cloud-Vektordatenbanken sind anonym.” Falsch. Embeddings personenbezogener Texte gelten als personenbezogen — AVV nötig.
“Mehr Dimensionen = besser.” Stimmt nur bedingt. 768-dim-Vektoren sind oft so gut wie 1536-dim, aber doppelt so schnell durchsuchbar und brauchen halb so viel Speicher.
“Einmal eingelesen, fertig.” Bei Modellwechsel müssen alle Vektoren neu erzeugt werden — alte und neue Embeddings sind nicht kompatibel.

Häufig gestellte Fragen

Was kostet eine Vektordatenbank? Pinecone Cloud: ab 70 US-Dollar/Monat. Qdrant Cloud (EU): ab 25 Euro/Monat. Self-Hosted Qdrant oder pgvector: nur die Server-Kosten (10-50 Euro/Monat für KMU-Größen).

Welche DSGVO-konforme Option ist die einfachste? pgvector als Erweiterung des hauseigenen PostgreSQL. Kein neuer Anbieter, kein neuer AVV, läuft auf bestehender Infrastruktur. Bei kleinen Datenmengen (< 100.000 Vektoren) völlig ausreichend.

Wie viele Vektoren passen rein? Hängt von Hardware und Algorithmus ab. Mit HNSW-Index und 4 GB RAM sind 5-10 Millionen 768-dim-Vektoren realistisch. Cloud-Anbieter skalieren bis Milliarden.

Brauche ich eine Vektordatenbank für RAG? Bei wenigen Dokumenten (< 500): Nein, das passt in den Modell-Kontext. Ab 1.000 Dokumenten: Ja, sonst werden die Antworten langsam und teuer.

Kann ich Vektordatenbank und KI-Modell trennen? Ja, das ist sogar der Normalfall. Embedding-Modell (z.B. von OpenAI) erzeugt Vektoren, Vektordatenbank speichert sie, LLM (z.B. Claude) nutzt sie als Kontext.

Wie viel Speicher braucht eine Vektordatenbank? Ein 768-dimensionaler Float-Vektor benötigt unkomprimiert etwa 3 KB. Für 100.000 Vektoren wären das rund 300 MB reiner Datenspeicher — zuzüglich Index-Overhead. Mit HNSW-Indexierung ist der tatsächliche Bedarf 2–4× höher. Für die meisten KMU-Szenarien (< 500.000 Dokumente) reichen wenige GB Arbeitsspeicher.

Fazit

Eine Vektordatenbank ist das Rückgrat moderner KI-Anwendungen mit Firmendaten. Für KMU lohnt sich der Einstieg, sobald mehrere tausend Dokumente regelmäßig durchsucht werden. Bei sensiblen Daten ist Self-Hosting mit Qdrant oder pgvector der DSGVO-sicherste Weg, Cloud-Anbieter mit EU-Hosting (Qdrant Cloud Frankfurt, Weaviate EU) sind eine pragmatische Mittellösung. Wer mit US-Cloud startet, sollte den AVV genau lesen und sensible Daten ausschließen.

Passende Tooltests

Weiterführende Begriffe

🔧 Tools auf ai-finden zum Thema „Vektordatenbank"

ChatGPT Plus

DSGVO 5/10

ChatGPT Plus: leistungsstärkster KI-Assistent von OpenAI – stark in der Qualität, sch…

Zum Test →

Claude (Anthropic)

DSGVO 6/10

Vielseitiger KI-Assistent von Anthropic - starker Sicherheitsfokus, US-Anbieter mit S…

Zum Test →

Notion KI

DSGVO 6/10

KI-Add-on für Notion-Workspaces mit Q&A über eigene Daten — ca. 9,20 EUR/Monat extra …

Zum Test →

Taskade

DSGVO 6/10

KI-natives Projektmanagement mit autonomen Agenten und Workspace-Generierung per Prom…

Zum Test →

Kurze Antwort

Definition

Beispiel aus der Praxis

Typische Anwendungsfälle

Wann lohnt sich eine Vektordatenbank?

DSGVO-Relevanz

Verwandte Begriffe

Häufige Missverständnisse

Häufig gestellte Fragen

Fazit

🔧 Tools auf ai-finden zum Thema „Vektordatenbank"

Welches Tool passt zu dir?