Drei Terabyte und nichts gefunden: Eine Einführung in RAG

Eine Einführung in RAG (Retrieval-Augmented Generation): Warum unsere Daten ein Gedächtnis brauchen und wie KI lernt, darin zu blättern

Es ist 22:14 Uhr, und Felix kapituliert. Seit vier Stunden sucht er nach einer Präsentation, von der er ziemlich sicher ist, dass er sie vor drei Jahren gehalten hat. Morgen will ein Kunde wissen, was damals besprochen wurde. Natürlich morgen.

Felix erinnert sich an den Inhalt, ungefähr. An die Schlussfolie. An die zickige Pricing-Diskussion. An dieses Bild mit den drei verschachtelten Kreisen, das damals alle für erstaunlich tiefsinnig hielten. Was er nicht weiß: Wie hieß die Datei? In welchem Ordner liegt sie? Auf welcher Festplatte, von welchem alten Laptop, in welchem Backup?

Felix hat eine Synology-NAS im Wohnzimmerschrank stehen. Fast drei Terabyte, wenn man alte Backups und Dubletten mitzählt, gesammelt seit 2011. Irgendwo darin liegt die Präsentation. Aber Suchen bedeutet: sich durch hundertzwanzigtausend Ordner zu tasten, in denen „Kunde A“, „Projekt 2019“, „Final v2“, „Final final v3“ und das gefürchtete „Diverses“ wohnen. Eine Volltextsuche findet Wörter. Felix‘ Problem ist nur: Er weiß nicht mehr, welcheWörter er suchen soll. War es eine „Kommunikationsstrategie“? Ein „Markenarchitektur-Workshop“? Hieß der Kunde damals überhaupt schon so? Oder stand der entscheidende Gedanke in einer Folie, die jedes Schlüsselwort elegant umschiffte?

Um 22:14 Uhr schließt er den Finder. Er wird sich morgen entschuldigen. Schon wieder. Drei Terabyte Erinnerung im Schrank, und trotzdem ein Mensch, der mit leeren Händen vor dem Kunden steht.

Das Datengrab im Wohnzimmer

Felix ist nicht allein. Wer seit Jahren digital arbeitet, besitzt irgendwann ein Datengrab: ein Archiv, das technisch lebt und praktisch tot ist. Eine Festplatte voller Dokumente, die jemand irgendwann einmal sortiert hat und danach nie wieder. Vielleicht ist es eine externe USB-Disk. Vielleicht ein Synology-NAS, also ein kleines Netzwerk-Speichergerät im Heimnetz. Vielleicht ist es auch eine geologische Schichtung aus Dropbox, Google Drive, lokalen Laptop-Ordnern und jener mysteriösen Cloud, die damals kostenlos zum Office-Abo dazugelegt wurde wie ein Kugelschreiber auf einer Messe.

Was all diese Sammlungen verbindet: Sie wachsen. Niemand löscht. Niemand sortiert nach. Und irgendwann findet niemand mehr zurück.

Das Frustrierende ist nicht, dass die Daten weg wären. Sie sind ja da. Es ist, dass sie unauffindbar sind. Das alte Wissen liegt im selben Haus wie der heutige Arbeitstag, nur reden beide nicht mehr miteinander. Felix‘ Archiv hat nichts vergessen. Felix hat nur den Weg dorthin verloren.

Mark, die Hauptfigur des Schwester-Artikels auf foundic.org, hatte ein anderes Problem: Wie kommt eine neue Idee zuverlässig in den Vault? Er löste es mit einem Bot im Heizungskeller, der Sprachnachrichten einsortiert. Felix‘ Problem liegt davor und dahinter: Das Wissen ist längst gespeichert. Es antwortet nur nicht mehr.

Manche Leser werden hier einwenden, dass sie längst eine aktive Notizpraxis pflegen: Obsidian, Logseq, Tags, Backlinks, sonntägliche Gartenarbeit am eigenen Denken. Und ja: Wer dorthin sortiert, was er heute schreibt, hat einen Teil des Problems gelöst. Aber eben nur die eine Hälfte des digitalen Lebens.

Hier geht es um die andere Hälfte: das gewachsene Archiv neben dem Vault. Den Speicher, der ihn zahlenmäßig oft hundertfach übertrifft und bisher stumm blieb. Der Vault ist die Werkbank. Die NAS ist das Langzeitgedächtnis. Beide brauchen eigene Werkzeuge, weil sie verschiedene Aufgaben haben.

In diese zweite Lücke ist in den letzten Jahren ein Werkzeug gerutscht, dessen Name klingt, als sei er in einem Forschungsantrag auf Seite 37 geboren worden. Retrieval-Augmented Generation, kurz RAG (sprich: „Räg“). Frei übersetzt: Ein Sprachmodell formuliert eine Antwort, die vorher durch gezielt abgerufene Quellen gestützt wird. Akademischer Mantel, einfache Maschine. Und ziemlich genau das, was Felix fehlt.

Der Assistent in der Bibliothek

Stell dir vor, Felix hätte einen wissenschaftlichen Assistenten. Einen sehr fleißigen, leicht blassen Menschen mit Karteikarten-Fetisch, der das gesamte Archiv kennt. Wenn Felix abends um zehn fragt: „Was haben wir 2019 für Kunde A gemacht, das mit den drei Kreisen?“, dann passiert Folgendes:

Der Assistent geht in die Bibliothek. Er zieht Regale auf, prüft Register, findet drei oder vier passende Dokumente: einen Workshopplan, eine Präsentation, ein Protokoll. Er legt den Stapel auf den Tisch, blättert, vergleicht und schreibt Felix eine Zusammenfassung, mit konkreten Verweisen: „Die Präsentation liegt in Ordner X; Seite 12 enthält das Bild mit den Kreisen; es ging um ein Konzept für Markenarchitektur.“

Das ist RAG. Fast wortwörtlich. Schritt eins: Retrieval, der Abruf passender Quellen. Schritt zwei: Generation, die Formulierung einer Antwort auf Basis dieser Quellen.

Wenn ein Sprachmodell ohne RAG antwortet, schreibt es aus seinem gelernten Weltwissen. Über Felix‘ Präsentation von 2019 weiß es nichts. Im besten Fall sagt es das. Im schlechteren Fall erfindet es plausibel klingende Details, diese glänzenden kleinen Lügen, die im KI-Jargon Halluzination heißen. Mit RAG schreibt das Modell mit geöffneten Quellen auf dem Tisch. Die Antwort bekommt ein Rückgrat.

Das ist der Kern. Alles andere ist Mechanik. Wichtig, aber nicht mystisch.

Ein Mini-Beispiel, ohne Technik

Damit die Bibliothek nicht zur Tapete wird, ein kleines Beispiel. Felix tippt in einen Chat:

Frage: „Was haben wir 2019 zu adaptiven Kühlsystemen gemacht?“

Ohne RAG antwortet das Sprachmodell: „Ich habe keinen Zugriff auf Ihre persönlichen Dateien und kann daher keine spezifischen Informationen zu Ihren Projekten geben.“ Oder schlimmer: Es schreibt eine souverän klingende Mini-Abhandlung über adaptive Kühlsysteme im Allgemeinen. Fachlich hübsch, praktisch wertlos.

Mit RAG passiert Folgendes:

Das System durchsucht Felix‘ Archiv nach Inhalten, die mit der Frage zu tun haben.
Es findet einen Bericht von 2018, eine Präsentation von 2019, eine Excel-Tabelle mit Messwerten von 2017.
Es nimmt jeweils die relevantesten Ausschnitte aus diesen Dateien.
Es übergibt diese Ausschnitte zusammen mit Felix‘ Frage an das Sprachmodell.
Das Modell antwortet anhand der Ausschnitte, und nennt die Quellen.

Die Antwort könnte dann so aussehen: „Drei Vorarbeiten zum Thema: ein Bericht von 2018 mit Druckverlust-Messreihen, eine Präsentation von 2019 mit Strömungsmodell und eine Excel-Q3-Messreihe von 2017. Zur Pumpenregelung finde ich im Archiv keine belastbare Quelle, das wäre eine Lücke.“

Felix klickt auf die Quellenlinks. Die Dokumente öffnen sich. Er weiß wieder, was er weiß.

Was wird eigentlich gespeichert?

Hier kommt die wichtigste Klarstellung, weil an ihr Datenschutz, Vertrauen und viele Bauchschmerzen hängen: „Wenn ich der KI meine Dokumente gebe, kann sie sie dann auswendig?“

Nein. So funktioniert RAG nicht. In einem RAG-System werden mehrere Ebenen gespeichert, aber das Sprachmodell selbst sieht nur den kleinsten, jeweils ausgewählten Ausschnitt:

Was	Wo	Sieht das Sprachmodell?
Originaldateien	NAS / Festplatte	nein
Extrahierter Volltext	lokale Zwischenebene	nein
Chunks / Textbausteine	lokaler Index	nein, solange sie nicht ausgewählt werden
Embeddings (mathematische Repräsentationen)	Vektordatenbank	nein
Ausgewählte Treffer-Snippets	pro Anfrage im Prompt	ja, wenn ein Cloud-LLM genutzt wird

Pro Anfrage bekommt das Sprachmodell also nur jene wenigen Ausschnitte zu sehen, die das Suchsystem für relevant hält. Es lernt daraus nicht dauerhaft. Beim nächsten Aufruf ist der Tisch wieder leer. Das Modell ist wie ein externer Berater, der zu jedem Termin frische Akten bekommt und am Ende keine Notizen mitnehmen darf.

Das hat eine wichtige Konsequenz: Felix‘ Originaldateien müssen seinen Schrank nicht verlassen. Auch die mathematischen Repräsentationen seiner Texte (die Embeddings, dazu gleich mehr) können lokal bleiben. Nur die für eine konkrete Frage ausgewählten Textausschnitte gehen an das Sprachmodell. Und auch das nur, wenn Felix entschieden hat, dass diese Inhalte unkritisch genug sind. Bei einem lokalen LLM verlässt sogar dieser Schritt das Haus nicht.

RAG ist nicht „KI mit Gedächtnis“

Aus dem vorigen Punkt folgt das zweite große Missverständnis: RAG ist kein Training. Das Sprachmodell wird nicht angepasst, nicht erweitert, nicht heimlich mit Felix‘ Archiv gefüttert. Es behält davon nichts.

RAG baut ein Suchsystem neben dem Modell. Wenn eine Frage kommt, sucht dieses System und reicht die Treffer weiter. Das Modell behandelt sie wie jeden anderen Eingabetext: lesen, antworten, vergessen.

Wer wirklich ein Sprachmodell mit eigenem Wissen anreichern wollte, müsste es nachtrainieren. Das nennt man Fine-Tuning. Für bestimmte Spezialaufgaben kann das sinnvoll sein. Für ein privates oder mittelständisches Wissensarchiv ist es aber meist der falsche Weg: Neue Dokumente erfordern neue Trainingsläufe, Quellen bleiben schwer nachvollziehbar, vertrauliche Inhalte wandern tief in die Modellverarbeitung, und die Kosten stehen selten im Verhältnis zum Nutzen.

RAG löst das Problem eleganter. Es trainiert das Modell nicht neu, sondern koppelt es an ein Suchsystem. Die Daten bleiben getrennt. Die Antwort entsteht erst in dem Moment, in dem eine Frage gestellt wird, mit den Quellen, die dann tatsächlich relevant sind. Genau deshalb ist RAG zum Standardweg geworden, wenn eigenes Wissen mit generativer KI verbunden werden soll.

Daraus folgt das Prinzip, das diesem Artikel wie ein roter Faden anhängt: Eine RAG-Antwort ohne Quellen ist nur ein schönerer Chat. Erst die Quelle macht sie überprüfbar.

Es muss nicht immer ein Chatbot sein

Die meisten Einführungen zeigen RAG als Chatfenster, in dem jemand mit seinen PDFs plaudert. Das funktioniert. Es ist aber nur die Postkartenansicht einer größeren Landschaft.

Mindestens drei Spielarten lassen sich unterscheiden:

Erstens: die reaktive Suche. Felix tippt eine Frage, das System antwortet. Das ist die klassische „Chat mit meinen Dokumenten“-Form. Sie funktioniert gut, wenn er weiß, was er sucht. Und weniger gut, wenn ihm nicht einmal mehr einfällt, dass er je etwas dazu gemacht hat.

Zweitens: die proaktive Verknüpfung. Während Felix an einer neuen Projektnotiz schreibt, läuft im Hintergrund eine kontextbezogene Suche mit. Sobald Begriffe auftauchen, die im Archiv schon einmal wichtig waren, meldet sich eine Seitenleiste: „Du hattest 2019 ein ähnliches Thema, siehe diese drei Dokumente.“ Felix muss nichts fragen. Das alte Wissen klopft selbst an.

Drittens: die explorative Erschließung. Felix weiß nicht einmal, was alles in seinem Archiv liegt. Eine dritte Form von RAG erstellt eine Landkarte: thematische Cluster, automatisch generierte Übersichten, „hier liegen 47 Dokumente zur Materialforschung, dort Pricing-Modelle, dort Workshopformate.“ Auf einmal sieht Felix nicht nur, dass er Daten hat. Er erkennt Themen, Zeiten, Ballungen und Lücken.

Diese drei Formen unterscheiden sich darin, wer den Abruf auslöst und was danach mit den Treffern passiert. Die Bausteine sind ähnlich. Die Wirkung ist verschieden: Die erste hilft beim Antworten, die zweite beim Schreiben, die dritte beim Wiederentdecken.

Ein bisschen Mechanik, ohne dass es weh tut

Wer wissen will, wie das Suchsystem entscheidet, was zur Frage passt, braucht ein einziges Wort: Embedding. Das klingt nach Mathematik, weil es Mathematik ist. Das Prinzip aber lässt sich ohne weißen Kittel erklären.

Ein Embedding übersetzt Text in eine Liste von Zahlen. Genauer: in einen Vektor, also eine Zahlenreihe, die die Bedeutung des Textes annähernd beschreibt. Der Trick: Texte mit ähnlicher Bedeutung bekommen ähnliche Zahlenreihen, selbst dann, wenn sie kein einziges Wort teilen.

Drei Beispielsätze, wie sie in Felix‘ Archiv stehen könnten:

A: „Druckverlust im Kühlkreislauf bei hoher Pumpendrehzahl“
B: „Strömungswiderstand des Wassersystems unter Last“
C: „Rechnungsstellung Q3 2019“

Misst man den Abstand zwischen diesen Zahlenreihen, liegen A und B eng beieinander. C ist weit weg, obwohl A und B kein einziges Wort gemeinsam haben. Klassische Stichwortsuche hätte hier nur Achselzucken im Angebot. Embeddings erkennen die Nachbarschaft der Bedeutung.

Wenn Felix nun fragt: „Was haben wir zum Strömungsverhalten gemacht?“, wird seine Frage ebenfalls in eine Zahlenreihe übersetzt. Das System sucht die Textstücke, deren Zahlenreihen seinem Frage-Vektor am nächsten sind. A und B liegen nahe dran. C liegt weit weg. Das System bringt also A und B mit (nicht aber C) und übergibt sie dem Sprachmodell.

Was nach Voodoo klingt, ist angewandte Mathematik. Man muss sie nicht im Detail verstehen, um sie zu nutzen. Aus jedem Text wird ein Punkt in einem hochdimensionalen Raum, und ähnliche Texte landen in derselben Nachbarschaft. Felix muss nicht wissen, wie viele Dimensionen dieser Raum hat. Er muss nur wissen: Dort stehen seine alten Gedanken plötzlich wieder nebeneinander.

Wenn die Bedeutung allein nicht reicht

Ganz ohne klassische Suche geht es trotzdem nicht. Embeddings sind stark bei Bedeutung, aber schwach bei exakten Zeichenfolgen. Eine Projektnummer wie „FB-2019-047“, ein Kundencode oder ein alter Produktname trägt für ein Embedding-Modell oft keine stabile Bedeutung. So etwas muss exakt gefunden werden.

Gute RAG-Systeme kombinieren deshalb zwei Sucharten: semantische Suche über Embeddings und klassische Volltextsuche über Wörter, Namen und Codes. Diese Kombination nennt man Hybrid Search. Sie ist für gewachsene Archive entscheidend, weil Menschen sich manchmal an eine Bedeutung erinnern, und manchmal nur noch an ein Kürzel. „Hatten wir damals nicht ein Projekt mit der Nummer 047?“ findet ein reines Embedding-System nicht zuverlässig. Eine Volltextsuche schon. Beides parallel laufen zu lassen und die Treffer klug zu mischen, ist meist die robusteste Lösung.

Wo RAG nicht hilft, sollte es ehrlich bleiben

So überzeugend RAG ist: Es ist nicht für jede Aufgabe das richtige Werkzeug. Wer das vergisst, baut sich eine sehr teure Taschenlampe und wundert sich, dass sie keinen Kaffee kocht.

Bei sehr kleinen Datenmengen (sagen wir, zehn PDFs zum aktuellen Quartalsbericht) ist RAG mit Kanonen auf Spatzen. Wenn der Bestand klein genug ist, kann man ihn oft direkt in das Kontextfenster des Sprachmodells geben. Eine Pipeline lohnt sich erst, wenn Suchen, Aktualisieren und Quellenverwaltung selbst zum Problem werden.

Bei stark strukturierten Daten (etwa Bestellungen, Beträgen und Kunden in einer Datenbank) ist eine klassische Abfrage in SQL meistens besser. Wer wissen will, welche Bestellungen im Mai 2024 über 1.000 Euro lagen, will keine Ähnlichkeitssuche. Er will eine präzise Antwort, sortiert nach Datum, mit Summen.

Bei Echtzeit-Daten (Logfiles, Sensorwerten, Börsenkursen) sind RAG-Indizes schnell einen Schritt hintendran. Hier braucht es Werkzeuge, die auf Datenströme reagieren, nicht nur einen einmal aufgebauten Index.

Und bei komplexem mehrstufigem Schlussfolgern über viele Dokumente hinweg stößt einfaches RAG an Grenzen. Wenn die Antwort aus zwölf verstreuten Hinweisen entsteht, die einzeln unscheinbar wirken, kann die Retrieval-Stufe sie übersehen. Hier helfen mehrstufige Verfahren, Re-Ranking, Wissensgraphen oder Agenten-Architekturen. Aber das ist eine andere Geschichte. Und vermutlich ein weiterer Kaffee.

Auch im idealen Fall: keine Magie

Selbst dort, wo RAG gut passt, bleibt es ein Werkzeug mit Kanten. Die ehrliche Version gehört dazu.

Es versteht nicht wie ein Mensch. Die Retrieval-Stufe sortiert Textstücke nach Nähe zur Frage. Sie bewertet weder Wahrheitsgehalt noch Absicht. Wenn relevante Dokumente ein Thema nur umkreisen, statt es zu benennen, kann RAG sie übersehen. Es erkennt Bedeutungsnähe; es liest nicht zwischen den Zeilen wie ein Kollege, der die Bürogeschichte kennt.

Es hat Chunking-Grenzen. Jedes Dokument wird vorab in Stücke zerlegt (sogenannte Chunks, also Textbausteine von ein paar hundert Wörtern), die je einen eigenen Vektor bekommen. Wenn ein wichtiger Zusammenhang über die Grenze eines Chunks läuft (eine Definition auf Seite fünf, die auf Seite siebenundvierzig wieder relevant wird), kann der zweite Treffer ohne den ersten unverständlich werden.

Es ist nur so frisch wie der letzte Index-Lauf. Wer heute ein neues Dokument ablegt, findet es erst, wenn die Pipeline vorbeigelaufen ist. Bei stabilen Archiven wie Felix‘ meist egal. Bei schnell wachsenden Datenbeständen ein echtes Betriebsproblem.

Es eliminiert Halluzinationen nicht. Es reduziert sie, weil das Sprachmodell konkrete Quellen vor sich hat. Aber es kann weiterhin über Quellen hinausschießen, Dinge verbinden, die nicht verbunden gehören, oder eine Nuance falsch drehen. Der Schutz heißt Quellenpflicht: wichtige Behauptungen mit Verweis, und gelegentlich liest ein Mensch nach. Ja, altmodisch. Leider wirksam.

Und schließlich: Es kostet etwas. Aufbau, Geräte, Softwarepflege, Strom. Und bei kommerziellen Sprachmodellen laufende Kosten pro Anfrage. Im Vergleich zu vier Stunden Suchen pro Woche ist das ein guter Deal. Ein Nullzustand ist es nicht.

Was Felix gewinnt

Stell dir vor, Felix hat ein RAG-System auf seiner NAS aufgesetzt. Wie das geht, ist die Geschichte des nächsten Artikels. Drei Wochen später, wieder ein Sonntagabend, wieder ein Kunde, wieder eine alte Sache.

Felix öffnet seinen Notiz-Editor, nicht den Dateibrowser. Er schreibt: „Brauche Vorwissen zum Kunden, speziell zu adaptiven Kühlsystemen, Zeitraum 2017-2022.“ Sekunden später erscheint eine Liste mit fünf Treffern: Snippets, Daten, Begründungen, Quellen. Felix klickt auf den ersten Treffer. Das Originaldokument öffnet sich. Es ist die Präsentation. Mit dem Bild mit den drei Kreisen.

Geändert hat sich nicht die NAS. Auf ihr liegen dieselben Dateien wie vorher. Geändert hat sich die Verbindung zwischen seinem heutigen Denken und seinem vergangenen Wissen. Das Archiv hört auf, ein Datengrab zu sein. Es wird zu einem Langzeitgedächtnis, das auf Zuruf reagiert.

Eine Frage zum Schluss

Was sich an Felix‘ Setup vollzieht, ist die leise Demokratisierung einer Technologie, die lange nach Konzernflur roch: Enterprise-Suche, semantische Indizes, eigene KI-Pipelines. Früher brauchte man dafür Datenstrategie, Architekturteam und ein Budget, das in Vorstandspräsentationen passte. Heute lässt sich Vergleichbares auf einem Gerät bauen, das im Wohnzimmerschrank steht, mit Open-Source-Werkzeugen, die jeder herunterladen kann. Die Bauteile sind erwachsen geworden. Was fehlt, ist meist nur das Wissen, wie man sie zusammensetzt.

Genau hier wird es interessant. Wenn jeder Mensch theoretisch sein eigenes Langzeitgedächtnis bauen könnte: warum tun es die wenigsten? Vielleicht weil wir uns daran gewöhnt haben, dass das Vergangene vergangen bleibt. Dass alte Projekte verstauben, alte Notizen verschwinden, alte Ideen unter Versionsnummern begraben werden.

Was passiert mit unserer Beziehung zur Vergangenheit, wenn Vergessen nicht mehr der Normalfall ist? Wenn Felix fünfzehn Jahre eigene Arbeit befragen kann? Wenn alles, was wir je schrieben, nicht nur gespeichert ist, sondern antwortet?

Vielleicht entdecken wir Dinge wieder, die uns selbst überraschen. Vielleicht schärft es auch den Blick dafür, was eine gute Notiz überhaupt ist, wenn wir wissen, dass sie morgen zurückkehren kann.

Felix wird es im nächsten Quartal merken. Wenn der nächste Kunde fragt, ob sie damals schon einmal über etwas Ähnliches gesprochen haben, wird er nicht mehr den Finder öffnen wie eine Schublade voller Staub. Er wird sein zweites Gedächtnis fragen. Und es wird antworten.