23. April 2026 · 9 Min. Lesezeit

Wenn Kunden nach RAG fragen in 2026: Unser Entscheidungsbaum (und warum wir selten dort beginnen)

Wir bauen RAG-Pipelines, wenn Kunden darauf bestehen, empfehlen sie aber in 2026 selten als ersten Schritt. Der größte Teil des LLM-Tooling-Stacks von 2024 wurde zwischen Januar und April obsolet. Hier ist der Entscheidungsbaum, den wir mit jedem Interessenten durchgehen, und was wir liefern, wenn der Baum von RAG wegzeigt.

Themen

AI AgentsAIAutomationBusiness Strategy

Wir bauen RAG-Pipelines für Kunden, die eine anfordern, empfehlen sie aber in 2026 selten als ersten Schritt. Der Agent-Tooling-Stack von 2024, der Retrieval-Augmented Generation zur Standardantwort auf jede Wissensfrage gemacht hat, wurde zwischen Januar und April dieses Jahres weitgehend obsolet. Dieser Beitrag zeigt den Entscheidungsbaum, den wir mit jedem Interessenten durchgehen, und den Stack, den wir liefern, wenn der Baum von RAG wegzeigt.

Die meisten Agenturen, die heute RAG verkaufen, verkaufen das Playbook von 2024. Wahrscheinlich wurde Ihnen bereits eines angeboten: eine Vektordatenbank als Posten, eine Chunking-Strategie, ein Re-Indexierungs-Cronjob, eine Sechs-Monats-Roadmap, bevor das System die erste Frage beantwortet. Wenn Sie bereits einen Vorschlag auf dem Tisch haben, schicken Sie ihn uns, bevor Sie unterschreiben, und wir führen den Baum gemeinsam mit Ihnen durch. Hier ist, warum sich die Art, wie man wissensbasierte Agenten baut, verändert hat, und was wir stattdessen liefern.

Die wichtigsten Erkenntnisse

Wir bauen RAG, wenn Kunden darauf bestehen. In 2026 empfehlen wir es selten als ersten Schritt. Der Tooling-Wandel ist real, und unsere Aufgabe ist es, Sie darauf hinzuweisen, bevor Sie unterschreiben.
Sam Hogan erklärte am 18. April 2026 den größten Teil des LLM-Tooling-Stacks von 2024 für obsolet. RAG, Multi-Agent-Orchestrierung, ReAct-Frameworks, Prompt-Management, LLMOps, Eval-Tools, Gateways, Finetuning-Bibliotheken. Die Konzepte sind weiterhin gültig. Die populären Implementierungen blieben hinter dem Modellsprung zurück.
Zep hat sich von Memory zu Context Engineering umbenannt. Wenn ein finanziertes Unternehmen seine eigene Kategorie umbenennt, ist das das stärkste Marktsignal dafür, wohin sich die Agent-Infrastruktur entwickelt.
Skill Graphs haben die Vektorsuche als unser Standard-Substrat abgelöst. Ein Ordner mit Markdown-Dateien und fünf Shell-Befehlen erledigt mehr Kundenaufgaben als jede RAG-Pipeline, die wir je geliefert haben.
RAG verdient seinen Platz bei vier spezifischen Aufgaben. Multimodale Korpora, Millionen von Dokumenten mit hoher Aktualisierungsfrequenz, strikte Metadatenfilter zur Abrufzeit und nicht vertrauenswürdige, feindliche Inhalte. Alles andere ist ein Skill Graph.

Der Entscheidungsbaum, den wir vor jedem Projekt durchführen

Jedes Kundengespräch beginnt mit denselben vier Fragen, und neun von zehn Mal zeigen die Antworten von RAG weg. Wir haben diesen Baum aus einer Analyse von 450 Repositories zu Agent-Memory- und Context-Management-Tools auf GitHub entwickelt, veröffentlicht am 15. April 2026. Fast niemand zieht die Linie zwischen beiden explizit. Wir tun es, weil die Linie die Rechnung bestimmt.

Frage	Wenn ja	Wenn nein
Umfasst das Korpus weniger als etwa 1.000 Dokumente?	Skill Graph. Punkt.	Weiter.
Besteht der Inhalt hauptsächlich aus Texten, die von einigen wenigen Personen verfasst wurden, denen die Korrektheit wichtig ist?	Skill Graph. Indexdatei plus Markdown.	RAG wird zum Kandidaten.
Erfordern Abfragen strikte Metadatenfilter zur Abrufzeit (Datumsbereiche, Dokumenttyp, Autor)?	Vektordatenbank mit Metadatenfilterung. RAG gewinnt hier.	Weiter.
Wird das Korpus auf Millionen von Dokumenten mit minütlichen Aktualisierungen anwachsen?	RAG mit einer echten Abrufschicht. Dafür wurde es gebaut.	Skill Graph gewinnt auf allen Ebenen.

Die meisten Kundenkorpora, die wir sehen, sind interne Wikis, Sales-Playbooks, Onboarding-Leitfäden, Produktdokumentation und SOPs. Klein, stabil, gepflegt von wenigen Personen. Jedes davon ist eine Skill-Graph-Aufgabe. Das Small-Corpus-Argument mit realen Zahlen und der vollständige Leitfaden zur Einrichtung der Wissensschicht decken die Praxisversion ab.

Was zwischen Januar und April 2026 tatsächlich obsolet wurde

Sam Hogan veröffentlichte am 18. April 2026 die präziseste Diagnose des Wandels. Seine These: Der größte Teil der LLM-Tooling-Kategorie wurde für eine Welt gebaut, die so weitgehend nicht mehr existiert, und vieles davon wurde in den vorangegangenen drei Monaten obsolet. Die von ihm genannte Liste:

RAG und GraphRAG. Der Retrieval-Ansatz, der für Kontextfenster unter 32K entwickelt wurde.
Multi-Agent-Orchestrierungs-Frameworks. Frühe handcodierte Koordinationsschichten, die durch Koordination auf Runtime-Ebene verdrängt wurden.
ReAct-Frameworks. Strukturierte Reasoning-Gerüste, die neuere Modelle ohne Gerüst produzieren.
Prompt-Management- und Versionierungstools. Für eine Welt gebaut, in der Prompts das Kapital waren. Jetzt sind Skills und Kontext-Substrate das Kapital.
LLMOps-Stacks. Heute geht es mehr um Agent-Tracing als um Single-Turn-Prompt-Management.
Eval-Tools, Gateways, Finetuning-Bibliotheken. Jedes für ein Modellverhalten gebaut, das sich verändert hat.

Wichtige Einschränkung von Hogan selbst: Die Konzepte sind weiterhin wertvoll. Was obsolet wurde, sind die aktuell populären Implementierungen. Einige Tools, er nannte CrewAI explizit, haben weiterhin Bestand. Seine tiefere These ist die, die für Kunden zählt: Aktuelle Frontier-Modelle mit sehr langen Kontextfenstern haben das Problem der Faktenabfrage, für dessen Umgehung RAG entwickelt wurde, weitgehend gelöst.

Das stärkste Marktsignal kam von Zep, einem finanzierten Unternehmen im Bereich Agent-Memory. Sie haben ihre gesamte Positionierung von Memory zu Context Engineering geändert. MemSearch, vom Vektordatenbank-Unternehmen Zilliz, hat ein System geliefert, bei dem die eigene Vektordatenbank nachgelagert zu einfachen Markdown-Dateien sitzt. Ein Vektordatenbank-Anbieter, der einräumt, dass Dateien das Wissen besitzen und der Index die Zugriffsschicht ist, ist ein Signal, das in einer Pressemitteilung Jahre braucht und in einem Produktupdate Wochen.

Was RAG für die meisten Agent-Aufgaben ersetzt hat

Die Analyse von 450 Repositories ordnete Agent-Memory in zwei Lager ein. Lager eins sind Memory-Backends: Fakten aus Gesprächen extrahieren, in Vektordatenbanken speichern, auf Anfrage abrufen. Mem0 (53.100 GitHub-Sterne), MemPalace (46.200), Honcho, Cognee. Optimiert für Recall.

Lager zwei sind Kontext-Substrate: strukturierter, menschenlesbarer Kontext, der sich sitzungsübergreifend aufbaut. Zep ist jetzt hier. OpenClaw (358.000 Sterne) ist die Referenzimplementierung. Das Vault, aus dem dieser Beitrag entsteht, ist ein Lager-zwei-System.

Der typische Ablauf in Lager zwei: Der Agent liest strukturierten Kontext, arbeitet darin, schreibt zurück, und in der nächsten Sitzung ist der Kontext reicher. Keine Chunking-Strategie, kein Embedding-Modell zum Pflegen, kein Re-Indexierungs-Batchjob, keine Retrieval-Evaluierungssuite. Ein Ordner mit Markdown-Dateien mit Wikilinks zwischen ihnen, eine Indexdatei im Stammverzeichnis und eine Handvoll Lese- und Schreibbefehle. Das ist das Substrat.

Shiv Sakhuja veröffentlichte am 23. April 2026 das Kompositionsmodell für dieses Substrat als Skill Graphs 2.0. Drei Ebenen: Atome (einzweckige Primitive, nahezu deterministisch), Moleküle (abgegrenzte Aufgaben, die 2 bis 10 Atome mit expliziter Verkettung kombinieren), Verbindungen (Multi-Molekül-Orchestratoren mit echter Agent-Autonomie, heute noch menschengesteuert). Das Framework begrenzt die Tiefe des Abhängigkeitsgraphen, was es dort zuverlässig macht, wo flache Skill Graphs nach drei oder vier Hops still abdriften. Für Kunden entspricht das der Kostenstruktur: Atome sind günstig und deterministisch, Moleküle sind der Ort, an dem die Entwicklungsarbeit liegt, Verbindungen sind der Bereich, für den Sie einen menschlichen Operator einplanen.

Die Ausnahmefälle, in denen RAG seinen Platz verdient

Wir sind eine Agentur. Wir liefern, was die Aufgabe erfordert. RAG schlägt einen Skill Graph bei vier spezifischen Aufgabenklassen, und wir empfehlen es, wenn der Entscheidungsbaum dort landet:

Multimodale Korpora. PDFs mit Tabellen, gescannte Dokumente, Audio-Transkripte, bildlastige Berichte. Ein Markdown-Graph setzt voraus, dass sich alles auf Text reduzieren lässt. Wenn das nicht der Fall ist, ist Retrieval plus multimodales Embedding die sauberere Lösung.
Hochfrequente Aktualisierungen in großem Maßstab. Millionen von Dokumenten, die sich minütlich ändern und innerhalb von Sekunden nach der Veröffentlichung abfragbar sein müssen. Die Re-Indexierungskosten einer Vektordatenbank sind geringer als die Personalkosten für die Pflege einer Indexdatei bei diesem Volumen.
Strikte Metadatenfilterung zur Abrufzeit. Wenn Abfragen nach Datumsbereichen, Dokumenttyp oder Autor filtern müssen, bevor die semantische Suche läuft, erledigen metadatenbewusste Vektordatenbanken wie Pinecone und Qdrant die Komposition sauber.
Nicht vertrauenswürdige oder feindliche Inhalte. Wenn das Korpus von vielen Autoren mit widersprüchlichen Absichten stammt und keine einzelne Person als vertrauenswürdiger Pfleger eines kuratierten Index gelten kann, möchten Sie Retrieval, das keine redaktionelle Aufsicht voraussetzt.

Wenn Ihr Projekt in einen dieser vier Fälle fällt, ist RAG das richtige Werkzeug und wir werden es bauen. Wenn nicht, ist der Skill Graph günstiger zu liefern, günstiger zu betreiben und einfacher zu warten. Sprechen Sie mit uns, bevor Sie eines von beidem beauftragen, und wir führen den Entscheidungsbaum mit Ihrem spezifischen Korpus durch.

Was wir intern nutzen und was wir für Kunden geliefert haben

Unser internes Wiki umfasst 22 Seiten strukturierten Wissens, gepflegt mit fünf Shell-Befehlen. Keine Vektordatenbank, keine Embeddings, kein Re-Indexierungs-Cronjob. Das vollständige Setup wird in unserem früheren Beitrag beschrieben.

Dasselbe Substrat produziert den webvise-Blog, den Sie gerade lesen: 76 Beiträge, übersetzt in 7 Sprachen über einen einzigen Content-Skill-Graph. Kein Content-Team. Keine Freelancer-Liste. Ein Skill, sieben Ausgaben pro Beitrag, geliefert aus demselben Ordner wie die technische Dokumentation.

Auf Kundenseite liegt unsere produktive Agent-Arbeit auf derselben Architektur. Hermes, die selbstverbessernde Agent-Plattform, die wir letzten Monat dokumentiert haben, läuft auf umfangreichen Skills und einem schlanken Runtime. Paperclip, unser unternehmensweites KI-Orchestrierungssystem, kombiniert Moleküle über eine Markdown-Wissensbasis. Keines von beiden hat eine Vektordatenbank im Produktions-Stack, und keines hat bisher eine benötigt.

Garry Tan erzählt dieselbe Geschichte von YC. Sein persönliches CLAUDE.md begann mit 20.000 Zeilen, mit jeder Eigenheit, jedem Muster, jeder Lektion, die er je gesammelt hatte. Die Aufmerksamkeit des Modells degradierte unter dem Gewicht, und Claude Code selbst wies ihn an, es zu kürzen.

Seine Lösung waren 200 Zeilen mit Verweisen auf Dokumente, die bei Bedarf geladen werden. Die vollständigen 20.000 Zeilen existieren weiterhin, aber das Modell liest sie nur, wenn sie relevant sind. Seine gstack-Bibliothek erreichte in der ersten Woche 23.000 GitHub-Sterne und lieferte 600.000 Zeilen Produktionscode in 60 Tagen. Das Substrat skaliert, weil das Substrat aus Dateien besteht, nicht aus Infrastruktur.

Was Sie einen Anbieter fragen sollten, bevor Sie 2026 einen RAG-Vertrag unterschreiben

Wenn Sie bereits einen RAG-Vorschlag auf dem Tisch haben, stellen Sie diese fünf Fragen, bevor Sie unterschreiben:

Wie groß ist das Korpus heute und in 24 Monaten? Unter 1.000 Dokumente in beiden Fällen bedeutet: Die Vektordatenbank ist ein Posten, den Sie nicht brauchen.
Wer schreibt den Inhalt? Wenn es wenige interne Personen sind, denen Genauigkeit wichtig ist, übertrifft eine gepflegte Indexdatei Embeddings bei der Abrufqualität. Wenn es Tausende feindlicher oder anonymer Autoren sind, gewinnt RAG.
Wie häufig werden Aktualisierungen vorgenommen? Einmal pro Woche bedeutet: Sie brauchen keine Re-Indexierungs-Pipeline. Jede Minute in großem Maßstab bedeutet: Sie schon.
Erfordert die Abfrage strikte Metadatenfilter zur Abrufzeit? Wenn ja, verdient eine metadatenbewusste Vektordatenbank ihren Platz. Wenn nein, ist die Filterlogik günstiger in der Skill-Schicht auszuführen.
Wie sieht das Angebot des Anbieters in 18 Monaten aus? Vektordatenbank-Kosten wachsen mit dem Dokumentenvolumen. Skill-Graph-Kosten nicht. Der Unterschied ist bei der Vertragsverlängerung relevant.

Wenn die Antworten auf RAG hinweisen, bauen Sie RAG. Wenn sie auf einen Skill Graph hinweisen, besteht die Herausforderung darin, das Playbook von 2024 zu verlernen. Bei webvise führen wir den Entscheidungsbaum mit Ihnen anhand Ihres tatsächlichen Korpus durch, liefern die Architektur, auf die der Baum zeigt, und setzen die Einsparungen für die Arbeit ein, die das Budget tatsächlich braucht. Nehmen Sie Kontakt auf, bevor der Anbieter, den Sie in einem Podcast gehört haben, die Rechnung schickt.

Die Praktiken von webvise sind an den ISO 27001- und ISO 42001-Standards ausgerichtet.

Vorheriger Artikel

Copilot vs. Autopilot: Warum die meisten KI-Agenturen kollabieren, bevor sie skalieren

Sequoia sagt, Services sind die neue Software. ColdIQ hat $7M ARR erreicht, indem das Unternehmen die Arbeit verkauft, nicht das Tool. Warum KI-Agenturen, die Tools verkaufen, unter Druck geraten, und was sie ersetzt.