Skip to content
webvise
· 9 min czytania

Kiedy klienci pytają o RAG w 2026: nasze drzewo decyzyjne (i dlaczego rzadko od tego zaczynamy)

Nadal budujemy pipeline'y RAG, gdy klienci tego oczekują, ale rzadko rekomendujemy je jako pierwsze rozwiązanie w 2026 roku. Większość stosu narzędzi LLM z 2024 roku została zastąpiona między styczniem a kwietniem. Oto drzewo decyzyjne, przez które prowadzimy każdego potencjalnego klienta, oraz to, co wdrażamy, gdy drzewo wskazuje poza RAG.

Tematy
AI AgentsAIAutomationBusiness Strategy
Udostepnij

Nadal budujemy pipeline'y RAG dla klientów, którzy o nie proszą, ale w 2026 roku rzadko rekomendujemy je jako pierwsze rozwiązanie. Stos narzędzi agentowych z 2024 roku, który sprawił, że retrieval-augmented generation stało się domyślną odpowiedzią na każde pytanie o wiedzę, został w dużej mierze zastąpiony między styczniem a kwietniem tego roku. Ten artykuł opisuje drzewo decyzyjne, przez które prowadzimy każdego potencjalnego klienta, oraz stos, który wdrażamy, gdy drzewo wskazuje poza RAG.

Większość agencji sprzedających dziś RAG proponuje podręcznik z 2024 roku. Prawdopodobnie ktoś już przedstawił podobną ofertę: pozycja budżetowa na bazę wektorową, strategia podziału na fragmenty, cron do reindeksowania, sześciomiesięczny plan działania przed pierwszą odpowiedzią systemu. Jeśli propozycja leży już na biurku, prosimy o kontakt przed podpisaniem, a wspólnie przeprowadzimy analizę. Oto dlaczego zmienił się sposób budowania agentów opartych na wiedzy i co wdrażamy w zamian.

Najważniejsze wnioski

  • Budujemy RAG, gdy klienci tego wymagają. W 2026 roku rzadko rekomendujemy go jako pierwsze rozwiązanie. Zmiana w narzędziach jest realna i naszym zadaniem jest zasygnalizować ją przed podpisaniem umowy.

  • Sam Hogan ogłosił 18 kwietnia 2026 roku, że większość stosu narzędzi LLM z 2024 roku jest przestarzała. RAG, wieloagentowe frameworki orkiestracji, frameworki ReAct, zarządzanie promptami, LLMOps, narzędzia ewaluacyjne, bramki, biblioteki do fine-tuningu. Koncepcje pozostają aktualne. Popularne implementacje nie nadążyły za przełomem modeli.

  • Zep zmieniło pozycjonowanie z pamięci na context engineering. Finansowana firma zmieniająca nazwę własnej kategorii to najsilniejszy sygnał rynkowy dotyczący kierunku rozwoju infrastruktury agentowej.

  • Grafy umiejętności zastąpiły wyszukiwanie wektorowe jako domyślny substrat. Folder plików markdown i pięć poleceń powłoki obsługuje więcej zadań klientów niż jakikolwiek pipeline RAG, który wdrożyliśmy.

  • RAG nadal uzasadnia swoje miejsce w czterech konkretnych przypadkach. Korpusy multimodalne, miliony dokumentów z wysoką częstotliwością aktualizacji, ścisłe filtry metadanych w czasie pobierania oraz niezaufane treści od anonimowych autorów. Wszystko inne to graf umiejętności.

Drzewo decyzyjne stosowane przed przystąpieniem do budowy

Każde zaangażowanie z klientem zaczyna się od tych samych czterech pytań, a dziewięć razy na dziesięć odpowiedzi wskazują poza RAG. Drzewo zbudowaliśmy na podstawie ankiety obejmującej 450 repozytoriów narzędzi do pamięci agentów i zarządzania kontekstem na GitHub, opublikowanej 15 kwietnia 2026 roku. Prawie nikt nie wyznacza wyraźnej granicy między nimi. My ją wyznaczamy, bo to ta granica określa koszt.

PytanieJeśli takJeśli nie
Czy korpus liczy mniej niż około 1 000 dokumentów?Graf umiejętności. Bez wyjątków.Kontynuujemy analizę.
Czy treść to głównie tekst tworzony przez kilka osób dbających o jego poprawność?Graf umiejętności. Plik indeksu i markdown.RAG staje się kandydatem.
Czy zapytania wymagają ścisłych filtrów metadanych w czasie pobierania (zakresy dat, typ dokumentu, autor)?Baza wektorowa z filtrowaniem metadanych. Tu RAG wygrywa.Kontynuujemy analizę.
Czy korpus urośnie do milionów dokumentów z aktualizacjami co minutę?RAG z prawdziwą warstwą pobierania. Do tego został stworzony.Graf umiejętności wygrywa pod każdym względem.

Większość korpusów klientów, z jakimi mamy do czynienia, to wewnętrzne wiki, podręczniki sprzedażowe, przewodniki wdrożeniowe, dokumentacja produktowa i procedury SOP. Małe, stabilne, utrzymywane przez kilka osób. Każdy z tych przypadków to zadanie dla grafu umiejętności. Argument dotyczący małego korpusu z konkretnymi liczbami oraz pełny przewodnik po konfiguracji warstwy wiedzy omawiają szczegóły praktyczne.

Co faktycznie stało się przestarzałe między styczniem a kwietniem 2026

Sam Hogan opublikował 18 kwietnia 2026 roku najostrzejszą diagnozę tej zmiany. Jego teza: większość kategorii narzędzi LLM została zbudowana dla świata, który w dużej mierze już nie istnieje, a znaczna część stała się przestarzała w ciągu poprzednich trzech miesięcy. Lista, którą wymienił:

  • RAG i GraphRAG. Podejście do pobierania zbudowane dla okien kontekstowych poniżej 32K tokenów.

  • Wieloagentowe frameworki orkiestracji. Wczesne ręcznie kodowane warstwy koordynacji zastąpione przez koordynację na poziomie środowiska uruchomieniowego.

  • Frameworki ReAct. Rusztowania rozumowania strukturalnego, które nowsze modele produkują bez rusztowania.

  • Narzędzia do zarządzania promptami i wersjonowania. Zbudowane dla świata, gdzie prompty były aktywem. Teraz aktywem są umiejętności i substraty kontekstu.

  • Stosy LLMOps. Teraz bardziej związane ze śledzeniem agentów niż z zarządzaniem promptami w trybie jednorazowej interakcji.

  • Narzędzia ewaluacyjne, bramki, biblioteki do fine-tuningu. Każde zbudowane pod zachowanie modelu, które się zmieniło.

Ważne zastrzeżenie od samego Hogana: koncepcje nadal mają wartość. To, co stało się przestarzałe, to obecne popularne implementacje. Niektóre narzędzia, wymienił explicite CrewAI, nadal mają trwałą pozycję. Jego głębsza teza jest istotna dla klientów: najnowsze modele frontierowe z bardzo długimi oknami kontekstowymi w zasadzie rozwiązały problem przywoływania faktów, wokół którego RAG zostało zaprojektowane.

Najsilniejszy sygnał rynkowy nadszedł od Zep, finansowanej firmy w segmencie pamięci agentowej. Zmieniła całe swoje pozycjonowanie z pamięci na context engineering. MemSearch, od firmy bazodanowej Zilliz, wdrożyło system, w którym ich własna baza wektorowa znajduje się za zwykłymi plikami markdown. Dostawca bazy wektorowej przyznający, że pliki są właścicielem wiedzy, a indeks to tylko warstwa dostępu, to sygnał, który w komunikacie prasowym czyta się latami, a w aktualizacji produktu tygodniami.

Co zastąpiło RAG w większości prac agentowych

Ankieta 450 repozytoriów podzieliła pamięć agentową na dwa obozy. Pierwszy to backendowe systemy pamięci: wyodrębnianie faktów z rozmów, przechowywanie w bazach wektorowych, pobieranie na żądanie. Mem0 (53 100 gwiazdek na GitHub), MemPalace (46 200), Honcho, Cognee. Optymalizacja pod kątem przywoływania.

Drugi obóz to substraty kontekstu: ustrukturyzowany, czytelny dla człowieka kontekst, który gromadzi się przez sesje. Zep jest teraz tutaj. OpenClaw (358 000 gwiazdek) to implementacja referencyjna. Repozytorium, z którego pochodzi ten artykuł, jest systemem drugiego obozu.

Typowa pętla dla drugiego obozu: agent czyta ustrukturyzowany kontekst, pracuje w nim, zapisuje wyniki, następna sesja ma bogatszy kontekst. Żadnej strategii podziału na fragmenty, żadnego modelu osadzania do utrzymywania, żadnego wsadowego reindeksowania, żadnego zestawu ewaluacji pobierania. Folder plików markdown z wikilinkami między nimi, plik indeksu w katalogu głównym i kilka poleceń do odczytu i zapisu. To jest substrat.

Shiv Sakhuja opublikował 23 kwietnia 2026 roku model kompozycji dla tego substratu jako Skill Graphs 2.0. Trzy poziomy: atomy (prymitywy jednocelowe, niemal deterministyczne), cząsteczki (zadania o określonym zakresie, komponujące od 2 do 10 atomów z jawnym łańcuchowaniem), złożone (wielocząsteczkowe orkiestratory z prawdziwą autonomią agentową, dziś nadzorowane przez człowieka). Framework ogranicza głębokość grafu zależności, co zapewnia niezawodność tam, gdzie płaskie grafy umiejętności po cichu dryfują poza 3 lub 4 skoki. Dla klientów mapuje się to na strukturę kosztów: atomy są tanie i deterministyczne, cząsteczki to miejsce, gdzie odbywa się praca inżynierska, a złożone to miejsce, gdzie budżetuje się operatora ludzkiego.

Przypadki brzegowe, w których RAG nadal uzasadnia swoje miejsce

Jesteśmy agencją. Wdrażamy to, czego wymaga zadanie. RAG nadal przewyższa graf umiejętności w czterech konkretnych klasach prac i zaproponujemy go, gdy drzewo decyzyjne tam wskaże:

  • Korpusy multimodalne. Pliki PDF z tabelami, zeskanowane dokumenty, transkrypcje audio, raporty z dużą ilością obrazów. Graf markdown zakłada, że wszystko sprowadza się do tekstu. Gdy tak nie jest, pobieranie z multimodalnym osadzaniem jest czystszym rozwiązaniem.

  • Aktualizacje o wysokiej częstotliwości w skali. Miliony dokumentów zmieniające się co minutę, które muszą być dostępne do zapytań w ciągu sekund od publikacji. Koszt reindeksowania bazy wektorowej jest niższy niż ludzki koszt utrzymywania pliku indeksu przy takiej objętości.

  • Ścisłe filtrowanie metadanych w czasie pobierania. Gdy zapytania muszą filtrować według zakresów dat, typów dokumentów lub autorów przed uruchomieniem wyszukiwania semantycznego, bazy wektorowe obsługujące metadane, jak Pinecone i Qdrant, realizują tę kompozycję w sposób przejrzysty.

  • Niezaufane lub wrogie treści. Gdy korpus pochodzi od wielu autorów o sprzecznych intencjach i żaden człowiek nie może być odpowiedzialny za utrzymanie wyselekcjonowanego indeksu, potrzebne jest pobieranie, które nie zakłada redakcyjnego nadzoru.

Jeśli projekt należy do jednego z tych czterech przypadków, RAG jest właściwym narzędziem i je zbudujemy. Jeśli nie, graf umiejętności jest tańszy we wdrożeniu, tańszy w utrzymaniu i prostszy w obsłudze. Prosimy o kontakt przed zleceniem któregokolwiek rozwiązania, a przeprowadzimy analizę drzewa decyzyjnego na konkretnym korpusie.

Co stosujemy wewnętrznie i co wdrożyliśmy dla klientów

Nasze wewnętrzne wiki to 22 strony ustrukturyzowanej wiedzy, utrzymywane za pomocą pięciu poleceń powłoki. Żadnej bazy wektorowej, żadnych osadzeń, żadnego crona do reindeksowania. Pełna konfiguracja opisana jest w poprzednim artykule.

Ten sam substrat tworzy blog webvise, który Państwo czytają: 76 artykułów przetłumaczonych na 7 języków za pośrednictwem jednego grafu umiejętności treści. Żadnego zespołu redakcyjnego. Żadnej listy freelancerów. Jedna umiejętność, siedem wersji na artykuł, wdrażana z tego samego folderu co dokumentacja inżynierska.

Po stronie klientów nasza produkcyjna praca agentowa opiera się na tej samej architekturze. Hermes, platforma samoulepszającego się agenta opisana w zeszłym miesiącu, działa na rozbudowanych umiejętnościach i lekkim środowisku uruchomieniowym. Paperclip, nasz system orkiestracji AI dla całej firmy, komponuje cząsteczki nad bazą wiedzy w markdown. Żaden z tych systemów nie ma bazy wektorowej w stosie produkcyjnym i żaden jej nie potrzebował.

Garry Tan opowiada tę samą historię ze strony YC. Jego osobisty CLAUDE.md zaczął od 20 000 linii, z każdą osobliwością, każdym wzorcem, każdą lekcją, jaką kiedykolwiek napotkał. Uwaga modelu degradowała pod tym ciężarem, a sam Claude Code powiedział mu, żeby to skrócił.

Jego rozwiązaniem było 200 linii wskaźników do dokumentów ładowanych na żądanie. Pełne 20 000 linii nadal istnieje, ale model czyta je tylko wtedy, gdy są istotne. Biblioteka gstack osiągnęła 23 000 gwiazdek na GitHub w pierwszym tygodniu i wygenerowała 600 000 linii kodu produkcyjnego w ciągu 60 dni. Substrat skaluje się, bo substratem są pliki, nie infrastruktura.

O co pytać dostawcę przed podpisaniem umowy RAG w 2026 roku

Jeśli propozycja RAG leży już na biurku, przed złożeniem podpisu warto zadać pięć pytań:

  • Jak duży jest korpus dziś i za 24 miesiące? Poniżej 1 000 dokumentów w obu przypadkach oznacza, że baza wektorowa to pozycja budżetowa, która nie jest potrzebna.

  • Kto tworzy treść? Jeśli to kilka wewnętrznych osób dbających o dokładność, utrzymywany plik indeksu przewyższa osadzenia pod względem jakości pobierania. Jeśli to tysiące anonimowych lub nieprzyjaznych autorów, RAG wygrywa.

  • Jaka jest częstotliwość aktualizacji? Zmiany raz w tygodniu oznaczają, że pipeline reindeksowania nie jest potrzebny. Zmiany co minutę w skali oznaczają, że jest.

  • Czy zapytanie wymaga ścisłych filtrów metadanych w czasie pobierania? Jeśli tak, baza wektorowa obsługująca metadane uzasadnia swoje miejsce. Jeśli nie, logika filtrowania jest tańsza do uruchomienia na poziomie warstwy umiejętności.

  • Jak wygląda wycena dostawcy za 18 miesięcy? Koszty bazy wektorowej rosną wraz ze wzrostem liczby dokumentów. Koszty grafu umiejętności nie. Różnica ma znaczenie przy odnowieniu.

Jeśli odpowiedzi wskazują na RAG, należy budować RAG. Jeśli wskazują na graf umiejętności, najtrudniejsze jest oduczenie się podręcznika z 2024 roku. W webvise przeprowadzamy analizę drzewa decyzyjnego na rzeczywistym korpusie, wdrażamy architekturę, na którą wskazuje drzewo, i kierujemy oszczędności na prace wymagające faktycznie budżetu. Prosimy o kontakt przed wysłaniem faktury przez dostawcę poznanego na podcaście.

Praktyki webvise są zgodne z normami ISO 27001 i ISO 42001.