Skip to content
webvise
· 9 min di lettura

Quando i Clienti Chiedono RAG nel 2026: Il Nostro Albero Decisionale (e Perché Raramente Partiamo da Lì)

Costruiamo ancora pipeline RAG quando i clienti insistono, ma nel 2026 raramente le raccomandiamo per prime. La maggior parte dello stack di strumenti LLM del 2024 è diventata obsoleta tra gennaio e aprile. Ecco l'albero decisionale che percorriamo con ogni potenziale cliente, e cosa realizziamo quando l'albero si allontana da RAG.

Argomenti
AI AgentsAIAutomationBusiness Strategy
Condividi

Costruiamo ancora pipeline RAG per i clienti che le richiedono, ma nel 2026 raramente le raccomandiamo per prime. Lo stack di strumenti per agenti del 2024, quello che aveva reso la retrieval-augmented generation la risposta predefinita a ogni domanda sulla conoscenza, è diventato largamente obsoleto tra gennaio e aprile di quest'anno. Questo articolo presenta l'albero decisionale che percorriamo con ogni potenziale cliente e lo stack che realizziamo quando l'albero si allontana da RAG.

La maggior parte delle agenzie che propongono RAG oggi sta vendendo un approccio del 2024. È probabile che Le abbiano già proposto qualcosa del genere: una voce di costo per un database vettoriale, una strategia di chunking, un cron di re-indicizzazione, una roadmap di sei mesi prima che il sistema risponda alla prima domanda. Se ha già una proposta sulla scrivania, ce la invii prima di firmare e percorreremo l'albero insieme. Ecco perché il modo in cui Le è stato detto di costruire agenti consapevoli della conoscenza è cambiato, e cosa realizziamo al suo posto.

Punti Chiave

  • Costruiamo RAG quando i clienti insistono. Nel 2026 raramente lo raccomandiamo per primo. Il cambiamento negli strumenti è reale, ed è nostro compito segnalarlo prima che Lei firmi.

  • Sam Hogan ha dichiarato obsoleta la maggior parte dello stack di strumenti LLM del 2024 il 18 aprile 2026. RAG, orchestrazione multi-agente, framework ReAct, gestione dei prompt, LLMOps, strumenti di valutazione, gateway, librerie di fine-tuning. I concetti restano validi. Le implementazioni popolari non hanno tenuto il passo con il salto dei modelli.

  • Zep ha riposizionato il proprio brand dalla memoria alla context engineering. Una società finanziata che rinomina la propria categoria è il segnale di mercato più forte su dove sta andando l'infrastruttura per agenti.

  • I skill graph hanno sostituito la ricerca vettoriale come substrato predefinito. Una cartella di file markdown con cinque comandi shell gestisce più lavori per i clienti di qualsiasi pipeline RAG che abbiamo mai realizzato.

  • RAG guadagna ancora il suo posto in quattro lavori specifici. Corpus multimodali, milioni di documenti con alta frequenza di aggiornamento, filtri di metadati rigidi al momento del recupero, e contenuti avversariali non attendibili. Tutto il resto è un skill graph.

L'Albero Decisionale che Utilizziamo Prima di Costruire Qualsiasi Cosa

Ogni coinvolgimento con un cliente inizia con le stesse quattro domande, e nove volte su dieci le risposte si allontanano da RAG. Abbiamo costruito questo albero da un'analisi di 450 repository di strumenti per memoria degli agenti e gestione del contesto su GitHub, pubblicata il 15 aprile 2026. Quasi nessuno traccia una linea esplicita tra i due. Noi sì, perché quella linea determina il costo.

DomandaSe sìSe no
Il corpus è composto da meno di circa 1.000 documenti?Skill graph. Punto.Si continua.
Il contenuto è prevalentemente testo scritto da poche persone che si preoccupano di mantenerlo corretto?Skill graph. File indice più markdown.RAG diventa un candidato.
Le query richiedono filtri rigidi sui metadati al momento del recupero (intervalli di date, tipo di documento, autore)?Database vettoriale con filtraggio dei metadati. RAG vince qui.Si continua.
Il corpus crescerà fino a milioni di documenti con aggiornamenti ogni minuto?RAG con un vero livello di recupero. È per questo che è stato progettato.Il skill graph vince su tutti gli assi.

La maggior parte dei corpus dei clienti che vediamo sono wiki interne, playbook di vendita, guide di onboarding, documentazione di prodotto e procedure operative standard. Piccoli, stabili, mantenuti da poche persone. Ognuno di questi è un lavoro per skill graph. Il ragionamento sul corpus di piccole dimensioni con dati reali e la guida completa alla configurazione del livello di conoscenza coprono la versione pratica.

Cosa è Effettivamente Diventato Obsoleto tra Gennaio e Aprile 2026

Sam Hogan ha pubblicato la diagnosi più precisa del cambiamento il 18 aprile 2026. La sua tesi: la maggior parte della categoria di strumenti LLM era stata costruita per un mondo che in gran parte non esiste più, e gran parte di essa è diventata obsoleta nei tre mesi precedenti. L'elenco che ha citato:

  • RAG e GraphRAG. L'approccio di recupero costruito per finestre di contesto inferiori a 32K.

  • Framework di orchestrazione multi-agente. I livelli di coordinamento codificati manualmente delle prime generazioni sono stati soppiantati dalla coordinazione a livello di runtime.

  • Framework ReAct. Strutture di ragionamento che i modelli più recenti producono senza scaffolding.

  • Strumenti di gestione e versioning dei prompt. Costruiti per un mondo in cui i prompt erano l'asset. Ora l'asset sono le skill e i substrati di contesto.

  • Stack LLMOps. Oggi riguardano più il tracciamento degli agenti che la gestione dei prompt in singola sessione.

  • Strumenti di valutazione, gateway, librerie di fine-tuning. Ognuno costruito per un comportamento dei modelli che è cambiato.

Un'importante precisazione dello stesso Hogan: i concetti restano ancora preziosi. Ciò che è diventato obsoleto sono le implementazioni popolari attuali. Alcuni strumenti, ha concesso esplicitamente per CrewAI, hanno ancora una certa persistenza. La sua tesi più profonda è quella che conta per i clienti: i modelli frontier recenti con finestre di contesto molto ampie hanno sostanzialmente risolto il problema del richiamo dei fatti che RAG era stato progettato per aggirare.

Il segnale di mercato più forte è arrivato da Zep, una società finanziata nel settore della memoria per agenti. Ha cambiato l'intero posizionamento dalla memoria alla context engineering. MemSearch, della società di database vettoriali Zilliz, ha rilasciato un sistema in cui il loro stesso database vettoriale si trova a valle di semplici file markdown. Un fornitore di database vettoriali che concede che i file detengono la conoscenza, e che l'indice è il livello di accesso, è il tipo di segnale che richiede anni per essere letto in un comunicato stampa e settimane per essere letto in un aggiornamento di prodotto.

Cosa Ha Sostituito RAG per la Maggior Parte del Lavoro con gli Agenti

L'analisi dei 450 repository ha suddiviso la memoria degli agenti in due categorie. La prima è quella dei backend di memoria: estraggono fatti dalle conversazioni, li memorizzano in database vettoriali, li recuperano su richiesta. Mem0 (53.100 stelle su GitHub), MemPalace (46.200), Honcho, Cognee. Ottimizzano per il richiamo.

La seconda categoria è quella dei substrati di contesto: contesto strutturato e leggibile dall'uomo che si accumula tra le sessioni. Zep si trova qui ora. OpenClaw (358.000 stelle) è l'implementazione di riferimento. Il vault che produce questo articolo è un sistema di seconda categoria.

Il ciclo comune per la seconda categoria: l'agente legge il contesto strutturato, lavora al suo interno, scrive i risultati, nella sessione successiva il contesto è più ricco. Nessuna strategia di chunking, nessun modello di embedding da mantenere, nessun batch job di re-indicizzazione, nessuna suite di valutazione del recupero. Una cartella di file markdown con wikilink tra loro, un file indice nella directory principale e una manciata di comandi di lettura e scrittura. Questo è il substrato.

Shiv Sakhuja ha pubblicato il modello di composizione per questo substrato il 23 aprile 2026, come Skill Graphs 2.0. Tre livelli: atomi (primitive a scopo singolo, quasi deterministici), molecole (compiti con ambito definito che compongono da 2 a 10 atomi con concatenamento esplicito), composti (orchestratori multi-molecola con vera autonomia degli agenti, oggi guidati dall'uomo). Il framework limita la profondità del grafo delle dipendenze, il che lo rende affidabile là dove i skill graph piatti si discostano silenziosamente oltre tre o quattro passaggi. Per i clienti, questo si traduce nella struttura dei costi: gli atomi sono economici e deterministici, le molecole sono dove si concentra il lavoro ingegneristico, i composti sono dove si prevede un operatore umano.

I Casi Limite in cui RAG Guadagna Ancora il Suo Posto

Siamo un'agenzia. Realizziamo ciò che il lavoro richiede. RAG supera ancora un skill graph in quattro specifiche classi di lavoro, e lo proporremo quando l'albero decisionale porta lì:

  • Corpus multimodali. PDF con tabelle, documenti scansionati, trascrizioni audio, report ricchi di immagini. Un grafo markdown presuppone che tutto si riduca a testo. Quando non è così, il recupero con embedding multimodale è la soluzione più adatta.

  • Aggiornamenti ad alta frequenza su larga scala. Milioni di documenti che cambiano al minuto e devono essere interrogabili entro secondi dalla pubblicazione. Il costo di re-indicizzazione di un database vettoriale è inferiore al costo umano di mantenere un file indice oltre quel volume.

  • Filtraggio rigido dei metadati al momento del recupero. Quando le query devono filtrare per intervalli di date, tipo di documento o autore prima che la ricerca semantica venga eseguita, i database vettoriali consapevoli dei metadati come Pinecone e Qdrant gestiscono la composizione in modo pulito.

  • Contenuti non attendibili o avversariali. Quando il corpus proviene da molti autori con agende contrastanti e nessun singolo essere umano può essere incaricato di mantenere un indice curato, si preferisce un recupero che non presupponga supervisione editoriale.

Se il Suo progetto rientra in uno di questi quattro casi, RAG è lo strumento giusto e lo costruiremo. In caso contrario, il skill graph è più economico da realizzare, più economico da gestire e più facile da mantenere. Ci contatti prima di commissionare l'uno o l'altro e percorreremo l'albero decisionale sul Suo corpus specifico.

Cosa Utilizziamo Internamente e Cosa Abbiamo Realizzato per i Clienti

Il nostro wiki interno è composto da 22 pagine di conoscenza strutturata, mantenute con cinque comandi shell. Nessun database vettoriale, nessun embedding, nessun cron di re-indicizzazione. La configurazione completa è nel nostro articolo precedente.

Questo stesso substrato produce il blog di webvise che sta leggendo: 76 articoli tradotti in 7 lingue attraverso un unico content skill graph. Nessun team editoriale. Nessun collaboratore esterno. Una skill, sette output per articolo, realizzati dalla stessa cartella della documentazione tecnica.

Sul fronte clienti, il nostro lavoro di produzione con gli agenti si basa sulla stessa architettura. Hermes, la piattaforma di agenti auto-miglioranti che abbiamo documentato il mese scorso, funziona su skill robuste e un runtime snello. Paperclip, il nostro sistema di orchestrazione AI a livello aziendale, compone molecole su una knowledge base markdown. Nessuno dei due ha un database vettoriale nello stack di produzione, e nessuno dei due ne ha mai avuto bisogno.

Garry Tan racconta la stessa storia da YC. Il suo CLAUDE.md personale aveva iniziato con 20.000 righe, con ogni peculiarità, ogni schema, ogni lezione che aveva mai incontrato. L'attenzione del modello si è degradata sotto quel peso, e Claude Code stesso gli ha detto di ridurlo.

La sua soluzione è stata 200 righe di puntatori a documenti che si caricano su richiesta. Le 20.000 righe complete esistono ancora, ma il modello le legge solo quando pertinenti. La sua libreria gstack ha raggiunto 23.000 stelle su GitHub nella sua prima settimana e ha prodotto 600.000 righe di codice in produzione in 60 giorni. Il substrato scala perché il substrato sono i file, non l'infrastruttura.

Cosa Chiedere a un Fornitore Prima di Firmare un Contratto RAG nel 2026

Se ha già una proposta RAG sulla scrivania, ponga queste cinque domande prima di firmare:

  • Quanto è grande il corpus oggi e tra 24 mesi? Con meno di 1.000 documenti in entrambi i casi, il database vettoriale è una voce di costo di cui non ha bisogno.

  • Chi scrive il contenuto? Se si tratta di poche persone interne attente all'accuratezza, un file indice mantenuto supera gli embedding in termini di qualità del recupero. Se si tratta di migliaia di autori avversariali o anonimi, RAG vince.

  • Qual è la frequenza di aggiornamento? Modifiche una volta alla settimana significa che non è necessaria una pipeline di re-indicizzazione. Modifiche ogni minuto su larga scala significa che lo è.

  • La query richiede filtri rigidi sui metadati al momento del recupero? Se sì, un database vettoriale consapevole dei metadati guadagna il suo posto. Se no, la logica di filtraggio è più economica da eseguire nel livello delle skill.

  • Come appare il preventivo del fornitore tra 18 mesi? I costi dei database vettoriali crescono con la crescita dei documenti. I costi del skill graph no. La differenza conta al momento del rinnovo.

Se le risposte indicano RAG, si costruisce RAG. Se indicano un skill graph, la parte difficile è disimparare l'approccio del 2024. Da webvise, percorriamo l'albero decisionale con Lei sul Suo corpus reale, realizziamo l'architettura che l'albero indica e destiniamo i risparmi al lavoro che ne ha davvero bisogno. Ci contatti prima che il fornitore che ha sentito in un podcast invii la fattura.

Le pratiche di webvise sono allineate agli standard ISO 27001 e ISO 42001.