Copilot vs. Autopilot: Warum viele KI-Agenturen ihre Margen nicht steigern können

Agenturen, die Tools weiterverkaufen statt Fähigkeiten, spüren mit jedem neuen Modell-Release wachsenden Margendruck. Wer das Ergebnis verkauft, profitiert von Modellverbesserungen, anstatt darunter zu leiden, und die Zahlen dazu sind inzwischen öffentlich. 2026 jagt jeder dem nächsten KI-Copiloten hinterher. Alex Vacca hat ColdIQ ohne Fremdkapital auf 7 Mio. Dollar Jahresumsatz skaliert, indem er bewusst den anderen Weg eingeschlagen hat.

Das KI-Agentur-Modell stirbt genauso wie das productized-Agency-Modell von 2022: Diese These kennen viele. Sie stimmt halb. Die Form, die stirbt, verkauft Tools. Die Form, die überlebt, verkauft die Arbeit dahinter. Sequoia-Partner Julien Bek hat das Konzept jetzt explizit benannt: *Services: The New Software*.

Im Folgenden: die These, die 1:6-Mathematik dahinter, Vaccas Sechs-Schritte-Playbook aus ColdIQ, und die zwei konkreten Veränderungen, die das Modell webvise in diesem Quartal aufgezwungen hat.

Wer das Tool verkauft, betritt einen permanenten Wettlauf gegen das Foundation Model. Wer das Ergebnis verkauft, profitiert von Modellverbesserungen, anstatt darunter zu leiden.
ColdIQ ist der erste bootstrapped Services-as-Software-Datenpunkt mit belegbaren Zahlen. 7 Mio. Dollar ARR, 400 B2B-Kunden, über 2.200 Kampagnen, 31 Monate ab null, kein externes Kapital, über 30 Mitarbeitende in zehn Ländern.
Reife Service-Vertikale laufen typischerweise bei einem Software-zu-Services-Verhältnis von 1:6 bis 1:12 (laut Sequoia-Partner Julien Beks Analyse). Das Budget steckt in der Arbeit, nicht in der Software.
Eine verbreitete Einstellungsreihenfolge bei KI-nativen Servicefirmen lautet: Delivery zunächst ohne den Gründer abwickeln, bevor Marketing, Vertrieb oder Operations eingestellt werden.
webvise arbeitet bereits mit direkter Engineering-Verantwortung. Sebastian entwickelt Produktionssoftware mit Claude Code und KI-nativen Workflows, Produkt- und Architekturentscheidungen bleiben dabei in erfahrenen Händen.

Die These, die Sequoia gerade benannt hat, und die ColdIQ bereits gebaut hatte

Julien Bek veröffentlichte *Services: The New Software* im April 2026. Das Argument lässt sich in einem Satz fassen. Das nächste Billion-Dollar-Unternehmen verkauft die Arbeit, nicht das Tool, denn auf jeden Dollar Software-Budget kommen 6 bis 12 Dollar Services-Ausgaben (laut Sequoia-Partner Julien Beks Analyse), und KI macht dieses Services-Budget erstmals für kleine Teams angreifbar.

Alex Vacca hat das Modell drei Jahre vor Sequoias Benennung bewiesen. 2022 kündigte er einen 80.000-Dollar-Operations-Job bei Worldcoin, dem Iris-Scan-Unternehmen von Sam Altman, und berechnete 3.000 Dollar pro Monat für sein erstes Cold-Outbound-Retainer. Drei Jahre und über 2.200 Kampagnen später läuft ColdIQ bei über 7 Mio. Dollar ARR, mit 400 B2B-Kunden und über 30 Mitarbeitenden in zehn Ländern. Kein externes Kapital.

Die Form zählt mehr als die Zahl. ColdIQ hat die Arbeit ein volles Jahr lang manuell ausgeführt, bevor irgendetwas davon kodiert wurde. Diese manuelle Phase war kein Umweg auf dem Weg zur Software, sondern die F&E-Phase für das, was darunter ausgeliefert wird.

Die Agentur war der Trainingsdatensatz. Wer das umgekehrte Argument interessiert, dass jedes SaaS-Produkt früher oder später in dieses Muster fällt: Dazu habe ich kürzlich den Gegenfall beschrieben.

Copilot vs. Autopilot: eine Form verdichtet, die andere wächst

Beks schärfste Unterscheidung betrifft, wem das Modell tatsächlich dient. Ein Copilot legt KI in die Hände einer Fachkraft. Die Fachkraft prüft das Ergebnis, trägt das Risiko, hält die Kundenbeziehung.

Ein Autopilot überspringt die Fachkraft vollständig und liefert das Ergebnis direkt an den Käufer. Zwei Formen, zwei Schicksale.

Die Preisobergrenze eines Copilots ist durch die Zahl der Fachkräfte multipliziert mit dem Lizenzpreis begrenzt. Die Obergrenze eines Autopilots ist der TAM des Ergebnisses selbst. Eine Grenze ist ein Kalender. Die andere ist ein Markt.

	Copilot	Autopilot
Wer es nutzt	Eine Fachkraft	Der Endkäufer direkt
Wer das Risiko trägt	Die Fachkraft	Der Anbieter
Preisobergrenze	Seats × Lizenzpreis	TAM des Ergebnisses
Bekannte Beispiele	Harvey (Anwaltskanzleien), Rogo (Investmentbanken)	Crosby (NDAs), WithCoverage (Policen), ColdIQ (Meetings)
Nächstes Modell-Release	Feature-Risiko: das Modell schluckt das Tool	Margenexpansion: Lieferkosten sinken, Preis bleibt

In diesem Quartal stellen sich alle KI-Tool-Gründer dieselbe Frage: Was passiert, wenn das nächste Modell-Release mein Produkt zu einem Feature degradiert? Das ist die richtige Frage.

Ein Copilot muss dem Foundation Model dauerhaft einen Schritt voraus bleiben. Ein Autopilot wird besser, sobald das Foundation Model besser wird.

Die Mathematik: Warum auf 1 Dollar Software 6 bis 12 Dollar Services entfallen

Beks kanonisches Beispiel macht den Punkt unmittelbar klar. Ein typisches kleines Unternehmen gibt rund 10.000 Dollar pro Jahr für QuickBooks aus und rund 120.000 Dollar für den Buchhalter, der die Bücher tatsächlich abschließt. Für Buchhaltung liegt das Verhältnis bei 1:12. Die meisten Kategorien bewegen sich eher bei 1:6.

Cold Outbound hat exakt dieselbe Struktur. Ein B2B-Unternehmen zahlt für einige Seats an Sales-Tools, ein SDR-Gehalt, und ein Vielfaches davon an eine Agentur, wenn es eine beauftragt. Die Software-Zeile ist winzig. Die Arbeit ist teuer.

Deshalb musste Vacca keinen Markt erfinden. Er ist in eine bestehende Budget-Zeile eingestiegen, die KI-native Delivery noch nicht umkämpft hatte.

Drei Filter entscheiden, ob eine Nische die Prüfung besteht:

Wird diese Arbeit heute bereits ausgelagert? Ziel ist es, in ein bestehendes Budget zu wechseln, kein neues zu erfinden.
Handelt es sich um Wissensarbeit? Mustererkennung und Regelanwendung, keine strategischen Urteile, die nur ein Mensch fällen kann.
Liegt der Services-Anteil deutlich über dem Software-Anteil? Bei einem Verhältnis von 1:2 oder weniger gibt es kein verborgenes Budget anzugreifen.

Cold Outbound erfüllt alle drei Kriterien. SEO-Content-Operations, Customer-Support-Triage, Rechnungsextraktion und Lead-Enrichment ebenso. Vieles nicht. M&A-Strukturierung, klinische Entscheidungsfindung und kreative Markenführung bestehen den Wissensarbeits-Test nicht, und wer so tut, als ob sie es täten, verliert als Autopilot-Anbieter in diesen Kategorien seine Kunden.

Vaccas Sechs-Schritte-Reihenfolge, und die Einstellungssequenz, die die meisten Gründer falsch angehen

Sechs Schritte, wobei die Reihenfolge mehr zählt als jeder einzelne Schritt für sich.

1. Eine ausgelagerte Position innerhalb einer Branche wählen. Fokus gewinnt, weil Fokus proprietäre Daten am schnellsten akkumuliert, und die Daten sind der eigentliche Burggraben.
2. Die ersten Kunden persönlich gewinnen. Keine Website, kein Deck, kein Funnel. Eine Retainer-Untergrenze setzen, mit der man auch in drei Jahren noch einverstanden wäre. ColdIQ startete bei 3.000 Dollar pro Monat, weil darunter Delivery nicht wirtschaftlich war.
3. Die Arbeit manuell erledigen und jeden Schritt dokumentieren. Vier Artefakte von Anfang an: ein Markdown-SOP für jede wiederholbare Aufgabe, ein Loom-Video, sobald die Arbeit die Benutzeroberfläche berührt, ein datiertes Entscheidungsprotokoll pro Kunde, und eine Failed-Campaigns-Datei. Letztere wird das wertvollste Artefakt des ersten Jahres.
4. Wie ein Service bepreisen, wie ein Produkt reporten. Setup-Fee plus monatliches Retainer, das an eine Ergebniskennzahl geknüpft ist (gebuchte Meetings, abgeschlossene Deals), plus Performancebonus bei Zielüberschreitung. Live-Dashboard von Tag eins, wöchentliches Wins-and-Misses-Update, quartalsweises Gespräch mit dem Entscheider, nicht nur dem Operator.
5. Sich selbst aus der Delivery ersetzen, bevor sonst etwas skaliert wird. Einstellungsreihenfolge: Delivery Operator, dann technischer Automator, dann Head of Delivery. Kein Marketer, kein Vertriebsmitarbeitender, kein COO, bevor der Delivery-Layer ohne den Gründer läuft.
6. Den Daten-Burggraben vor dem Software-Burggraben aufbauen. Jeden Input speichern (roh und bereinigt), jeden Output mit seinem Ergebnis taggen, jede Urteilsfindung mit ihrer Begründung, und jeden Einwand samt der Antwort, die den Abschluss gebracht hat.

2025 zog Vacca sich vollständig aus der täglichen Delivery zurück. Das Geschäft lief im Folgemonat weiter. Gründergeführte Delivery setzt die technische Obergrenze. Das steht im Gegensatz zu vertriebsgeführten Agenturmodellen früherer Zyklen: Jeder Agentur-Gründer, der sagte "Services lassen sich nicht skalieren", meinte in Wirklichkeit "Ich persönlich lasse mich nicht skalieren".

Wie das innerhalb einer kleinen KI-nativen Agentur aussieht

webvise arbeitet nach einer ähnlichen Betriebsform, angepasst für ein Software-Studio. Die Arbeit wird schriftlich definiert, mit einem KI-nativen Development-Stack umgesetzt, durch deterministische Tests geprüft und vor dem Production-Release von einem Software Engineer abgenommen.

Über 25.000 Zeilen Kundenapplikationscode sind in einem einzigen Engagement durch diesen Loop gelaufen. Zeilenzahlen messen Durchsatz und erfordern separate Qualitätsprüfung. Die Agentur ist die manuelle Delivery-Phase für alles, was als nächstes produktisiert wird.

Zwei konkrete Veränderungen, die die These von Bek und Vacca in diesem Quartal erzwungen hat:

Claude-native Delivery. Sebastian entwickelt Produktionssoftware mit Claude Code und KI-nativen Workflows. Der Auftraggeber erhält einen Software Engineer, der den Workflow versteht, das System entwirft und es in Production bringt.
Jedes laufende Support-Engagement führt jetzt eine Failed-Campaigns-Datei. Landingpage-Launches, KI-Automatisierungsflüsse und Migrationsengagements erhalten jeweils ein Markdown-Log über das, was nicht funktioniert hat und warum. Diese Datei ist der Trainingsdatensatz für die nächste Version desselben Services. Es ist das Artefakt, das die meisten Agenturen überspringen, und das, auf das Vacca als wertvollstes Ergebnis des ersten Jahres hinweist.

Anonymisierte Kunden-Engagements, bei denen das bereits aktiv ist oder vorbereitet wird: eine SaaS-Referenz-App, eine Plattform für Jugendorganisationen, eine Bau-Landingpage mit KI-Chatbot, und eine Patientenmanagement-App. Jedes dieser Engagements produziert Trainingsdaten für ein Produkt, das noch nicht ausgeliefert ist, und jedes einzelne verdichtet den darunterliegenden Datensatz.

Wann der Copilot-Modus die richtige Wahl ist

Das Autopilot-Modell ist nicht universell. Copilot ist die richtige Form, wenn das zugrunde liegende Urteil genuien nicht übertragbar ist. Hochrangige Rechtsberatung, M&A-Strukturierung und regulierte klinische Entscheidungsfindung lassen sich nicht in ein Ergebnis-SKU übersetzen, das ein Anbieter versichern könnte.

Harvey verkauft einen Copilot an Anwaltskanzleien, weil der Partner, nicht das Modell, der versicherte Akteur ist. Rogo verkauft aus demselben Grund an Investmentbanken. In beiden Fällen ist der Käufer rechtlich, finanziell oder ethisch für das Ergebnis der Arbeit verantwortlich, daher wird er das Ergebnis keinem Anbieter überlassen, egal wie gut das Modell wird.

Der Test ist einfach. Trägt der Käufer die regulatorische oder Reputationshaftung, ist Copilot korrekt. Will der Käufer nur das Ergebnis und ist ihm egal, wer es produziert, ist Autopilot die einzige Form, die das nächste Modell-Release überlebt.

Überall dazwischen verbringt der Copilot-Anbieter die nächsten fünf Jahre damit, gegen den Foundation-Model-Anbieter zu rennen. Ein strukturell schwer zu gewinnender Wettbewerb.

Was Sie montags früh tatsächlich verkaufen, und wie Sie es herausfinden

Zwei Fragen beantworten den Großteil der Entscheidung:

Kann der Käufer für das Ergebnis zahlen, ohne die Software jemals anzufassen? Lautet die Antwort Nein, wird ein Copilot geliefert. Das ist in Ordnung, wenn die Kategorie die Nicht-Übertragbarkeitshürde bei Urteilen erfüllt. Nicht in Ordnung, wenn es Wissensarbeit ist.
Liegt der Services-Anteil in der Kategorie mindestens beim Sechsfachen des Software-Anteils? Wenn ja, gibt es eine verborgene Budget-Zeile, die es lohnt, mit KI-nativer Delivery anzugreifen. Wenn nein: Software bauen, Seats verkaufen, und die Copilot-Obergrenze akzeptieren.

Wer als Gründer zwischen einer kleinen Beratung und einem echten Unternehmen feststeckt: Der Weg dahin verlangt Ehrlichkeit über den Aufwand. Erst manuell arbeiten, bis der Markt zeigt, was automatisiert werden sollte. Delivery einstellen, bevor sonst irgendjemand kommt. Die Failed-Campaigns-Datei führen.

Dashboards schreiben, bevor das Produkt gebaut wird. Die Anti-Slop-Content-Strategie dieses Blogs ist eine kleinere Version desselben Prinzips: nur veröffentlichen, was das Foundation Model nicht schon selbst generieren kann.

Wer die eigene Agentur für die nächsten zwölf Monate neu ausrichten möchte oder einen Claude-nativen Delivery-Partner sucht, der sich bereits zu dieser Form committet hat: webvise ist genau für diese These gebaut. Jetzt Kontakt aufnehmen.

Die Praktiken von webvise sind an den ISO 27001- und ISO 42001-Standards ausgerichtet.