Warum KI-Agenten mit weniger Kontext bessere Ergebnisse liefern
Der Inhalt zusammengefasst:
  • Die Branche dreht von Tokenmaxxing zu Tokenomics - wer KI-Kosten nicht aktiv steuert, verbrennt Budget ohne Qualitätsgewinn.
  • 5.000 gezielte Tokens liefern präzisere Ergebnisse als 50.000 zufällige - Kontext-Orchestrierung ist der entscheidende Hebel.
  • Model Routing senkt KI-Kosten um 60-80 Prozent, weil nicht jede Aufgabe das teuerste Modell braucht.

Uber hat sein KI-Jahresbudget in weniger als vier Monaten aufgebraucht. Im April 2026 war das Geld weg. Amazon schloss sein internes KI-Leaderboard, weil die Kosten außer Kontrolle gerieten. Coinbase und Walmart führten harte Nutzungslimiten ein. Microsoft wechselte auf ein günstigeres Sprachmodell – nicht wegen schlechter Qualität, sondern weil das bessere Modell die Budgets sprengte. Das berichtet SRF Wissen (Juli 2026) und nennt eine Zahl, die das Ausmaß greifbar macht: Claude Opus 4.8 kostet fast 1,7-mal mehr als sein Vorgänger. Die KI-Kosten steigen, während der Nutzen für die meisten Unternehmen stagniert. McKinsey beziffert es nüchterner: 94 Prozent der Unternehmen haben keinen signifikanten KI-Nutzen realisiert.

Die Branche hat dafür zwei Begriffe geprägt. Tokenmaxxing beschreibt den bisherigen Ansatz: so viel KI wie möglich einsetzen, in jede Anwendung, für jede Aufgabe, mit maximaler Kontextlänge. Tokenomics beschreibt den Gegenentwurf: KI so effizient wie möglich nutzen – mit Fokus auf Kosten pro Ergebnis statt auf Volumen. Laut Bain and Co. haben sich die Token-Preise zwar halbiert, doch die Anzahl der genutzten Tokens hat sich vervierfacht. Unter dem Strich steigen die Ausgaben.

In der Ideenfabrik haben wir genau die gleichen Erfahrungen gemacht. Die Tokenkosten steigen von Monat zu Monat, ob für Kunden oder für uns selbst und nehmen heute mehrere Tausend Euro ein. Daraus entstand die Erkenntnis, unserem Agent Harness Konzept einen neuen Layer hinzuzufügen: IDF-Aleph. Benannt nach Jorge Luis Borges‘ Erzählung „Das Aleph“. In der Geschichte geht es um einen Punkt im Raum, der einfach alles enthält. In der Geschichte findet der Erzähler einen Raum, von dort aus sieht er alles gleichzeitig: jedes Blatt an jedem Baum, jede Welle in jedem Ozean. Die Überwältigung ist groß und und genau das ist das Problem. Wer alles gleichzeitig sieht, sieht nichts klar. Übertragen auf KI-Agenten bedeutet das: Zu viele Informationen zu gleichen Zeit bzw. im Kontext sorgen nur für Überforderung, was dazu führt, dass das LLM dahinter immer mehr Tokens verbraucht und doch keine guten Ergebnisse liefert. Die Lösung: Den einen richtigen Blickwinkel finden statt alles gleichzeitig zu zeigen.

Drei Säulen tragen dieses Konzept:

  1. Kontext-Orchestrierung,
  2. Token-Monitoring und
  3. Model Routing.

„Mehr KI“ bedeutet nicht „bessere KI“

Die Kostenexplosion bei Uber, Amazon und Walmart ist kein Einzelfall, sondern ein Strukturproblem. Unternehmen haben KI-Agenten ausgerollt und ihnen möglichst viel Kontext mitgegeben – Kundendaten, Produktkataloge, Gesprächsverläufe, Wissensdatenbanken, interne Richtlinien. Die Idee dahinter: Je mehr ein Agent weiß, desto bessere Antworten liefert er.

In der Praxis führt das in zwei Sackgassen. Erstens die Kostenseite: Jedes Token, das in den Kontext eines Sprachmodells fließt, wird berechnet. Ein Token entspricht dabei ungefähr einem Wortfragment – vier Buchstaben im Deutschen, manchmal ein ganzes Wort, manchmal nur eine Silbe. Bei 50.000 Tokens pro Anfrage summiert sich das. Über Hunderte Mitarbeiter und Tausende Anfragen pro Tag wird aus einem Werkzeug ein Kostentreiber. Zweitens die Qualitätsseite: Sprachmodelle verlieren nachweislich an Präzision, wenn der Kontext wächst. Sie halluzinieren über irrelevante Daten, verknüpfen Informationen falsch oder verlieren den Fokus auf die eigentliche Frage.

Der Fachbegriff dafür ist „Lost in the Middle“ – ein Phänomen, das Forschungsgruppen an Stanford und Berkeley bereits 2023 dokumentiert haben. Die Modelle beachten Informationen am Anfang und am Ende des Kontexts zuverlässig, aber was in der Mitte steht, geht unter. Je länger der Kontext, desto größer die tote Zone.

Das Gegenextrem funktioniert genauso wenig. Wenn ein Agent zu wenig Kontext bekommt, fehlen ihm entscheidende Informationen. Die Antwort bleibt oberflächlich, der Nutzer muss nachfragen, der Agent braucht eine zweite Runde – und verbraucht dabei oft mehr Tokens als eine einzige gut orchestrierte Anfrage.

94 Prozent ohne signifikanten KI-Nutzen: Das liegt daran, wie Unternehmen ihre KI-Agenten mit Daten versorgen. Tokenmaxxing ist daher keine sinnvolle Strategie, vielmehr zeigt es ehr, dass ein Nutzer keine Strategie verfolgt.

Die richtigen Daten statt aller Daten

Die erste Säule von Aleph löst das zentrale Problem: Welche Informationen braucht ein KI-Agent für eine bestimmte Aufgabe – und welche stören?

Kontext-Orchestrierung bedeutet, dass jeder Agent ein eigenes Kontext-Profil erhält. Dieses Profil definiert, welche Datenquellen der Agent sehen darf, in welcher Reihenfolge sie geladen werden und welche Tiefe jeweils angemessen ist. Das Ergebnis: 5.000 gezielte Tokens statt 50.000 zufälliger.

Ein konkretes Beispiel. Paul Pipeline ist der Vertriebsagent der Ideenfabrik. Wenn Paul ein Angebot vorbereitet, braucht er den Kundenstamm, die offenen Angebote, die Preisliste und die letzten Gesprächsnotizen. Er braucht weder die Werkzeugliste aus dem Lager noch die Redaktionsplanung fürs Magazin noch die Buchhaltungsdaten der letzten drei Jahre. Ohne Kontext-Profil würden all diese Daten in seinen Kontext fließen – mit entsprechenden KI-Kosten und entsprechendem Qualitätsverlust.

Umgekehrt braucht ein Pia Pixel als Content-Agent, der einen Magazin-Artikel verfasst, die Tonalitätsvorgaben der Marke, die bestehenden FAQ-Einträge zum Thema und die internen Verlinkungsziele. Was er definitiv nicht braucht: Kundenadressen, Lagerbestände oder offene Rechnungen. Jede dieser Informationen verbraucht Tokens und erhöht die Wahrscheinlichkeit, dass der Agent irrelevante Daten in seine Antwort einwebt.

Das Konzept funktioniert wie ein erfahrener Mitarbeiter, der eine neue Aufgabe übernimmt. Er liest zuerst die relevante Akte, nicht das gesamte Firmenarchiv. Er beginnt mit der Zusammenfassung und arbeitet sich bei Bedarf in die Details vor. Dieses Prinzip – schrittweise Vertiefung, im Englischen „Progressive Disclosure“ genannt – ist in der Softwareentwicklung seit Jahrzehnten bewährt. IDF-Aleph überträgt es auf KI-Architekturen.

Die technische Umsetzung läuft über das Agent Harness – die Infrastruktur um den KI-Agenten herum, die bestimmt, was er sieht und was nicht. Skills, Datenquellen und Zugriffsgrenzen werden dort zentral verwaltet. Der Agent selbst trifft keine Entscheidung darüber, welche Daten er bekommt. Diese Entscheidung liegt in der Architektur – und damit beim Unternehmen, nicht beim Modell.

Das richtige Modell für die richtige Aufgabe

Die dritte Säule von Aleph adressiert eine Frage, die viele Unternehmen gar nicht stellen: Braucht jede Aufgabe das teuerste Sprachmodell?

Die Antwort ist eindeutig: Nein. Ein schnelles, kostengünstiges Modell wie Claude Haiku beantwortet eine Standardfrage nach Öffnungszeiten für rund 0,01 Euro pro tausend Tokens. Ein mittleres Modell wie Claude Sonnet formuliert einen Angebotstext für etwa 0,15 Euro. Das leistungsstärkste Modell – Claude Opus – analysiert einen komplexen Vertrag oder erstellt eine Marktanalyse für rund 0,75 Euro. Und für reine Klassifizierungsaufgaben – „Ist diese E-Mail eine Beschwerde oder eine Bestellung?“ – genügt ein lokal betriebenes Modell, das keine externen Token-Kosten verursacht. Ohne Routing fließt jede Anfrage durch das teuerste Modell.

Das ist, als würden Sie einen Professor für Neurochirurgie bitten, Tippfehler in einer E-Mail zu korrigieren. Er kann es. Aber es ist eine Verschwendung seiner Fähigkeiten und Ihres Budgets.

Model Routing automatisiert diese Entscheidung. Ein vorgeschalteter Klassifikator bewertet jede eingehende Anfrage nach Komplexität und leitet sie an das passende Modell weiter. In der Ideenfabrik läuft dieser Router als ein Workflow, der die gesamte Service-as-Software-Architektur orchestriert. Die Router-Logik selbst verbraucht nur wenige Tokens, spart aber bei jeder weitergeleiteten Anfrage erheblich.

Die SRF-Recherche bestätigt diesen Ansatz. Routing gehört neben kürzeren Anfragen, Batching und Caching zu den Strategien, die Unternehmen einsetzen, um von Tokenmaxxing zu Tokenomics zu wechseln. Der Unterschied: Routing wirkt strukturell. Es senkt nicht einzelne Anfragen, sondern die gesamte Kostenkurve – dauerhaft.

Für KMU ist Model Routing besonders relevant. Große Konzerne können steigende KI-Kosten eine Weile absorbieren. Ein Mittelständler mit 50 Mitarbeitern, der seine KI-Agenten alle über Opus laufen lässt, spürt die Rechnung im ersten Quartal. Und die Rechnung wird größer werden: Die Modellanbieter entwickeln stärkere Modelle, die mehr kosten. Wer heute kein Routing einführt, skaliert seine KI-Kosten linear mit jedem Preisanstieg.

Was die Ideenfabrik selbst misst

Kontext-Orchestrierung und Model Routing bleiben Theorie, solange niemand die Ergebnisse misst. Die zweite Säule von Aleph – Token-Monitoring – schließt diese Lücke.

Jeder KI-Agent der Ideenfabrik wird auf drei Ebenen überwacht: Kosten pro Aufgabe, Kosten pro Agent und Kosten pro Zeitraum. Paul Pipeline, der Vertriebsagent. Toni Tool, der Inventarverwalter. Pia Pixel, als Content Creator. Jeder dieser Agenten hat ein eigenes Dashboard, das Token-Verbrauch, Modellverteilung und Kostenentwicklung in Echtzeit zeigt.

Das Monitoring liefert drei Arten von Erkenntnissen. Trend-Linien machen sichtbar, ob der Token-Verbrauch eines Agenten über die Wochen steigt – ein frühes Warnsignal dafür, dass sein Kontext-Profil überarbeitet werden muss oder dass sich die Nutzungsmuster der Mitarbeiter verändert haben. Budget-Warnungen greifen, bevor Kosten außer Kontrolle geraten – nicht erst am Monatsende in der Abrechnung, sondern in dem Moment, in dem ein definierter Schwellenwert überschritten wird. Und die Modellverteilung zeigt, ob der Router seine Arbeit tut: Wenn 80 Prozent aller Anfragen über Opus laufen, stimmt die Routing-Logik nicht.

Transparenz über KI-Kosten ist die Voraussetzung dafür, dass KI ein planbares Werkzeug bleibt und nicht zum unkalkulierbaren Kostenfaktor wird. Bain and Co. hat genau diesen Mechanismus dokumentiert: Die Token-Preise halbieren sich, aber der Verbrauch vervierfacht sich – weil niemand hinschaut. Monitoring ändert das. Wer seine KI-Kosten kennt, kann sie steuern. Wer sie nicht kennt, steuert blind.

Die Ideenfabrik veröffentlicht diese Zahlen bewusst intern für alle Mitarbeiter. Wer sieht, was ein Agentenaufruf kostet, formuliert seine Anfrage präziser. Wer sieht, dass ein Standardvorgang 0,02 Euro kostet und ein schlecht formulierter 0,85 Euro, ändert sein Verhalten – ohne Schulung, ohne Richtlinie, allein durch Sichtbarkeit. Die Datensouveränität über die eigenen KI-Kosten ist genauso Chefsache wie die Souveränität über Kundendaten.

Fazit

Die Übergangsphase von Tokenmaxxing zu Tokenomics hat begonnen. Uber, Amazon, Coinbase, Walmart und Microsoft haben sie erzwungenermaßen eingeleitet. Für KMU ergibt sich daraus eine Chance: Sie können von Anfang an die richtige Architektur wählen, statt eine falsche nachträglich zu korrigieren.

Was Sie tun können

  1. Den tatsächlichen Token-Verbrauch messen. Viele Unternehmen wissen nicht, wie viel ihre KI-Nutzung kostet – aufgeschlüsselt nach Anwendung, Aufgabentyp und Modell. Ohne diese Zahlen fehlt jede Entscheidungsgrundlage. Ein einfaches Dashboard, das Tokens pro Agent und Tag zählt, reicht für den Anfang. Die meisten API-Anbieter liefern diese Daten bereits in ihren Abrechnungen – sie müssen nur gelesen werden.
  2. Den Kontext reduzieren. Jeder KI-Agent, der heute läuft, bekommt wahrscheinlich mehr Daten als er braucht. Die Frage lautet nicht „Was könnte relevant sein?“, sondern „Was braucht dieser Agent für genau diese Aufgabe?“. Allein die Reduktion von 50.000 auf 5.000 Tokens pro Anfrage senkt die KI-Kosten um 90 Prozent – bei gleicher oder besserer Antwortqualität, weil der Agent nicht mehr über irrelevante Daten stolpert.
  3. Modelle differenzieren. Die wenigsten Aufgaben in einem Unternehmen erfordern das leistungsstärkste Modell. Klassifizierungen, Standardantworten, Zusammenfassungen und Datenbankabfragen laufen auf kleineren Modellen schneller, günstiger und oft genauer. Den Einstieg erleichtert eine einfache Regel: Wenn die Aufgabe in einem Satz beschrieben werden kann, genügt das kleine Modell.

IDF-Aleph ist die Architektur, die wir für unsere eigenen Agenten entwickelt haben. Die drei Säulen – Kontext-Orchestrierung, Token-Monitoring und Model Routing – lassen sich einzeln umsetzen. Jede für sich reduziert KI-Kosten. Zusammen verändern sie, wie ein Unternehmen KI einsetzt: weg vom Prinzip „viel hilft viel“, hin zu einer Architektur, die Ergebnisse optimiert statt Volumen.

Die Frage für die kommenden Monate lautet nicht, ob Unternehmen KI nutzen sollten. Sie lautet, wie sie es wirtschaftlich tun.

Token-Rechner

Im hier gezeigten Rechner können Sie grob sehen, was ein Prompt kostet. Bei einem Dialog mit einem ChatBot ist dies der Ausgang-Zustand. Je öfter ein Modell im Dialog nachfragt oder der Dialog wächst, um so höher wird der Token verbrauch, da der Kontext dabei aus allen Fragen und Antworten besteht, die als Tokens verarbeitet werden.

Lädt …

0 Comments

Über diesen Artikel
  • Aktualisiert: 4. Juli 2026
  • Veröffentlicht: 4. Juli 2026
  • Lesezeit: 10 Minuten
  • Leser: 28
  • Kommentare: 0 Comments
  • Autor: Joerg Martin
  • Von Menschen erstellt