Model Router Gateway — pro Schritt das kleinste Modell, das den Test besteht
Ein modell-agnostisches Gateway, das jede Aufgabe an das günstigste Modell routet, das deinen Eval besteht — SLM für Routine, Frontier nur für den harten Schritt. Plus Kosten-Dashboard und 1-Klick-Anbietertausch. Demo-Referenzarchitektur.
Die meisten Automatisierungen schicken jeden Schritt an dasselbe teure Großmodell — auch das simple „ist das eine Rechnung? ja/nein". Das ist ein LKW für den Brötchenholdienst.
Diese Demo zeigt das Gegenteil: ein Gateway, das pro Schritt entscheidet, welches Modell reicht — und die Frontier nur dann ruft, wenn die Aufgabe sie wirklich braucht.
So routet das Gateway eine Aufgabe
Jede Aufgabe wird klassifiziert und durch das modell-agnostische Gateway geschickt. Ein Eval entscheidet: reicht ein günstiges SLM — oder eskaliert die Aufgabe zur Frontier? Kosten und Ergebnis landen im Log.
Vorher vs. Nachher
| Aspekt | Vorher | Nachher |
|---|---|---|
| Modellwahl | ein Großmodell für alles | pro Schritt passend geroutet |
| Routine-Aufgaben | Frontier-Preis | SLM-Preis |
| Harte Aufgaben | gleiches Modell wie Routine | gezielte Frontier-Eskalation |
| Anbieterwechsel | Code-Umbau | Konfiguration |
| Kostensicht | Sammelrechnung am Monatsende | Kosten pro Schritt live |
Die Herausforderung
Die Branche verschiebt sich von „mehr Parameter" zu „Intelligenz pro Euro". Ein 7B-SLM ist grob 10–30× günstiger als ein 70–175B-Modell (NVIDIA, 2025) und reicht für die repetitiven Routine-Aufgaben, die Agenten zum Großteil ausmachen — klassifizieren, extrahieren, routen, formatieren. Gleichzeitig fällt der Preis für ein festes Fähigkeitsniveau dramatisch (LLMflation: grob 10×/Jahr).
Nur: Die meisten Mittelständler nutzen das nicht. Sie haben (a) ein Modell fest verdrahtet — Lock-in, kein Wechsel wenn Preise fallen, (b) keinen Eval, um zu wissen, ob ein kleineres Modell reicht, und (c) keine Sicht auf die Kosten pro Schritt. Ergebnis: Sie zahlen Frontier-Preise für SLM-Arbeit.
Ehrliche Grenze: Für harte, breite Aufgaben (offenes Reasoning) bleibt das große Modell überlegen — Inference-Compute substituiert Parameter nur teilweise. Das Routing muss diese Grenze respektieren, nicht ignorieren.
Unsere Lösung
Ein Gateway, das pro Aufgabe routet statt pauschal das Großmodell zu rufen — self-hosted, modell-agnostisch (OpenRouter/LiteLLM als Abstraktion über 400+ Modelle). Drei Bausteine:
1. Eval-getriebenes Routing. Pro Aufgabentyp gibt es einen kleinen, ehrlichen Test. Das Gateway nimmt das kleinste Modell, das diesen Test besteht — SLM für Routine, Frontier nur für den nachweislich harten Schritt. „Besteht meinen Test" statt „fühlt sich sicher an".
2. Frontier auf Abruf mit Eskalation. Unsichere oder schwierige Fälle eskalieren automatisch eine Stufe nach oben. So zahlst du den Spitzenpreis nur für die Fälle, die ihn brauchen.
3. Kosten- & Wechsel-Schicht. Ein Dashboard zeigt Kosten pro Schritt, Modell und Tag. Weil das Modell hinter einer Abstraktion liegt, ist der Anbieterwechsel Konfiguration, kein Umbau — du profitierst vom Preisverfall, statt ihm ausgeliefert zu sein.
Ehrliche Einordnung: Das Gateway ist keine Garantie für Qualität — es ist nur so gut wie deine Evals. Und „unsichtbar" heißt nicht „ohne Abhängigkeit": Ein Router, der dir nicht gehört, ist ein neuer Lock-in. Deshalb self-hosted und mit dokumentierten Evals.
Hauptmerkmale
Eval-getriebenes Routing
Pro Aufgabentyp ein kleiner, ehrlicher Test. Das Gateway nimmt das kleinste Modell, das ihn besteht — Entscheidung per Messung, nicht per Bauchgefühl.
Automatische Eskalation
Unsichere oder schwierige Fälle steigen Stufe für Stufe bis zur Frontier. Den Spitzenpreis zahlst du nur für die Aufgaben, die ihn wirklich brauchen.
Modell-Abstraktion
400+ Modelle hinter einer API (OpenRouter / LiteLLM). Der Anbieterwechsel ist Konfiguration statt Code-Umbau — du folgst dem Preisverfall, statt im Lock-in zu sitzen.
Kosten-Dashboard
Ausgaben pro Schritt, Modell und Tag — live. Keine Überraschung auf der Monatsrechnung, sondern eine Kostenkurve, die du steuern kannst.
Ergebnisse
Möglicher Aufbau, kein fertiges Produkt
Die dargestellten Zahlen sind Zielwerte und Erwartungswerte für einen möglichen Aufbau – basierend auf Branchen-Benchmarks, öffentlichen Studien zu vergleichbaren Setups und unseren eigenen Tests mit echtem Stack. Es handelt sich nicht um gemessene Ergebnisse aus einem konkreten Kundenprojekt; tatsächliche Werte hängen von Unternehmensgröße, Prozessreife und Integrationstiefe ab. Wir bieten diesen Aufbau nicht als fertiges Produkt an. Wir helfen Teams, Prozesse zu konzipieren, zu automatisieren und intern zu betreiben – über Architektur-Beratung, Workshops und Implementierungs-Unterstützung mit n8n. Für regulierte Drittsysteme mit Zertifizierungs- oder Lizenzanforderungen (z. B. KIS, gematik, DATEV-zertifiziert) ergänzen wir uns mit spezialisierten Partnern.
Aus „alles ans teure Großmodell" wird „pro Schritt das kleinste Modell, das den Test besteht, Frontier nur auf Abruf" — bei voller Kostensicht und 1-Klick-Anbietertausch. Demo-Werte, illustrativ.
Integrationen
Nahtlose Anbindung an Ihre bestehende Infrastruktur
n8n (self-hosted)
OrchestrierungZentrale Engine: Klassifikation, Routing-Regeln, Eskalation und Logging
OpenRouter / LiteLLM
Modell-AbstraktionEine API über 400+ Modelle; Anbieterwechsel per Konfiguration
SLM + Frontier-Modelle
InferenzKleine Modelle für Routine, Frontier auf Abruf für harte Aufgaben
Eval-Suite
QualitätskontrolleAufgabenspezifische Tests entscheiden, welches Modell durchgereicht wird
PostgreSQL
Kosten-/Eval-LogProtokoll aller Aufrufe mit Modell, Kosten und Testergebnis
Grafana
Kosten-DashboardAusgaben pro Schritt, Modell und Tag — live sichtbar
Sicherheit & Compliance
Enterprise-ready mit höchsten Sicherheitsstandards
Datensouveränität durch Self-Hosting
Gateway, Evals und Logs laufen self-hosted. Mit LiteLLM bleibt sogar die Modell-Abstraktion im eigenen Haus — kein Zwang, Prompts über einen fremden Router zu schicken.
Kein Lock-in by Design
Modelle und Anbieter liegen hinter einer Abstraktion und sind per Konfiguration austauschbar. Der teuerste Lock-in ist der, den man sich in den Code schreibt — den vermeidet dieses Setup bewusst.
Kosten- & Eval-Log auditierbar
Jeder Aufruf wird mit Modell, Kosten und Eval-Ergebnis protokolliert — nachvollziehbar, welches Modell welche Aufgabe mit welchem Resultat bearbeitet hat.
Kein Qualitätsversprechen ohne Evals
Das Routing ist nur so gut wie die hinterlegten Tests. Ehrlich gerahmt: Die Evals sind der Kern — ohne sie ist „kleineres Modell" ein Glücksspiel, mit ihnen eine Messung.
Technologie-Stack
Häufige Fragen
Ähnliche Showcases
Agent Permission Gateway — KI-Agenten mit Least-Privilege absichern
Ein self-hosted Kontrolllayer zwischen KI-Agenten und ihren Werkzeugen: enge Rechte pro Tool, kurzlebige Just-in-Time-Tokens, Autorisierung pro Schritt, ein Human-in-the-Loop-Gate vor irreversiblen Aktionen und ein manipulationssicheres Audit-Log. Demo-Referenzarchitektur, kein zertifiziertes Produkt.
EU AI Act Compliance Cockpit – Pflichten automatisiert nachweisen
EU AI Act und DSGVO selbst automatisieren: zentrales KI-Register, unveränderlicher Audit-Trail, Human-in-the-Loop-Gate für automatisierte Entscheidungen und automatische Art.-50-Transparenzhinweise. Fristen-sicher statt Excel-Liste.
Engpassdiagnose – als eigenständiges Tool
Schnell prüfen, wo in Ihren Abläufen Zeit und Geld verloren gehen: die Engpassdiagnose gibt es auch als eigenes Tool unter engpassdiagnose.de.