Zum Hauptinhalt springen
Möglicher AufbauHR & Abläufe

Model Router Gateway — pro Schritt das kleinste Modell, das den Test besteht

Ein modell-agnostisches Gateway, das jede Aufgabe an das günstigste Modell routet, das deinen Eval besteht — SLM für Routine, Frontier nur für den harten Schritt. Plus Kosten-Dashboard und 1-Klick-Anbietertausch. Demo-Referenzarchitektur.

Model RoutingSLMKostenkontrolleEval-getriebenmodell-agnostischn8n
Branche
Branchenübergreifend / KI-Betrieb
Umsetzung
3-5 Wochen
Modellwahl
kleinstes, das den Test besteht

Die meisten Automatisierungen schicken jeden Schritt an dasselbe teure Großmodell — auch das simple „ist das eine Rechnung? ja/nein". Das ist ein LKW für den Brötchenholdienst.

Diese Demo zeigt das Gegenteil: ein Gateway, das pro Schritt entscheidet, welches Modell reicht — und die Frontier nur dann ruft, wenn die Aufgabe sie wirklich braucht.

So routet das Gateway eine Aufgabe

Jede Aufgabe wird klassifiziert und durch das modell-agnostische Gateway geschickt. Ein Eval entscheidet: reicht ein günstiges SLM — oder eskaliert die Aufgabe zur Frontier? Kosten und Ergebnis landen im Log.

BPMN-Elemente
Trigger
Start Event
Verarbeitung
Task
Integration
Service Task
Ausgabe
End Event
Gateway
XOR (Exklusiv)

Vorher vs. Nachher

Modellwahl
Vorher
ein Großmodell für alles
Nachher
pro Schritt passend geroutet
Routine-Aufgaben
Vorher
Frontier-Preis
Nachher
SLM-Preis
Harte Aufgaben
Vorher
gleiches Modell wie Routine
Nachher
gezielte Frontier-Eskalation
Anbieterwechsel
Vorher
Code-Umbau
Nachher
Konfiguration
Kostensicht
Vorher
Sammelrechnung am Monatsende
Nachher
Kosten pro Schritt live

Die Herausforderung

Die Branche verschiebt sich von „mehr Parameter" zu „Intelligenz pro Euro". Ein 7B-SLM ist grob 10–30× günstiger als ein 70–175B-Modell (NVIDIA, 2025) und reicht für die repetitiven Routine-Aufgaben, die Agenten zum Großteil ausmachen — klassifizieren, extrahieren, routen, formatieren. Gleichzeitig fällt der Preis für ein festes Fähigkeitsniveau dramatisch (LLMflation: grob 10×/Jahr).

Nur: Die meisten Mittelständler nutzen das nicht. Sie haben (a) ein Modell fest verdrahtet — Lock-in, kein Wechsel wenn Preise fallen, (b) keinen Eval, um zu wissen, ob ein kleineres Modell reicht, und (c) keine Sicht auf die Kosten pro Schritt. Ergebnis: Sie zahlen Frontier-Preise für SLM-Arbeit.

Ehrliche Grenze: Für harte, breite Aufgaben (offenes Reasoning) bleibt das große Modell überlegen — Inference-Compute substituiert Parameter nur teilweise. Das Routing muss diese Grenze respektieren, nicht ignorieren.

Unsere Lösung

Ein Gateway, das pro Aufgabe routet statt pauschal das Großmodell zu rufen — self-hosted, modell-agnostisch (OpenRouter/LiteLLM als Abstraktion über 400+ Modelle). Drei Bausteine:

1. Eval-getriebenes Routing. Pro Aufgabentyp gibt es einen kleinen, ehrlichen Test. Das Gateway nimmt das kleinste Modell, das diesen Test besteht — SLM für Routine, Frontier nur für den nachweislich harten Schritt. „Besteht meinen Test" statt „fühlt sich sicher an".

2. Frontier auf Abruf mit Eskalation. Unsichere oder schwierige Fälle eskalieren automatisch eine Stufe nach oben. So zahlst du den Spitzenpreis nur für die Fälle, die ihn brauchen.

3. Kosten- & Wechsel-Schicht. Ein Dashboard zeigt Kosten pro Schritt, Modell und Tag. Weil das Modell hinter einer Abstraktion liegt, ist der Anbieterwechsel Konfiguration, kein Umbau — du profitierst vom Preisverfall, statt ihm ausgeliefert zu sein.

Ehrliche Einordnung: Das Gateway ist keine Garantie für Qualität — es ist nur so gut wie deine Evals. Und „unsichtbar" heißt nicht „ohne Abhängigkeit": Ein Router, der dir nicht gehört, ist ein neuer Lock-in. Deshalb self-hosted und mit dokumentierten Evals.

Hauptmerkmale

Eval-getriebenes Routing

Pro Aufgabentyp ein kleiner, ehrlicher Test. Das Gateway nimmt das kleinste Modell, das ihn besteht — Entscheidung per Messung, nicht per Bauchgefühl.

Automatische Eskalation

Unsichere oder schwierige Fälle steigen Stufe für Stufe bis zur Frontier. Den Spitzenpreis zahlst du nur für die Aufgaben, die ihn wirklich brauchen.

Modell-Abstraktion

400+ Modelle hinter einer API (OpenRouter / LiteLLM). Der Anbieterwechsel ist Konfiguration statt Code-Umbau — du folgst dem Preisverfall, statt im Lock-in zu sitzen.

Kosten-Dashboard

Ausgaben pro Schritt, Modell und Tag — live. Keine Überraschung auf der Monatsrechnung, sondern eine Kostenkurve, die du steuern kannst.

Ergebnisse

Möglicher Aufbau, kein fertiges Produkt

Die dargestellten Zahlen sind Zielwerte und Erwartungswerte für einen möglichen Aufbau – basierend auf Branchen-Benchmarks, öffentlichen Studien zu vergleichbaren Setups und unseren eigenen Tests mit echtem Stack. Es handelt sich nicht um gemessene Ergebnisse aus einem konkreten Kundenprojekt; tatsächliche Werte hängen von Unternehmensgröße, Prozessreife und Integrationstiefe ab. Wir bieten diesen Aufbau nicht als fertiges Produkt an. Wir helfen Teams, Prozesse zu konzipieren, zu automatisieren und intern zu betreiben – über Architektur-Beratung, Workshops und Implementierungs-Unterstützung mit n8n. Für regulierte Drittsysteme mit Zertifizierungs- oder Lizenzanforderungen (z. B. KIS, gematik, DATEV-zertifiziert) ergänzen wir uns mit spezialisierten Partnern.

auf SLM
Routine-Schritte
nur harte Fälle
Frontier-Aufrufe
Konfiguration
Anbieterwechsel
sichtbar
Kosten pro Schritt

Aus „alles ans teure Großmodell" wird „pro Schritt das kleinste Modell, das den Test besteht, Frontier nur auf Abruf" — bei voller Kostensicht und 1-Klick-Anbietertausch. Demo-Werte, illustrativ.

Integrationen

Nahtlose Anbindung an Ihre bestehende Infrastruktur

n8n (self-hosted)

Orchestrierung

Zentrale Engine: Klassifikation, Routing-Regeln, Eskalation und Logging

OpenRouter / LiteLLM

Modell-Abstraktion

Eine API über 400+ Modelle; Anbieterwechsel per Konfiguration

SLM + Frontier-Modelle

Inferenz

Kleine Modelle für Routine, Frontier auf Abruf für harte Aufgaben

Eval-Suite

Qualitätskontrolle

Aufgabenspezifische Tests entscheiden, welches Modell durchgereicht wird

PostgreSQL

Kosten-/Eval-Log

Protokoll aller Aufrufe mit Modell, Kosten und Testergebnis

Grafana

Kosten-Dashboard

Ausgaben pro Schritt, Modell und Tag — live sichtbar

Sicherheit & Compliance

Enterprise-ready mit höchsten Sicherheitsstandards

Datensouveränität durch Self-Hosting

Gateway, Evals und Logs laufen self-hosted. Mit LiteLLM bleibt sogar die Modell-Abstraktion im eigenen Haus — kein Zwang, Prompts über einen fremden Router zu schicken.

Kein Lock-in by Design

Modelle und Anbieter liegen hinter einer Abstraktion und sind per Konfiguration austauschbar. Der teuerste Lock-in ist der, den man sich in den Code schreibt — den vermeidet dieses Setup bewusst.

Kosten- & Eval-Log auditierbar

Jeder Aufruf wird mit Modell, Kosten und Eval-Ergebnis protokolliert — nachvollziehbar, welches Modell welche Aufgabe mit welchem Resultat bearbeitet hat.

Kein Qualitätsversprechen ohne Evals

Das Routing ist nur so gut wie die hinterlegten Tests. Ehrlich gerahmt: Die Evals sind der Kern — ohne sie ist „kleineres Modell" ein Glücksspiel, mit ihnen eine Messung.

Technologie-Stack

n8n (self-hosted)OpenRouter / LiteLLMkleine + Frontier-ModelleEval-SuitePostgreSQL (Kosten-/Eval-Log)Grafana (Kosten-Dashboard)

Häufige Fragen

In der Demo qualitativ ja, weil Routine-Arbeit auf günstige Modelle wandert. Die echte Ersparnis hängt von deinem Aufgabenmix ab — deshalb messen wir sie mit deinen Evals, statt eine Zahl zu versprechen.
Nur wenn dein Eval schlecht ist. Das Routing nimmt ein kleineres Modell ausschließlich, wenn es den Test besteht — sonst eskaliert es zur Frontier. Die Qualität hängt am Test, nicht am Modellnamen.
Die Abstraktion ist selbst austauschbar (LiteLLM self-hosted als Alternative). Genau darum geht es: weder ein Modell noch ein Gateway als Lock-in. Self-hosted bleibt die Kontrolle bei dir.
Nein — eine Demo-Referenzarchitektur. Sie zeigt das Prinzip; Routing-Regeln und Evals werden auf deine Aufgaben zugeschnitten. Wir bieten Architektur, Workshops und Implementierung, kein Standardprodukt.

Lohnt sich diese Automatisierung in Ihrem Fall?

Sie haben gerade einen möglichen Aufbau gesehen. Die 5-Minuten-Engpassdiagnose zeigt Ihnen für Ihren eigenen Prozess: Reifegrad, ROI-Schätzung und ob sich der Weg lohnt – kostenlos, Ergebnis sofort.

In eigener Sache

Engpassdiagnose – als eigenständiges Tool

Schnell prüfen, wo in Ihren Abläufen Zeit und Geld verloren gehen: die Engpassdiagnose gibt es auch als eigenes Tool unter engpassdiagnose.de.

Zu engpassdiagnose.de