Möglicher AufbauHR & Abläufe

Model Router Gateway — pro Schritt das kleinste Modell, das den Test besteht

Ein modell-agnostisches Gateway, das jede Aufgabe an das günstigste Modell routet, das deinen Eval besteht — SLM für Routine, Frontier nur für den harten Schritt. Plus Kosten-Dashboard und 1-Klick-Anbietertausch. Demo-Referenzarchitektur.

Model RoutingSLMKostenkontrolleEval-getriebenmodell-agnostischn8n

Branche

Branchenübergreifend / KI-Betrieb

Umsetzung

3-5 Wochen

Modellwahl

kleinstes, das den Test besteht

Die meisten Automatisierungen schicken jeden Schritt an dasselbe teure Großmodell — auch das simple „ist das eine Rechnung? ja/nein". Das ist ein LKW für den Brötchenholdienst.

Diese Demo zeigt das Gegenteil: ein Gateway, das pro Schritt entscheidet, welches Modell reicht — und die Frontier nur dann ruft, wenn die Aufgabe sie wirklich braucht.

So routet das Gateway eine Aufgabe

Jede Aufgabe wird klassifiziert und durch das modell-agnostische Gateway geschickt. Ein Eval entscheidet: reicht ein günstiges SLM — oder eskaliert die Aufgabe zur Frontier? Kosten und Ergebnis landen im Log.

Aufgabe kommt rein

Schritt im Workflow

Klassifizieren & Eval

Typ · Schwierigkeit

Modell-Router

OpenRouter · LiteLLM

SLM reicht?

SLM ausführen

günstig · schnell

Frontier-Modell

Eskalation · harte Aufgabe

Kosten & Eval loggen

pro Schritt

Ergebnis + Kostensicht

zurück in den Workflow

BPMN-Elemente

Trigger

Start Event

Verarbeitung

Task

Integration

Service Task

Ausgabe

End Event

Gateway

XOR (Exklusiv)

Vorher vs. Nachher

Aspekt	Vorher	Nachher
Modellwahl	ein Großmodell für alles	pro Schritt passend geroutet
Routine-Aufgaben	Frontier-Preis	SLM-Preis
Harte Aufgaben	gleiches Modell wie Routine	gezielte Frontier-Eskalation
Anbieterwechsel	Code-Umbau	Konfiguration
Kostensicht	Sammelrechnung am Monatsende	Kosten pro Schritt live

Modellwahl

Vorher

ein Großmodell für alles

Nachher

pro Schritt passend geroutet

Routine-Aufgaben

Vorher

Frontier-Preis

Nachher

SLM-Preis

Harte Aufgaben

Vorher

gleiches Modell wie Routine

Nachher

gezielte Frontier-Eskalation

Anbieterwechsel

Vorher

Code-Umbau

Nachher

Konfiguration

Kostensicht

Vorher

Sammelrechnung am Monatsende

Nachher

Kosten pro Schritt live

Die Herausforderung

Die Branche verschiebt sich von „mehr Parameter" zu „Intelligenz pro Euro". Ein 7B-SLM ist grob 10–30× günstiger als ein 70–175B-Modell (NVIDIA, 2025) und reicht für die repetitiven Routine-Aufgaben, die Agenten zum Großteil ausmachen — klassifizieren, extrahieren, routen, formatieren. Gleichzeitig fällt der Preis für ein festes Fähigkeitsniveau dramatisch (LLMflation: grob 10×/Jahr).

Nur: Die meisten Mittelständler nutzen das nicht. Sie haben (a) ein Modell fest verdrahtet — Lock-in, kein Wechsel wenn Preise fallen, (b) keinen Eval, um zu wissen, ob ein kleineres Modell reicht, und (c) keine Sicht auf die Kosten pro Schritt. Ergebnis: Sie zahlen Frontier-Preise für SLM-Arbeit.

Ehrliche Grenze: Für harte, breite Aufgaben (offenes Reasoning) bleibt das große Modell überlegen — Inference-Compute substituiert Parameter nur teilweise. Das Routing muss diese Grenze respektieren, nicht ignorieren.

Unsere Lösung

Ein Gateway, das pro Aufgabe routet statt pauschal das Großmodell zu rufen — self-hosted, modell-agnostisch (OpenRouter/LiteLLM als Abstraktion über 400+ Modelle). Drei Bausteine:

1. Eval-getriebenes Routing. Pro Aufgabentyp gibt es einen kleinen, ehrlichen Test. Das Gateway nimmt das kleinste Modell, das diesen Test besteht — SLM für Routine, Frontier nur für den nachweislich harten Schritt. „Besteht meinen Test" statt „fühlt sich sicher an".

2. Frontier auf Abruf mit Eskalation. Unsichere oder schwierige Fälle eskalieren automatisch eine Stufe nach oben. So zahlst du den Spitzenpreis nur für die Fälle, die ihn brauchen.

3. Kosten- & Wechsel-Schicht. Ein Dashboard zeigt Kosten pro Schritt, Modell und Tag. Weil das Modell hinter einer Abstraktion liegt, ist der Anbieterwechsel Konfiguration, kein Umbau — du profitierst vom Preisverfall, statt ihm ausgeliefert zu sein.

Ehrliche Einordnung: Das Gateway ist keine Garantie für Qualität — es ist nur so gut wie deine Evals. Und „unsichtbar" heißt nicht „ohne Abhängigkeit": Ein Router, der dir nicht gehört, ist ein neuer Lock-in. Deshalb self-hosted und mit dokumentierten Evals.

Hauptmerkmale

Eval-getriebenes Routing

Pro Aufgabentyp ein kleiner, ehrlicher Test. Das Gateway nimmt das kleinste Modell, das ihn besteht — Entscheidung per Messung, nicht per Bauchgefühl.

Automatische Eskalation

Unsichere oder schwierige Fälle steigen Stufe für Stufe bis zur Frontier. Den Spitzenpreis zahlst du nur für die Aufgaben, die ihn wirklich brauchen.

Modell-Abstraktion

400+ Modelle hinter einer API (OpenRouter / LiteLLM). Der Anbieterwechsel ist Konfiguration statt Code-Umbau — du folgst dem Preisverfall, statt im Lock-in zu sitzen.

Kosten-Dashboard

Ausgaben pro Schritt, Modell und Tag — live. Keine Überraschung auf der Monatsrechnung, sondern eine Kostenkurve, die du steuern kannst.

Ergebnisse

Möglicher Aufbau, kein fertiges Produkt

Die dargestellten Zahlen sind Zielwerte und Erwartungswerte für einen möglichen Aufbau – basierend auf Branchen-Benchmarks, öffentlichen Studien zu vergleichbaren Setups und unseren eigenen Tests mit echtem Stack. Es handelt sich nicht um gemessene Ergebnisse aus einem konkreten Kundenprojekt; tatsächliche Werte hängen von Unternehmensgröße, Prozessreife und Integrationstiefe ab. Wir bieten diesen Aufbau nicht als fertiges Produkt an. Wir helfen Teams, Prozesse zu konzipieren, zu automatisieren und intern zu betreiben – über Architektur-Beratung, Workshops und Implementierungs-Unterstützung mit n8n. Für regulierte Drittsysteme mit Zertifizierungs- oder Lizenzanforderungen (z. B. KIS, gematik, DATEV-zertifiziert) ergänzen wir uns mit spezialisierten Partnern.

auf SLM

Routine-Schritte

nur harte Fälle

Frontier-Aufrufe

Konfiguration

Anbieterwechsel

sichtbar

Kosten pro Schritt

Aus „alles ans teure Großmodell" wird „pro Schritt das kleinste Modell, das den Test besteht, Frontier nur auf Abruf" — bei voller Kostensicht und 1-Klick-Anbietertausch. Demo-Werte, illustrativ.

Integrationen

Nahtlose Anbindung an Ihre bestehende Infrastruktur

n8n (self-hosted)

Orchestrierung

Zentrale Engine: Klassifikation, Routing-Regeln, Eskalation und Logging

OpenRouter / LiteLLM

Modell-Abstraktion

Eine API über 400+ Modelle; Anbieterwechsel per Konfiguration

SLM + Frontier-Modelle

Inferenz

Kleine Modelle für Routine, Frontier auf Abruf für harte Aufgaben

Eval-Suite

Qualitätskontrolle

Aufgabenspezifische Tests entscheiden, welches Modell durchgereicht wird

PostgreSQL

Kosten-/Eval-Log

Protokoll aller Aufrufe mit Modell, Kosten und Testergebnis

Grafana

Kosten-Dashboard

Ausgaben pro Schritt, Modell und Tag — live sichtbar

Sicherheit & Compliance

Enterprise-ready mit höchsten Sicherheitsstandards

Datensouveränität durch Self-Hosting

Gateway, Evals und Logs laufen self-hosted. Mit LiteLLM bleibt sogar die Modell-Abstraktion im eigenen Haus — kein Zwang, Prompts über einen fremden Router zu schicken.

Kein Lock-in by Design

Modelle und Anbieter liegen hinter einer Abstraktion und sind per Konfiguration austauschbar. Der teuerste Lock-in ist der, den man sich in den Code schreibt — den vermeidet dieses Setup bewusst.

Kosten- & Eval-Log auditierbar

Jeder Aufruf wird mit Modell, Kosten und Eval-Ergebnis protokolliert — nachvollziehbar, welches Modell welche Aufgabe mit welchem Resultat bearbeitet hat.

Kein Qualitätsversprechen ohne Evals

Das Routing ist nur so gut wie die hinterlegten Tests. Ehrlich gerahmt: Die Evals sind der Kern — ohne sie ist „kleineres Modell" ein Glücksspiel, mit ihnen eine Messung.

Technologie-Stack

n8n (self-hosted)OpenRouter / LiteLLMkleine + Frontier-ModelleEval-SuitePostgreSQL (Kosten-/Eval-Log)Grafana (Kosten-Dashboard)

Häufige Fragen

In der Demo qualitativ ja, weil Routine-Arbeit auf günstige Modelle wandert. Die echte Ersparnis hängt von deinem Aufgabenmix ab — deshalb messen wir sie mit deinen Evals, statt eine Zahl zu versprechen.

Nur wenn dein Eval schlecht ist. Das Routing nimmt ein kleineres Modell ausschließlich, wenn es den Test besteht — sonst eskaliert es zur Frontier. Die Qualität hängt am Test, nicht am Modellnamen.

Die Abstraktion ist selbst austauschbar (LiteLLM self-hosted als Alternative). Genau darum geht es: weder ein Modell noch ein Gateway als Lock-in. Self-hosted bleibt die Kontrolle bei dir.

Nein — eine Demo-Referenzarchitektur. Sie zeigt das Prinzip; Routing-Regeln und Evals werden auf deine Aufgaben zugeschnitten. Wir bieten Architektur, Workshops und Implementierung, kein Standardprodukt.

Model Router Gateway — pro Schritt das kleinste Modell, das den Test besteht

So routet das Gateway eine Aufgabe

Vorher vs. Nachher

Die Herausforderung

Unsere Lösung

Hauptmerkmale

Eval-getriebenes Routing

Automatische Eskalation

Modell-Abstraktion

Kosten-Dashboard

Ergebnisse

Möglicher Aufbau, kein fertiges Produkt

Integrationen

n8n (self-hosted)

OpenRouter / LiteLLM

SLM + Frontier-Modelle

Eval-Suite

PostgreSQL

Grafana

Sicherheit & Compliance

Datensouveränität durch Self-Hosting

Kein Lock-in by Design

Kosten- & Eval-Log auditierbar

Kein Qualitätsversprechen ohne Evals

Technologie-Stack

Häufige Fragen

Ähnliche Showcases

Agent Permission Gateway — KI-Agenten mit Least-Privilege absichern

EU AI Act Compliance Cockpit – Pflichten automatisiert nachweisen

Lohnt sich diese Automatisierung in Ihrem Fall?