Möglicher AufbauKI & Wissen

Interne Wissens-KI: DSGVO-konformer RAG-Assistent (On-Premise)

Interne Wissens-KI aufbauen ohne Datenabfluss — ein RAG-Chatbot beantwortet Team-Fragen aus Confluence, Jira und Git-Repos, komplett On-Premise, mit Quellenangaben und Berechtigungsprüfung statt Halluzinationen.

Suchzeit pro Frage: <30 Sek
Branche: Engineering / Wissensmanagement
Umsetzung: 8 Wochen

Auf einen Blick

Es beginnt mit: Mitarbeiter-Frage
Die Maschine übernimmt: 9 von 9 Schritten
Beim Menschen bleibt: Nichts — der Ablauf läuft durch
Unterm Strich: <30 SekSuchzeit pro Frage

Das Problem

„Frag mal Markus, der weiß das." — Markus ist im Urlaub. Oder seit drei Monaten nicht mehr im Unternehmen.

Das Wissen ist ja da: in Confluence-Seiten, Jira-Tickets, README-Dateien, alten Architektur-Entscheidungen. Nur findet es niemand. Also wird dieselbe Frage zum vierten Mal im Team-Chat gestellt, der Senior-Entwickler unterbricht zum vierten Mal seine Arbeit — und die Doku, die es beantwortet hätte, bleibt ungelesen.

Die naheliegende Abkürzung — interne Doku in ein öffentliches KI-Tool kopieren — ist für viele Unternehmen keine Option. Quellcode, Kundendaten, Betriebsgeheimnisse in einer fremden Cloud? Eben.

Dieser Showcase zeigt den anderen Weg: eine Wissens-KI, die im eigenen Netz läuft, nur antwortet, was sie belegen kann, und nur zeigt, was der Fragende sehen darf.

Entwicklungs- und Engineering-Teams verlieren täglich Zeit mit Wissenssuche: Die Antwort existiert irgendwo in Confluence, Jira, GitLab oder auf Netzlaufwerken — aber die Suche dauert 20 bis 30 Minuten oder endet beim erfahrensten Kollegen, der dadurch selbst nicht mehr zum Arbeiten kommt. Bei neuen Mitarbeitenden zieht sich die Einarbeitung über Monate, weil Wissen nur über Zuruf weitergegeben wird.

Gleichzeitig verbieten Datenschutz und IP-Schutz die einfache Lösung: Interne Dokumentation, Quellcode oder Kundendaten dürfen nicht in öffentliche KI-Dienste kopiert werden. Gerade in regulierten oder sicherheitskritischen Umfeldern kommt hinzu: Nicht jeder darf alles sehen. Ein Wissens-Chatbot, der Berechtigungen ignoriert, wäre ein größeres Risiko als gar keiner. Und ein Chatbot, der bei Wissenslücken überzeugend klingende Antworten erfindet, untergräbt das Vertrauen schneller, als er Nutzen stiftet.

So läuft der Prozess — Schritt für Schritt

Scrollen Sie durch. Das Diagramm bleibt stehen und markiert den Schritt, bei dem Sie gerade sind.

Der Ablauf01 / 09

Mitarbeiter-Frage

Slack / Web-UI

SSO & Berechtigungen

Keycloak

Vektor-Suche

Qdrant, ACL-gefiltert

Quellen gefunden?

On-Prem LLM

Antwort generieren

Ehrliche Lücke

Ansprechpartner nennen

Antwort + Quellen

Links & Stand

Audit-Log

DSGVO-Löschfristen

Abgeschlossen

Feedback erfasst

01
Mitarbeiter-Frage
Slack / Web-UI
Ein Mitarbeiter stellt eine Frage — direkt im Slack-Channel oder über die interne Web-Oberfläche. Zum Beispiel: „Wie deployen wir den Service X auf die Staging-Umgebung?"
02
SSO & Berechtigungen
Keycloak
Das System prüft über das Single Sign-On (Keycloak), wer fragt — und lädt dessen Gruppen und Berechtigungen. Diese bestimmen, welche Wissensquellen für die Antwort überhaupt infrage kommen.
03
Vektor-Suche
Qdrant, ACL-gefiltert
Die Frage wird in einen Vektor umgewandelt und gegen die Qdrant-Datenbank gesucht. Entscheidend: Die Suche ist hart auf Dokumente gefiltert, die der Fragende im Quellsystem sehen dürfte.
04Verzweigung
Quellen gefunden?
Das System entscheidet: Gibt es ausreichend relevante, belastbare Textabschnitte für eine fundierte Antwort — oder nicht?
05
On-Prem LLM
Antwort generieren
Das lokal betriebene LLM (Ollama auf eigener GPU-Hardware) formuliert die Antwort ausschließlich aus den gefundenen Abschnitten. Es darf nichts hinzuerfinden — jede Aussage muss sich auf eine Quelle stützen.
06
Ehrliche Lücke
Ansprechpartner nennen
Keine belastbare Quelle? Dann erfindet das System nichts, sondern antwortet ehrlich: „Dazu habe ich keine dokumentierte Antwort" — und nennt den fachlich zuständigen Ansprechpartner.
07
Antwort + Quellen
Links & Stand
Die Antwort wird mit Quellenangaben ausgeliefert: Links zu den Confluence-Seiten, Jira-Tickets oder READMEs inklusive Datum des letzten Stands. Jede Aussage ist nachprüfbar.
08
Audit-Log
DSGVO-Löschfristen
Frage, Antwort und genutzte Quellen werden im Audit-Log dokumentiert — mit definierten Löschfristen nach DSGVO. So bleibt nachvollziehbar, wer wann welches Wissen abgerufen hat.
09
Abgeschlossen
Feedback erfasst
Der Mitarbeiter bewertet die Antwort mit einem Klick. Das Feedback fließt in die Verbesserung der Suche und deckt Dokumentationslücken systematisch auf.

Unsere Lösung

Die Referenzarchitektur besteht aus zwei Teilen: einer Indexierungs-Pipeline und einem Antwort-Workflow — beides läuft vollständig auf eigener Infrastruktur.

Die Indexierungs-Pipeline synchronisiert nachts per n8n die Wissensquellen: Confluence-Seiten, Jira-Tickets, GitLab-READMEs und Architektur-Dokumente. Vor der Einbettung in die Vektor-Datenbank (Qdrant) läuft jedes Dokument durch einen Redaktionsfilter, der API-Keys, Tokens, Zugangsdaten und personenbezogene Daten erkennt und entfernt. Zu jedem Textabschnitt werden die Original-Berechtigungen (ACLs) des Quellsystems mitgespeichert.

Im Antwort-Workflow stellt ein Mitarbeiter seine Frage per Web-Oberfläche oder Slack. Nach SSO-Anmeldung sucht das System die relevantesten Textabschnitte — gefiltert auf Quellen, die der Fragende auch im Quellsystem sehen dürfte. Ein lokal betriebenes LLM (z. B. Llama über Ollama, per Docker auf eigener GPU-Hardware) formuliert daraus die Antwort — mit einer harten Regel: Jede Aussage braucht eine Quellenangabe mit Link und Stand. Findet die Suche keine belastbare Quelle, antwortet das System ehrlich „dazu habe ich keine dokumentierte Antwort" und nennt den zuständigen Ansprechpartner, statt zu halluzinieren. Jede Frage und Antwort landet in einem Audit-Log mit definierten Löschfristen.

100% On-Premise LLM: Das Sprachmodell läuft per Ollama und Docker auf eigener Hardware. Keine API-Calls nach außen, keine Trainingsnutzung Ihrer Daten, volle Kontrolle über Modell und Updates.
Berechtigungsbewusste Suche (RAG): Die Vektor-Suche filtert auf Dokumente, die der Fragende im Quellsystem sehen darf. Berechtigungen aus Confluence, Jira und GitLab werden beim Abruf durchgesetzt — nicht nachträglich.
Quellenpflicht statt Halluzination: Jede Antwort verlinkt die zugrunde liegenden Dokumente mit Stand. Ohne belastbare Quelle antwortet das System ehrlich mit „weiß ich nicht" und nennt den fachlichen Ansprechpartner.
Secrets- & PII-Redaktion: Vor der Indexierung erkennt und entfernt ein Filter API-Keys, Tokens, Zugangsdaten und personenbezogene Daten — sensible Inhalte landen gar nicht erst im Suchindex.

Was dabei herauskommt

Möglicher Aufbau, kein fertiges Produkt

Die dargestellten Zahlen sind Zielwerte und Erwartungswerte für einen möglichen Aufbau – basierend auf Branchen-Benchmarks, öffentlichen Studien zu vergleichbaren Setups und unseren eigenen Tests mit echtem Stack. Es handelt sich nicht um gemessene Ergebnisse aus einem konkreten Kundenprojekt; tatsächliche Werte hängen von Unternehmensgröße, Prozessreife und Integrationstiefe ab. Wir bieten diesen Aufbau nicht als fertiges Produkt an. Wir helfen Teams, Prozesse zu konzipieren, zu automatisieren und intern zu betreiben – über Architektur-Beratung, Workshops und Implementierungs-Unterstützung mit n8n. Für regulierte Drittsysteme mit Zertifizierungs- oder Lizenzanforderungen (z. B. KIS, gematik, DATEV-zertifiziert) ergänzen wir uns mit spezialisierten Partnern.

<30 Sek
Suchzeit pro Frage: 100%
Antworten mit Quellenbeleg: 0
Daten an externe Clouds: -40%
Einarbeitungszeit

Wissensfragen in Sekunden statt halbstündiger Suche — vollständig On-Premise, jede Antwort mit Quellenbeleg, kein Datenabfluss in externe Clouds

Vorher vs. Nachher

Aspekt	Vorher	Nachher
Wissenssuche	20–30 Min über Confluence, Jira, Chats	Eine Frage, Antwort in Sekunden
Datenfluss	Copy-Paste in externe KI-Tools	100% On-Premise, nichts verlässt das Netz
Verlässlichkeit	Veraltete Doku, Hörensagen	Jede Antwort mit Quellenlink und Stand
Zugriffsschutz	Wissen per Zuruf, unkontrolliert	Antworten respektieren Berechtigungen

Wissenssuche

Vorher

20–30 Min über Confluence, Jira, Chats

Nachher

Eine Frage, Antwort in Sekunden

Datenfluss

Vorher

Copy-Paste in externe KI-Tools

Nachher

100% On-Premise, nichts verlässt das Netz

Verlässlichkeit

Vorher

Veraltete Doku, Hörensagen

Nachher

Jede Antwort mit Quellenlink und Stand

Zugriffsschutz

Vorher

Wissen per Zuruf, unkontrolliert

Nachher

Antworten respektieren Berechtigungen

Technische Eckdaten

Technologie-Stack

n8nOllama (On-Premise LLM)Qdrant Vector DBConfluence APIJira APIGitLabKeycloak SSODocker

Integrationen

Nahtlose Anbindung an Ihre bestehende Infrastruktur

Ollama (On-Premise LLM)KI-Engine: Lokal betriebenes offenes Sprachmodell auf eigener GPU-Hardware — Antwortgenerierung ohne externe API
QdrantVektor-Datenbank: Semantische Suche über alle indexierten Wissensquellen mit ACL-Filterung pro Anfrage
Confluence & JiraWissensquellen: Nächtliche Synchronisation von Seiten und Tickets inklusive Original-Berechtigungen
GitLabCode & Doku: READMEs, Architektur-Entscheidungen und Wikis aus den Repositories — mit Secrets-Filter
KeycloakSSO & Berechtigungen: Single Sign-On und Gruppenauflösung — bestimmt, welche Quellen pro Nutzer durchsucht werden

Sicherheit & Compliance

Enterprise-ready mit höchsten Sicherheitsstandards

100% On-Premise: LLM, Vektor-Datenbank und Workflows laufen vollständig auf eigener Infrastruktur. Keine externen KI-APIs, einsetzbar auch in abgeschotteten Netzen.
Berechtigungs-Vererbung: Zugriffsrechte aus Confluence, Jira und GitLab werden bei jeder Suche durchgesetzt. Niemand bekommt Antworten aus Dokumenten, die er nicht öffnen dürfte.
Secrets-Redaktion: API-Keys, Tokens und Zugangsdaten werden vor der Indexierung erkannt und entfernt — sie erreichen den Suchindex gar nicht erst.
Audit-Log & DSGVO: Jede Frage und Antwort wird revisionssicher protokolliert, mit definierten Löschfristen und Auskunftsfähigkeit nach DSGVO.

Häufige Fragen

Nein. Das Sprachmodell läuft per Ollama auf eigener Hardware, die Vektor-Datenbank und alle Workflows ebenfalls. Es gibt keine API-Aufrufe an externe KI-Dienste — weder beim Indexieren noch beim Beantworten. Die Architektur funktioniert auch in Netzen ohne Internetzugang.

Durch drei Mechanismen: Das LLM darf nur aus den gefundenen Dokumenten-Abschnitten antworten (Retrieval-Augmented Generation), jede Aussage braucht eine Quellenangabe mit Link, und wenn die Suche keine belastbare Quelle liefert, antwortet das System ehrlich mit „weiß ich nicht" statt zu raten. Die Antwortqualität wird zusätzlich über Stichproben-Reviews und Nutzer-Feedback überwacht.

Vor der Indexierung läuft jedes Dokument durch eine Redaktionspipeline, die API-Keys, Tokens, Zugangsdaten und personenbezogene Daten per Muster- und KI-Erkennung identifiziert und entfernt. Sensible Inhalte landen so gar nicht erst im Suchindex — das ist robuster, als sie erst bei der Ausgabe zu filtern.

In dieser Referenzarchitektur: Confluence, Jira und GitLab. Grundsätzlich jede Quelle mit API oder Dateizugriff — SharePoint, Netzlaufwerke, interne Datenbanken oder Anforderungsmanagement-Systeme. Die Indexierungs-Pipeline in n8n ist modular aufgebaut, neue Quellen werden als zusätzlicher Sync-Zweig ergänzt.

Weniger als oft angenommen. Für Teams bis etwa 200 Nutzer reicht in der Regel ein einzelner Server mit einer aktuellen GPU, da Anfragen kurz sind und sich gut in Warteschlangen verwalten lassen. Die Modellgröße wird auf die Hardware abgestimmt — für Wissensfragen mit Quellenkontext liefern auch mittelgroße offene Modelle sehr gute Ergebnisse.

Ähnlich gelagert bei Ihnen?

Wenn dieser Ablauf Ihrem ähnelt, schauen wir ihn uns gemeinsam an — und sagen ehrlich, ob sich Automatisierung dafür lohnt.

Termin buchen Erst die Engpassdiagnose

Interne Wissens-KI: DSGVO-konformer RAG-Assistent (On-Premise)

Auf einen Blick

Das Problem

So läuft der Prozess — Schritt für Schritt

Mitarbeiter-Frage

SSO & Berechtigungen

Vektor-Suche

Quellen gefunden?

On-Prem LLM

Ehrliche Lücke

Antwort + Quellen

Audit-Log

Abgeschlossen

Unsere Lösung

Was dabei herauskommt

Vorher vs. Nachher

Technische Eckdaten

Technologie-Stack

Integrationen

Sicherheit & Compliance

Häufige Fragen

Ähnlich gelagert bei Ihnen?

Ähnliche Showcases

KI-Chatbot für automatisierte Kundenkommunikation

Digitale Dokumenten-Freigabe