Zum Hauptinhalt springen
Möglicher AufbauKI & Wissen

Interne Wissens-KI: DSGVO-konformer RAG-Assistent (On-Premise)

Interne Wissens-KI aufbauen ohne Datenabfluss — ein RAG-Chatbot beantwortet Team-Fragen aus Confluence, Jira und Git-Repos, komplett On-Premise, mit Quellenangaben und Berechtigungsprüfung statt Halluzinationen.

AIRAGOn-PremiseDSGVOKnowledge ManagementLLMEntwicklerteams
Branche
Engineering / Wissensmanagement
Umsetzung
8 weeks
Suchzeit pro Frage
<30 Sek

„Frag mal Markus, der weiß das." — Markus ist im Urlaub. Oder seit drei Monaten nicht mehr im Unternehmen.

Das Wissen ist ja da: in Confluence-Seiten, Jira-Tickets, README-Dateien, alten Architektur-Entscheidungen. Nur findet es niemand. Also wird dieselbe Frage zum vierten Mal im Team-Chat gestellt, der Senior-Entwickler unterbricht zum vierten Mal seine Arbeit — und die Doku, die es beantwortet hätte, bleibt ungelesen.

Die naheliegende Abkürzung — interne Doku in ein öffentliches KI-Tool kopieren — ist für viele Unternehmen keine Option. Quellcode, Kundendaten, Betriebsgeheimnisse in einer fremden Cloud? Eben.

Dieser Showcase zeigt den anderen Weg: eine Wissens-KI, die im eigenen Netz läuft, nur antwortet, was sie belegen kann, und nur zeigt, was der Fragende sehen darf.

Automatisierungs-Workflow

So beantwortet die interne Wissens-KI eine Frage — Schritt für Schritt, mit Berechtigungsprüfung und Quellenpflicht

BPMN-Elemente
Trigger
Start Event
Verarbeitung
Task
Integration
Service Task
Ausgabe
End Event
Gateway
XOR (Exklusiv)

Vorher vs. Nachher

Wissenssuche
Vorher
20–30 Min über Confluence, Jira, Chats
Nachher
Eine Frage, Antwort in Sekunden
Datenfluss
Vorher
Copy-Paste in externe KI-Tools
Nachher
100% On-Premise, nichts verlässt das Netz
Verlässlichkeit
Vorher
Veraltete Doku, Hörensagen
Nachher
Jede Antwort mit Quellenlink und Stand
Zugriffsschutz
Vorher
Wissen per Zuruf, unkontrolliert
Nachher
Antworten respektieren Berechtigungen

Die Herausforderung

Entwicklungs- und Engineering-Teams verlieren täglich Zeit mit Wissenssuche: Die Antwort existiert irgendwo in Confluence, Jira, GitLab oder auf Netzlaufwerken — aber die Suche dauert 20 bis 30 Minuten oder endet beim erfahrensten Kollegen, der dadurch selbst nicht mehr zum Arbeiten kommt. Bei neuen Mitarbeitenden zieht sich die Einarbeitung über Monate, weil Wissen nur über Zuruf weitergegeben wird.

Gleichzeitig verbieten Datenschutz und IP-Schutz die einfache Lösung: Interne Dokumentation, Quellcode oder Kundendaten dürfen nicht in öffentliche KI-Dienste kopiert werden. Gerade in regulierten oder sicherheitskritischen Umfeldern kommt hinzu: Nicht jeder darf alles sehen. Ein Wissens-Chatbot, der Berechtigungen ignoriert, wäre ein größeres Risiko als gar keiner. Und ein Chatbot, der bei Wissenslücken überzeugend klingende Antworten erfindet, untergräbt das Vertrauen schneller, als er Nutzen stiftet.

Unsere Lösung

Die Referenzarchitektur besteht aus zwei Teilen: einer Indexierungs-Pipeline und einem Antwort-Workflow — beides läuft vollständig auf eigener Infrastruktur.

Die Indexierungs-Pipeline synchronisiert nachts per n8n die Wissensquellen: Confluence-Seiten, Jira-Tickets, GitLab-READMEs und Architektur-Dokumente. Vor der Einbettung in die Vektor-Datenbank (Qdrant) läuft jedes Dokument durch einen Redaktionsfilter, der API-Keys, Tokens, Zugangsdaten und personenbezogene Daten erkennt und entfernt. Zu jedem Textabschnitt werden die Original-Berechtigungen (ACLs) des Quellsystems mitgespeichert.

Im Antwort-Workflow stellt ein Mitarbeiter seine Frage per Web-Oberfläche oder Slack. Nach SSO-Anmeldung sucht das System die relevantesten Textabschnitte — gefiltert auf Quellen, die der Fragende auch im Quellsystem sehen dürfte. Ein lokal betriebenes LLM (z. B. Llama über Ollama, per Docker auf eigener GPU-Hardware) formuliert daraus die Antwort — mit einer harten Regel: Jede Aussage braucht eine Quellenangabe mit Link und Stand. Findet die Suche keine belastbare Quelle, antwortet das System ehrlich „dazu habe ich keine dokumentierte Antwort" und nennt den zuständigen Ansprechpartner, statt zu halluzinieren. Jede Frage und Antwort landet in einem Audit-Log mit definierten Löschfristen.

Hauptmerkmale

100% On-Premise LLM

Das Sprachmodell läuft per Ollama und Docker auf eigener Hardware. Keine API-Calls nach außen, keine Trainingsnutzung Ihrer Daten, volle Kontrolle über Modell und Updates.

Berechtigungsbewusste Suche (RAG)

Die Vektor-Suche filtert auf Dokumente, die der Fragende im Quellsystem sehen darf. Berechtigungen aus Confluence, Jira und GitLab werden beim Abruf durchgesetzt — nicht nachträglich.

Quellenpflicht statt Halluzination

Jede Antwort verlinkt die zugrunde liegenden Dokumente mit Stand. Ohne belastbare Quelle antwortet das System ehrlich mit „weiß ich nicht" und nennt den fachlichen Ansprechpartner.

Secrets- & PII-Redaktion

Vor der Indexierung erkennt und entfernt ein Filter API-Keys, Tokens, Zugangsdaten und personenbezogene Daten — sensible Inhalte landen gar nicht erst im Suchindex.

Ergebnisse

Möglicher Aufbau, kein fertiges Produkt

Die dargestellten Zahlen sind Zielwerte und Erwartungswerte für einen möglichen Aufbau – basierend auf Branchen-Benchmarks, öffentlichen Studien zu vergleichbaren Setups und unseren eigenen Tests mit echtem Stack. Es handelt sich nicht um gemessene Ergebnisse aus einem konkreten Kundenprojekt; tatsächliche Werte hängen von Unternehmensgröße, Prozessreife und Integrationstiefe ab. Wir bieten diesen Aufbau nicht als fertiges Produkt an. Wir helfen Teams, Prozesse zu konzipieren, zu automatisieren und intern zu betreiben – über Architektur-Beratung, Workshops und Implementierungs-Unterstützung mit n8n. Für regulierte Drittsysteme mit Zertifizierungs- oder Lizenzanforderungen (z. B. KIS, gematik, DATEV-zertifiziert) ergänzen wir uns mit spezialisierten Partnern.

<30 Sek
Suchzeit pro Frage
100%
Antworten mit Quellenbeleg
0
Daten an externe Clouds
-40%
Einarbeitungszeit

Wissensfragen in Sekunden statt halbstündiger Suche — vollständig On-Premise, jede Antwort mit Quellenbeleg, kein Datenabfluss in externe Clouds

Integrationen

Nahtlose Anbindung an Ihre bestehende Infrastruktur

Ollama (On-Premise LLM)

KI-Engine

Lokal betriebenes offenes Sprachmodell auf eigener GPU-Hardware — Antwortgenerierung ohne externe API

Qdrant

Vektor-Datenbank

Semantische Suche über alle indexierten Wissensquellen mit ACL-Filterung pro Anfrage

Confluence & Jira

Wissensquellen

Nächtliche Synchronisation von Seiten und Tickets inklusive Original-Berechtigungen

GitLab

Code & Doku

READMEs, Architektur-Entscheidungen und Wikis aus den Repositories — mit Secrets-Filter

Keycloak

SSO & Berechtigungen

Single Sign-On und Gruppenauflösung — bestimmt, welche Quellen pro Nutzer durchsucht werden

Sicherheit & Compliance

Enterprise-ready mit höchsten Sicherheitsstandards

100% On-Premise

LLM, Vektor-Datenbank und Workflows laufen vollständig auf eigener Infrastruktur. Keine externen KI-APIs, einsetzbar auch in abgeschotteten Netzen.

Berechtigungs-Vererbung

Zugriffsrechte aus Confluence, Jira und GitLab werden bei jeder Suche durchgesetzt. Niemand bekommt Antworten aus Dokumenten, die er nicht öffnen dürfte.

Secrets-Redaktion

API-Keys, Tokens und Zugangsdaten werden vor der Indexierung erkannt und entfernt — sie erreichen den Suchindex gar nicht erst.

Audit-Log & DSGVO

Jede Frage und Antwort wird revisionssicher protokolliert, mit definierten Löschfristen und Auskunftsfähigkeit nach DSGVO.

Technologie-Stack

n8nOllama (On-Premise LLM)Qdrant Vector DBConfluence APIJira APIGitLabKeycloak SSODocker

Häufige Fragen

Nein. Das Sprachmodell läuft per Ollama auf eigener Hardware, die Vektor-Datenbank und alle Workflows ebenfalls. Es gibt keine API-Aufrufe an externe KI-Dienste — weder beim Indexieren noch beim Beantworten. Die Architektur funktioniert auch in Netzen ohne Internetzugang.
Durch drei Mechanismen: Das LLM darf nur aus den gefundenen Dokumenten-Abschnitten antworten (Retrieval-Augmented Generation), jede Aussage braucht eine Quellenangabe mit Link, und wenn die Suche keine belastbare Quelle liefert, antwortet das System ehrlich mit „weiß ich nicht" statt zu raten. Die Antwortqualität wird zusätzlich über Stichproben-Reviews und Nutzer-Feedback überwacht.
Vor der Indexierung läuft jedes Dokument durch eine Redaktionspipeline, die API-Keys, Tokens, Zugangsdaten und personenbezogene Daten per Muster- und KI-Erkennung identifiziert und entfernt. Sensible Inhalte landen so gar nicht erst im Suchindex — das ist robuster, als sie erst bei der Ausgabe zu filtern.
In dieser Referenzarchitektur: Confluence, Jira und GitLab. Grundsätzlich jede Quelle mit API oder Dateizugriff — SharePoint, Netzlaufwerke, interne Datenbanken oder Anforderungsmanagement-Systeme. Die Indexierungs-Pipeline in n8n ist modular aufgebaut, neue Quellen werden als zusätzlicher Sync-Zweig ergänzt.
Weniger als oft angenommen. Für Teams bis etwa 200 Nutzer reicht in der Regel ein einzelner Server mit einer aktuellen GPU, da Anfragen kurz sind und sich gut in Warteschlangen verwalten lassen. Die Modellgröße wird auf die Hardware abgestimmt — für Wissensfragen mit Quellenkontext liefern auch mittelgroße offene Modelle sehr gute Ergebnisse.

Lohnt sich diese Automatisierung in Ihrem Fall?

Sie haben gerade einen möglichen Aufbau gesehen. Die 5-Minuten-Engpassdiagnose zeigt Ihnen für Ihren eigenen Prozess: Reifegrad, ROI-Schätzung und ob sich der Weg lohnt – kostenlos, Ergebnis sofort.

In eigener Sache

Engpassdiagnose – als eigenständiges Tool

Schnell prüfen, wo in Ihren Abläufen Zeit und Geld verloren gehen: die Engpassdiagnose gibt es auch als eigenes Tool unter engpassdiagnose.de.

Zu engpassdiagnose.de