Retrieval Augmented Generation
Retrieval-Augmented Generation (RAG) bezeichnet eine Methode in der KI, bei der ein generatives Sprachmodell (Large Language Model, kurz: LLM) mit externem Wissen verknüpft wird. Das bedeutet, dass zusätzlich zu seinem trainierten internen Wissen das Modell bei Bedarf Informationen aus einer angebundenen Wissensdatenbank oder Dokumentensammlung abrufen kann. Im Gegensatz zu herkömmlichen KI-Systemen, die ausschließlich auf ihrem voreingestellten Trainingswissen basieren, nutzt ein RAG-System gewissermaßen ein externes Gedächtnis, um in Echtzeit weitere Informationen „nachzuschlagen“. Ein RAG-System besteht im Wesentlichen aus zwei Komponenten: dem Retriever und dem Generator.
Retriever
In einem RAG-System beginnt der Prozess immer mit der Eingabe des Benutzers (sog. Prompt). Diese Eingabe kann zum Beispiel eine Frage, eine Anweisung oder ein konkretes Problem sein, etwa: „Wie lange gilt die Garantie für Produkt X?“ An dieser Stelle kommt der Retriever ins Spiel. Er sucht nicht im Internet, sondern in einer zuvor definierten Wissensbasis. Darunter fallen beispielsweise Dokumente, Datenbanken oder Textsammlungen, die dem System zur Verfügung stehen. Mithilfe sog. Embeddings wird der Prompt in einen Zahlenvektor umgewandelt, der die Bedeutung der Anfrage abbildet. Dasselbe wurde zuvor bereits mit allen Textabschnitten aus den gespeicherten Quellen gemacht. Der Retriever vergleicht nun den Vektor der Benutzereingabe mit den Vektoren in der Wissensdatenbank und findet so die Textpassagen, die dem Anliegen inhaltlich am ähnlichsten sind. So kann das System beispielsweise erkennen, dass eine Frage zur „Batterielaufzeit“ inhaltlich auch mit Textstellen zur „Akkulaufzeit“ oder „Energieeffizienz“ zusammenhängt.
(Orientierungshilfe zu datenschutzrechtlichen Besonderheiten generativer KI-Systeme mit RAG-Methode, S.5; DSK_OH_RAG.pdf )
Generator
Nachdem der Retriever die passenden Informationen gefunden und an das System übergeben hat, übernimmt der Generator die nächste Aufgabe. Er ist das „Sprachorgan“ des RAG-Systems. Der Generator erhält sowohl den ursprünglichen Prompt als auch die vom Retriever gefundenen Textpassagen und verarbeitet beides gemeinsam. Dabei hat er nur Kenntnis von den Daten, die ihm tatsächlich übergeben werden. Anschließend nutzt er diese Informationen, um eine passende Ausgabe (sog. Inferenz) zu erzeugen. Für eine vollständige und sinnvolle Inferenz greift der Generator nicht nur auf die gelieferten Zusatzinformationen zurück, sondern kombiniert sie mit seinem vortrainierten Sprachverständnis und seiner Fähigkeit, Inhalte logisch und sprachlich korrekt zu verknüpfen. Beispielsweise kann ein Generator aus den vom Retriever gelieferten Dokumenten eine Antwort wie diese bilden: „Die Garantie für Produkt X beträgt 24 Monate. Sie können sie in Anspruch nehmen, indem Sie sich mit Ihrer Kaufbestätigung an unseren Kundenservice wenden.“ Der Generator bringt also das technische Wissen aus den Quellen in eine verständliche Form, die der Nutzer unmittelbar verwenden kann.
(Orientierungshilfe zu datenschutzrechtlichen Besonderheiten generativer KI-Systeme mit RAG-Methode, S.6-8; DSK_OH_RAG.pdf )
Vorteile der RAG-Methode gegenüber herkömmlichen KI-Systemen
- Erhöhung der Zielgenauigkeit: Da das Sprachmodell über den Retriever auf aktuelle und themenspezifische Informationen zugreifen kann, werden sogenannte „Halluzinationen“, also frei erfundene oder ungenaue Antworten deutlich reduziert. Antworten basieren auf realen, nachvollziehbaren Quellen, die überprüft und bei Bedarf aktualisiert werden können.
- Verbesserung der Transparenz und Nachvollziehbarkeit: Durch die Rückverfolgung der verwendeten Textstellen lässt sich nachvollziehen, aus welchen Dokumenten oder Daten die KI ihre Antwort generiert hat.
- Flexibilität und Aktualität: Neue oder geänderte Informationen lassen sich jederzeit in die Wissensdatenbank einpflegen, ohne dass das Sprachmodell komplett neu trainiert werden muss. So kann das System schnell auf neue gesetzliche Regelungen, interne Richtlinien oder Marktveränderungen reagieren.
(Orientierungshilfe zu datenschutzrechtlichen Besonderheiten generativer KI-Systeme mit RAG-Methode, S.6-8; DSK_OH_RAG.pdf )
Datenschutzrechtliche Risiken der RAG-Methode
Die DSK weist in ihrer Orientierungshilfe zu datenschutzrechtlichen Besonderheiten generativer KI-Systeme mit RAG-Methode darauf hin, dass diese Systeme zwar technische Vorteile bieten, gleichzeitig aber erhebliche datenschutzrechtliche Risiken mit sich bringen. Durch die Kombination eines Sprachmodells mit externen Wissensquellen entstehen neue Verarbeitungsebenen, auf denen personenbezogene Daten analysiert, kombiniert und gespeichert werden. Sobald interne Dokumente, E-Mails oder Kundendatenbanken in eine Wissensbasis eingebunden sind, verarbeitet das System personenbezogene Informationen im Sinne von Art. 4 Nr. 1 und Nr. 2 DS-GVO mit allen rechtlichen Folgen für das verantwortliche Unternehmen nach Art. 24 DS-GVO.
Die DSK nennt dabei folgende datenschutzrechtliche Risikobereiche:
Richtigkeit
Ein zentrales Risiko betrifft den Grundsatz der Richtigkeit gem. Art. 5 Abs. 1 lit. d DS-GVO. Wenn etwa eine veraltete Datenschutzrichtlinie oder eine falsche Kundendatei in die Wissensbasis eingespeist wird, kann die KI daraus unrichtige Aussagen ableiten, beispielsweise zur Gültigkeit einer Einwilligung oder zu Löschfristen. RAG-Systeme können zwar durch die Nutzung aktueller Dokumente Halluzinationen reduzieren, doch bleibt die Ergebnisqualität immer abhängig von der Aktualität und Korrektheit der eingebundenen Daten.
Transparenz der Verarbeitung
Zwar lässt sich häufig nachvollziehen, aus welchen Dokumenten der Retriever Informationen bezogen hat, jedoch bleibt vor allem die interne Verarbeitung im Sprachmodell undurchsichtig. Es ist meist nicht erklärbar, warum bestimmte Textabschnitte ausgewählt oder stärker gewichtet wurden. Das kann dazu führen, dass Betroffene, wie Mitarbeitende oder Kunden gar nicht wissen, dass ihre Daten in der Wissensbasis enthalten sind oder für die Antwort der KI herangezogen wurden. Damit drohen Verstöße gegen die Informationspflichten nach Art. 12 bis 14 DS-GVO.
Zweckbindung
Ein wesentliches Risiko liegt in der möglichen Zweckentfremdung personenbezogener Daten. Nach Art. 5 Abs. 1 lit. b DS-GVO dürfen Daten nur für festgelegte, eindeutige und legitime Zwecke verarbeitet werden. Bei RAG-Systemen ist jedoch oft nicht klar, ob die Nutzung personenbezogener Daten für die jeweilige Anfrage tatsächlich dem ursprünglichen Zweck entspricht, für den sie ursprünglich erhoben wurden. Ein Beispiel: Wenn Bewerbungsunterlagen in einer Wissensdatenbank gespeichert sind, um HR-Prozesse zu unterstützen, darf die KI diese Informationen nicht automatisch in einem anderen Kontext, wie etwa für ein internes Trainingsmodell oder eine allgemeine Leistungsanalyse verwenden. Wird der Kontext nicht technisch oder organisatorisch begrenzt, besteht die Gefahr, dass Daten über Personen zweckwidrig neu kombiniert oder inhaltlich „verknüpft“ werden. Das kann zu einem Verstoß gegen den Grundsatz der Zweckbindung führen.
Datenminimierung
Auch muss beim Einsatz von RAG-Systemen der Grundsatz der Datenminimierung nach Art. 5 Abs. 1 lit. c DS-GVO beachtet werden. In der Praxis zeigt sich, dass Unternehmen häufig sehr umfangreiche Datenbestände in die Wissensbasis einbinden, um die Leistungsfähigkeit des Systems zu erhöhen. Dadurch gelangen jedoch oftmals personenbezogene oder vertrauliche Informationen in die Vektordatenbank, die für den konkreten Zweck der Verarbeitung nicht erforderlich sind. Dies kann beispielsweise dann der Fall sein, wenn für eine interne Wissensbasis ganze Dokumentensammlungen wie Projektberichte, Personalrichtlinien oder Vertragsvorlagen automatisiert importiert werden, ohne zuvor zu prüfen, ob darin personenbezogene Daten enthalten sind. Enthalten diese Unterlagen etwa Namen von Ansprechpartnern, interne Bewertungen oder Kundendaten, werden diese Informationen verarbeitet, auch wenn sie für die jeweilige KI-Anwendung gar nicht relevant sind.
Integrität und Vertraulichkeit
Schließlich weist die DSK auf Risiken in Bezug auf Integrität und Vertraulichkeit nach Art. 5 Abs. 1 lit. f DS-GVO hin. Während sich im RAG-Subsystem technische Schutzmaßnahmen wie Rollen- und Rechtekonzepte oder Mandantentrennungen umsetzen lassen, besteht im Sprachmodell selbst keine Möglichkeit, Zugriffsrechte zu steuern. Das kann kritisch sein, wenn etwa vertrauliche Personalakten oder Gesundheitsdaten in den Referenzdokumenten enthalten sind. Zudem besteht die Gefahr sogenannter Data Poisoning Attacks, bei denen manipulierte Dokumente in die Wissensbasis eingeschleust werden, um falsche Ergebnisse zu erzeugen.
Eine Vertiefung zu den allgemeinen datenschutzrechtlichen Anforderungen an den Einsatz von KI finden Sie in unserem Blogbeitrag: Das BayLDA veröffentlicht KI-Checkliste und Flyer
Handlungsempfehlungen der DSK für RAG-Systeme
- Prüfung der Datenquellen und Datenauswahl: Vor dem Befüllen einer Wissensbasis muss sorgfältig geprüft werden, welche Dokumente, Datenbanken oder Textbestände eingebunden werden.
- Regelmäßige Prüfung und Löschung nicht mehr benötigter Daten: Alte oder irrelevante Datensätze sind zu löschen oder zu anonymisieren. Zwar ermöglicht die RAG-Methode eine gezielte Löschung einzelner Einträge, doch entbindet dies Unternehmen nicht von der Pflicht, die gespeicherten Datenbestände laufend zu kontrollieren.
- Sicherstellung der Datenrichtigkeit: Nur geprüfte, aktuelle und vollständige Referenzdokumente sollen verwenden werden. Bei Änderungen in der Datenbank müssen zudem die Embeddings neu berechnet werden.
- Beachtung der Zweckbindung: Rollenbasierten Zugriff auf Wissensquellen einführen, um Zwecküberschreitungen zu verhindern. Zudem sollte vor der Nutzung geprüft werden, ob die Einbettung personenbezogener Daten noch dem ursprünglichen Zweck der Verarbeitung dient.
- Beachtung der Betroffenenrechte: Zumindest in der Vektordatenbank ist eine gezielte Löschung technisch möglich, weil dort jeder Eintrag (z. B. ein Chunk mit Embedding) direkt angesprochen werden kann.
Fazit
Die DSK bewertet den Einsatz der RAG-Methode als eine vielversprechende Möglichkeit, generative KI-Systeme datenschutzfreundlicher zu gestalten. Durch die Trennung von Sprachmodell und Wissensbasis können Informationen gezielter kontrolliert, aktualisiert und nachvollziehbar verarbeitet werden. Das reduziert typische Risiken herkömmlicher KI-Systeme, etwa unrichtige oder halluzinierte Inhalte und ermöglicht eine bessere Nachvollziehbarkeit der Datenquellen. Gleichzeitig macht die DSK deutlich, dass die RAG-Methode keine Garantie für Datenschutzkonformität darstellt. Die datenschutzrechtlichen Grundsätze der DS-GVO, insbesondere Richtigkeit, Transparenz, Zweckbindung, Datenminimierung sowie Integrität und Vertraulichkeit müssen weiterhin aktiv umgesetzt und regelmäßig überprüft werden. Besonders kritisch bleibt der Umgang mit personenbezogenen Daten im Sprachmodell selbst, da deren Löschung oder Berichtigung technisch nur begrenzt möglich ist. Ob ein RAG-System tatsächlich datenschutzkonform arbeitet, hängt daher maßgeblich von seiner praktischen Umsetzung ab.



























































































































