Der Weg von synthetischen Daten in die Verwaltung
Synthetische Daten finden schon jetzt ihren Weg in die öffentliche Verwaltung, wie aktuelle Projekte bei Bundesbehörden zeigen. Zum Beispiel nutzt das Forschungsdatenzentrum des BfArM synthetische Daten, um sensible Gesundheitsdaten sicher für Forschungszwecke zugänglich zu machen, ohne den Datenschutz zu gefährden. Ebenso arbeitet das Kompetenzzentrum „Öffentliche IT“ an verschiedenen Ansätzen, synthetische Daten zu nutzen, um Verwaltungsprozesse effizienter und sicherer zu gestalten.5
Das Projekt DaFne entwickelt eine flexible und erweiterbare Plattform zur Generierung synthetischer Daten, die es KI-Forschern ermöglicht, robuste KI-Modelle auch bei unzureichenden Trainingsdaten effizient zu erstellen und in verschiedenen Anwendungsbereichen wie Smart Cities einzusetzen.6
Ein zentraler Anwendungsbereich liegt im Training von KI-Modellen, die auf historischen Daten basieren, um Muster zu erkennen und daraus Vorhersagen für zukünftiges Verhalten abzuleiten. Solche Modelle werden beispielsweise genutzt, um das Nutzerverhalten in Webshops oder das Kaufverhalten von Menschen zu besonderen Zeiten vorherzusagen.
Allerdings funktionieren Vorhersagemodelle – auch bei KI – nur unter den äußeren Bedingungen, die während des ursprünglichen Trainingsprozesses bestanden haben. Veränderungen in den Datenumgebungen oder der Dynamik von Systemen führen oft zu Herausforderungen wie Concept Drift und Data Drift, bei denen die Modellleistung mit der Zeit abnimmt. Um diesen Veränderungen zu begegnen, setzen moderne Ansätze auf kürzere und häufigere Lernzyklen, sodass KI-Modelle kontinuierlich mit aktuellen und relevanten Daten trainiert werden können.7, 8
Es gibt zahlreiche Anwendungsfälle, bei denen das Lernen aus der Vergangenheit nicht erforderlich ist, da klare Zielstellungen für die Zukunft bereits definiert sind. Ein Beispiel dafür ist die Erstellung von Datenmodellen für die Dokumentenklassifizierung: Hier kann Expertenwissen direkt genutzt werden, um gezielt Trainingsdaten zu generieren. Ebenso lassen sich Texte generieren, die barrierefreie Sprache fördern, indem man sich an festgelegten Konzepten und Zielvorgaben orientiert, anstatt vergangene Sprachmuster zu analysieren.
Künftig könnte die Analyse von Hitzeentwicklung in Städten und Kommunen erheblich durch den Einsatz synthetischer Datensätze verbessert werden. Mithilfe der Interpolation realer Sensordaten und der Integration spezieller Klimamodelle können präzise Vorhersagen zur Temperaturentwicklung in verschiedenen Stadtgebieten getroffen werden. Diese Ansätze ermöglichen es, auch in Bereichen mit unzureichender Sensorabdeckung detaillierte und belastbare Aussagen zu treffen, wodurch städtische Klimaanpassungsmaßnahmen gezielter geplant und umgesetzt werden können.9
Diese Ansätze zeigen, dass synthetische Daten nicht nur dazu dienen, Vergangenes zu simulieren, sondern auch innovative und zielgerichtete Lösungen für zukunftsorientierte Anwendungen zu schaffen. Die Einsatzmöglichkeiten sind äußerst vielfältig und noch längst nicht ausgeschöpft. Gerade diese Flexibilität eröffnet neue Perspektiven, wie Technologie eingesetzt werden kann, ohne dabei durch historische Daten limitiert zu sein.