Neu

msg digital mehr

Synthetische Daten

Mehr Präzision für evidenzbasierte Politikgestaltung

In einer Zeit, in der Herausforderungen immer komplexer und Veränderungen immer schneller werden, gewinnt evidenzbasierte Politikgestaltung zunehmend an Bedeutung. Für eine moderne, effektive Verwaltung ist es unerlässlich, Entscheidungen auf einer soliden, datenbasierten Grundlage zu treffen. Deutschland steht vor der anspruchsvollen Aufgabe, die komplexen und teils strengen gesetzlichen Rahmenbedingungen zu navigieren, um Daten sinnvoll zu nutzen. Trotz Herausforderungen wie Datenschutzbestimmungen, den föderalen Zuständigkeiten und unterschiedlicher Datenqualität eröffnen innovative Ansätze wie synthetische Daten neue Möglichkeiten. Synthetische Daten sind künstlich generierte Datensätze, die reale Daten simulieren und Analysen und Prognosen ermöglichen, ohne auf tatsächliche Daten zurückzugreifen. Dadurch können Datenlücken geschlossen und die Qualität von Entscheidungsgrundlagen signifikant verbessert werden.
 

Erfolgreiche evidenzbasierte Politikgestaltung

Evidenzbasierte Politikentscheidungen basieren auf der Nutzung wissenschaftlicher Daten und empirischer Analysen, um politische Maßnahmen fundiert und wirksam zu gestalten. Dieser Ansatz fördert sachliche und transparente Entscheidungen und trägt dazu bei, politische Prozesse besser an realen Herausforderungen auszurichten und gesellschaftlich tragfähige Lösungen zu entwickeln.

Dafür benötigen Entscheidungsträger Zugang zu verlässlichen Daten- und Informationsquellen. Transparente Kommunikation der Datengrundlage und interdisziplinäre Zusammenarbeit mit Fachexperten sind hier unerlässliche Erfolgsfaktoren, um fundierte Entscheidungen treffen zu können. Entscheider müssen bereit sein, Annahmen kritisch zu hinterfragen und in enger Zusammenarbeit mit Datenlieferanten neue Erkenntnisse in ihre Entscheidungsprozesse zu integrieren.
 

Evidenzbasierte Politikgestaltung steht vor Herausforderungen

Die rechtlichen Rahmenbedingungen in Deutschland sind komplex und teilweise restriktiv, was die Datennutzung betrifft. Verschiedene Gesetze, wie das Bundesdatenschutzgesetz (BDSG) und die Datenschutz-Grundverordnung (DSGVO) setzen enge Grenzen für die Erhebung, Speicherung und Verarbeitung von Daten. Diese Regelungen sollen den Schutz der Privatsphäre der Bürger gewährleisten, während sie gleichzeitig den Datenaustausch und die Datenverarbeitung regulieren. Die Nutzung bestehender Datenquellen erfordert oft eine aufwendige Abstimmung, weshalb der Einsatz von Extrapolationen und fundierten Annahmen sinnvoll sein kann. Der föderale Aufbau mit dezentraler Datenspeicherung auf verschiedenen Ebenen von Bund, Ländern und Kommunen erschwert eine effiziente Koordination und Interoperabilität, was umfassende und valide Gesamtanalysen der IST-Situation kompliziert. Datenanalysen und Simulationen, die für fundierte Entscheidungsvorlagen benötigt werden, können unter diesen Bedingungen oft gar nicht oder nur über aufwendige Umwege erstellt werden. Das beeinträchtigt die Qualität, Transparenz und Agilität der Entscheidungsprozesse erheblich, da wichtige Erkenntnisse nur verzögert oder unvollständig zur Verfügung stehen.
 

Wie helfen synthetische Daten

Synthetisch generierte Datensätze, die reale Daten simulieren, bieten vielversprechende Ansätze, um Defizite bei der Verfügbarkeit, Qualität und Transparenz von Daten zu beheben. Durch angepasste Datenmodelle lassen sich Datensätze generieren, die unvollständige Datenlücken effektiv schließen und die Datenqualität erheblich steigern. Das verbessert die Analysefähigkeit und erhöht die Verlässlichkeit von Entscheidungsgrundlagen. Gleichzeitig erfüllen synthetische Daten enge Datenschutzanforderungen, da sie reale personenbezogene Daten durch das implizite Wissen aus Metadaten ersetzen. Auf diese Weise lassen sich aussagekräftige Datensätze erzeugen, ohne direkt regulierte oder schutzwürdige Informationen zu verarbeiten.

Für eine erfolgreiche Implementierung ist es entscheidend, klare Anforderungen an Datenqualität und inhaltliche Konsistenz zu definieren. Diese müssen in enger Zusammenarbeit mit den Fachanwendern entwickelt werden. Zudem ermöglicht die Standardisierung von datengenerierenden Datenmodellen die skalierbaren Einsätze in unterschiedlichen Anwendungsbereichen. Standardisierte Datenmodelle fördern die Wiederverwendbarkeit und erhöhen die Effizienz in der Datenverarbeitung erheblich.
 

Wann der Einsatz synthetischer Daten sinnvoll ist: Chancen und Anwendungsfälle im Überblick:

Die Nutzung synthetisch erzeugter Verkehrsdaten bietet hier innovative Lösungsansätze, um fundierte Verkehrsanalysen trotz begrenzter Datengrundlage zu ermöglichen. Durch die Simulation von Verkehrsströmen, Unfallmustern, Auswirkungen von Baustellen oder Umleitungen können realistische Szenarien wie die Einführung von Umweltzonen oder neue Verkehrsführungen abgebildet werden. Generierte Datensätze erweitern vorhandene Informationen und unterstützen Entscheidungsträger dabei, präzise Vorhersagen zu treffen. Geplante Maßnahmen lassen sich so effektiver bewerten.

Ein besonders vielversprechender Anwendungsfall für synthetische Daten ist die Optimierung von KI-Modellen in der automatisierten Dokumentenverarbeitung der öffentlichen Verwaltung. Anstatt tausende Dokumente manuell zu labeln, können realistische Trainingsdaten, mit entsprechenden Layouts und Merkmalen von Verwaltungsformularen effizient generiert werden. Das ermöglicht schnelleres und präziseres Training von KI-Modellen, ohne auf sensible Daten angewiesen zu sein und eröffnet kosteneffiziente und sichere Möglichkeiten zur Optimierung von Verwaltungsprozessen.

Synthetische Daten bieten enormes Potenzial in der öffentlichen Verwaltung, wie aktuelle Projekte bei Bundesbehörden zeigen. Zum Beispiel nutzt das Forschungsdatenzentrum des BfArM synthetische Daten, um sensible Gesundheitsdaten sicher für Forschungszwecke zugänglich zu machen, ohne den Datenschutz zu gefährden.1 Ebenso arbeitet die öffentliche IT an verschiedenen Ansätzen, um Verwaltungsprozesse effizienter und sicherer zu gestalten.2 Das Projekt DaFne entwickelt eine flexible und erweiterbare Plattform zur Generierung synthetischer Daten, die es KI-Forschern ermöglicht, robuste KI-Modelle auch bei unzureichenden Trainingsdaten effizient zu erstellen und diese in verschiedenen Anwendungsbereichen wie Smart Cities einzusetzen.3

Zukünftig könnte auch die Analyse von Hitzeentwicklung in Städten und Kommunen durch synthetische Datensätze verbessert werden. Die Interpolation von Sensordaten unter Einsatz spezieller Klimamodelle erlaubt präzise Vorhersagen zur Temperaturentwicklung in verschiedenen Stadtgebieten.4

Ein weiteres Anwendungsbeispiel für den Einsatz synthetischer Daten ist die Optimierung KI-gestützter Angriffserkennung und -analyse in der IT-Sicherheit. Durch den Einsatz synthetischer Trainingsdaten können Systemüberwachungsprofile erstellt werden, die dabei helfen, normale von abweichenden Systemzuständen zu unterscheiden und frühzeitig Anomalien zu identifizieren. Dies ermöglicht, Angriffserkennungsmechanismen schneller an neue Bedrohungen und Softwaresysteme anzupassen, ohne auf zeitaufwendige Datenerhebungen angewiesen zu sein. 5

Ein potenzielles Einsatzszenario im Bereich der Finanzverwaltung wäre der Einsatz synthetischer Steuerdaten zur Simulation unterschiedlicher wirtschaftlicher Szenarien. Diese Daten könnten verwendet werden, um die Auswirkungen von Veränderungen bei Arbeitslosenquoten oder Einkommensentwicklungen auf die Steuereinnahmen zu prognostizieren und so wertvolle Einblicke in steuerpolitische Maßnahmen zu gewinnen. Durch flexible und anpassbare Datenmodelle könnte so die Finanzverwaltung fundierte und evidenzbasierte Entscheidungen schneller und mit höherer Qualität treffen.


Die Risiken Synthetischer Daten

Synthetische Daten bieten eine wertvolle Möglichkeit, um Lücken in der Datenverfügbarkeit zu schließen, insbesondere wenn reale Daten unvollständig oder aus Datenschutzgründen schwer zugänglich sind. In vielen KI- und Datenprojekten werden künstliche generierte Daten genutzt, um die Qualität von Machine-Learning- und KI-Anwendungen zu steigern.

Der Einsatz synthetischer Datensets erfordert jedoch klare Standards und strenge Kontrollen, um Transparenz und Vertrauen in die Datenintegrität zu gewährleisten. Hierbei sind klare Governance-Strukturen sowie die Einhaltung ethischer und technischer Richtlinien entscheidend, um einen verantwortungsvollen Einsatz sicherzustellen.

Da synthetische Daten natürliche statistische Grenzen hinsichtlich ihrer Aussagekraft aufweisen, müssen diese klar definiert werden. Es ist essenziell, der Entscheidungsebene transparent zu kommunizieren, ab wann Daten den Bereich realistischer Szenarien verlassen, und in hypothetische Annahmen übergehen, um sicherzustellen, dass Entscheidungen auf einer soliden Datenbasis getroffen werden.

Richtig gekennzeichnet und geteilt können synthetische Daten datenbasierte Diskussionen und Analysen beschleunigen. Dies erleichtert die Entscheidungsfindung in "Was-wäre-wenn"-Szenarien und Simulationen, was besonders in der öffentlichen Verwaltung von großem Nutzen ist. Eine stärkere Nutzung synthetischer Daten könnte die Verwaltung flexibler machen und besser auf neue Herausforderungen vorbereiten.
 

Fazit

Die Entwicklung und der Einsatz synthetischer Daten stellen eine zukunftsweisende Innovation dar, die maßgeblich durch den öffentlichen Sektor vorangetrieben wird. Trotz strenger regulatorischer Vorgaben und hoher Datenschutzanforderungen ermöglichen sie die realitätsnahe Nachbildung und Erweiterung von Datensätzen und sind damit ein entscheidendes Instrument für die evidenzbasierte Politikgestaltung. Synthetische Daten bieten nicht nur die Möglichkeit, bestehende Datenlücken zu schließen, sondern verbessern auch datengetriebene Prozesse wie KI-gestützte Analysen und Simulationen erheblich. Diese innovative Vorgehensweise des öffentlichen Sektors setzt neue Maßstäbe für technologische Entwicklungen und bietet der Privatwirtschaft eine richtungsweisende Orientierung, wie moderne Technologien unter Einhaltung strikter rechtlicher Rahmenbedingungen neue Wege eröffnen können.

 

1 https://www.bfarm.de/DE/Aktuelles/Blog/_docs/2022-03-10-forschungsdatenzentrum.html

2 https://www.oeffentliche-it.de/-/synthetische-daten

3 https://www.hitec-hamburg.de/plattform-data-fusion-generator-fuer-die-kuenstliche-intelligenz-dafne/

4 https://www.msg.group/smart-city

5 https://www.softwaresysteme.dlr-pt.de/media/content/01IS21063_Projektblatt_SmartVMI.pdf

Ihr Ansprechpartner

Franz Böhmann

Senior Business Consultant