Zuerst erschienen in der Ausgabe 02-2019
von Dr. Michael Scholz
Methoden des maschinellen Lernens für die öffentliche Verwaltung
Maschinelles Lernen (ML) wurde in den letzten Jahren erfolgreich zur Lösung komplexer Aufgaben, wie Gesichtserkennung oder autonomes Fahren, eingesetzt. Es beschreibt eine Menge von Methoden, bei denen ein Modell auf Basis von Trainingsdaten angepasst wird. Erst nach dem Training ist der Einsatz des Modells zum Erklären oder Prädiktieren zukünftiger Werte möglich. Ist ein Modell initial trainiert, kann es zwar bereits verwendet werden, es wird aber durch neue Daten und Feedback zu den neuen Daten beständig verbessert. Methoden des maschinellen Lernens haben also die Fähigkeit, Zusammenhänge zu erlernen, ohne dass diese Zusammenhänge explizit programmiert werden müssen. Damit stellen Methoden des maschinellen Lernens eine Möglichkeit dar, wie Systeme der schwachen künstlichen Intelligenz (Schmitt und Meyer .public 03-18) implementiert werden können.
Methoden des maschinellen Lernens lassen sich grob in die drei Klassen „überwachtes Lernen“ (supervised learning), „unüberwachtes Lernen“ (unsupervised learning) und „bestärkendes Lernen“ (reinforcement learning) einteilen. Alle drei Methoden unterscheiden sich darin, wie der Prozess des Lernens erfolgt. Beim überwachten Lernen wird ein Modell angelernt (parametrisiert), indem sowohl Eingangs- als auch Ausgangsvariablen analysiert werden. Beim unüberwachten Lernen hingegen werden nur Daten der Eingangsvariablen (Eingangsdaten) verwendet. Bestärkendes Lernen wird eingesetzt, um einen Agenten (zum Beispiel einen Roboter oder eine Software) zu trainieren, der selbstständig ein Modell zum Lösen einer Aufgabe entwickeln und auch selbstständig nach diesem handeln soll. Bestärkendes Lernen ist daher insbesondere für Probleme geeignet, bei denen komplette Prozesse und Aktionen frei von einem Agenten gestaltet werden können. Im Folgenden werden Methoden des überwachten und des unüberwachten Lernens vorgestellt, da diese gegenüber Methoden des bestärkenden Lernens sehr häufig in Anwendungen der öffentlichen Verwaltung eingesetzt werden können. Da Prozesse wie beispielsweise zur Genehmigung von Anträgen in der öffentlichen Verwaltung durch rechtliche Rahmenbedingungen fest vorgeschrieben sind, ist hier das Potenzial für Agenten, die selbstständig Prozesse entwickeln, eher gering. Ferner wird aufgezeigt, dass nicht alle durch maschinelles Lernen trainierte Systeme wie eine „Black Box“ agieren, sondern es bei einigen Methoden durchaus möglich ist, die Ergebnisse und den Weg dorthin inhaltlich nachzuvollziehen.
Methoden des maschinellen Lernens für die öffentliche Verwaltung
Immer dann, wenn Daten der Ausgangsvariablen (Ausgangsdaten) anhand einer vorgegebenen Struktur erklärt oder prognostiziert werden sollen, können Methoden des überwachten Lernens verwendet werden. Die Struktur ist dabei in den Trainingsdaten durch die Beziehung zwischen einer Ausgangsvariable und ein oder mehreren Eingangsvariablen gegeben und soll durch ein Modell abgebildet werden. Mithilfe einer Methode des überwachten Lernens werden die Parameter eines Modells erlernt, sodass das Modell zum Prognostizieren auf neue Eingangsdaten angewendet werden kann. Die zwei bekanntesten und am häufigsten angewendeten Methoden im Bereich des überwachten Lernens sind die Regression und die Klassifikation. Soll eine Ausgangsvariable erst ermittelt werden, so kommen Methoden des unüberwachten Lernens zur Anwendung. Das Lernen erfolgt hier komplett anhand der Eingangsvariablen. Methoden des unüberwachten Lernens werden insbesondere zum Explorieren von Daten oder als Vorschritte für weitere Datenanalysen verwendet. Eine der am häufigsten verwendeten Methode aus dieser Klasse ist das Clustering, bei dem eine Menge von Daten in Segmente (Cluster) aufgeteilt wird. Im Bereich des Explorierens von textuellen Daten werden anstelle des Clustering hauptsächlich Methoden des Topic Modeling eingesetzt, mit denen thematische Cluster identifiziert werden können.
Regression für die Prognose von Zahlenwerten
Mit einer Regression wird ein mathematischer Zusammenhang zwischen Eingangsvariablen und einer Ausgangsvariable ermittelt. Der Kern einer Regression ist ein Modell, das den Zusammenhang beschreibt und Parameter besitzt, die während der Trainingsphase gelernt werden.
Für Regressionen ergeben sich vielfältige Einsatzmöglichkeiten in der öffentlichen Verwaltung. So lässt sich beispielsweise die Anzahl an Anträgen, die ein Referat in einem bestimmten Zeitraum erhält, mithilfe von Regressionen prognostizieren. Ein weiterer – hier vereinfachter – Anwendungsfall ist das Optimieren von Maßnahmen auf Basis von Beobachtungsdaten. So kann beispielsweise anhand von Daten über die Bearbeitungsdauer von Anträgen und die Anzahl an Beschwerden von Antragstellern eine optimale Bearbeitungsdauer ermittelt werden. Werden Anträge zu schnell bearbeitet, entstehen mehr Fehler, über die sich Antragsteller beschweren. Dauert die Bearbeitung sehr lange, um möglichst keine Fehler zu machen, beschweren sich Antragsteller über die Bearbeitungsdauer. Die passende Balance kann hier mittels historischer Beobachtungsdaten und Regression gefunden werden. Abbildung 2 zeigt als Punkte die historischen Beobachtungsdaten. Für diese wurde mittels Regression ein Modell geschätzt, das sich durch eine mathematische Funktion ausdrücken lässt und grafisch dargestellt die dunkelrote Kurve in Abbildung 2 ergibt. Anhand der mathematischen Funktion lässt sich sehr schnell exakt ermitteln, wo die optimale Bearbeitungsdauer liegt.
Eine Klassifikationsmethode nutzt ein Modell, mit dem die Zuordnung eines Datenobjekts zu einer Klasse erklärt oder prognostiziert wird. Das kann wie bei einer Regression über den Zusammenhang zwischen der Ausgangsvariable (Klasse) und den Eingangsvariablen erfolgen. Es ist allerdings auch möglich, dass das Modell beschreibt, wo die Grenzen zwischen den einzelnen Klassen im Raum der Eingangsvariablen verlaufen, oder dass das Modell die Wahrscheinlichkeit abbildet, mit der eine bestimmte Ausprägung einer Eingangsvariable zu einer bestimmten Klasse führt. Der gewählte Ansatz hat nicht nur Auswirkungen auf die Genauigkeit, mit der eine Klassenzuordnung prognostiziert wird, sondern auch darauf, wie gut die Klassenzuordnung eines Datenobjekts erklärt werden kann. Eine gute Erklärung der Klassifikationsergebnisse ist zum Beispiel durch die Anwendung von Klassifikationsbäumen möglich.
Die Anwendungen von Klassifikationsmethoden sind in der öffentlichen Verwaltung sehr vielfältig und reichen von der Betrugserkennung bei Anträgen oder Steuererklärungen bis hin zu einer Klassifikation von Dokumenten oder E-Mails nach Stimmung, Dringlichkeit oder Thema.
Bei diversen Anträgen können sich Antragsteller durch fehlende oder falsche Angaben einen Vorteil verschaffen. So kann ein falsch angegebenes Einkommen bei einem BAföG-Antrag zu einer Genehmigung des Antrags und zu unberechtigten Zahlungen von BAföG führen. Um dies zu verhindern, können Klassifikationsmethoden trainiert und anschließend zur Pro gnose zukünftiger BAföG-Anträge verwendet werden. Die Prognoseergebnisse einer Klassifikationsmethode unterstützen dann die Auswahl derjenigen Anträge, die detailliert geprüft werden sollten. Es sollte hierbei darauf geachtet werden, dass eine Klassifikationsmethode gewählt wird, die es ermöglicht, nachzuvollziehen, warum ein Antrag zur Prüfung vorgeschlagen wurde. Eine sinnvolle Möglichkeit stellen hierzu Klassifikationsbäume dar. Abbildung 3 zeigt einen Klassifikationsbaum für das BAföG-Beispiel, der anhand eines Trainingsdatensatzes berechnet wurde.
Clustering für das entdecken von Kategorien
In vielen Fällen gibt es keine bereits feststehenden Klassen, sondern diejenigen Datenobjekte, die sich ähnlich sind, sollen zu einer Gruppe zusammengefasst werden. Man spricht in diesem Fall nicht von Klassifikation und Klassen, sondern von Clustering und Clustern. Clusterverfahren lassen sich danach unterscheiden, wie diese feststellen, ob zwei Datenobjekte derart ähnlich sind, dass sie zum selben Cluster zu zählen sind. Ein Ansatz besteht darin, zunächst so viele Cluster, wie Datenobjekte vorhanden sind, zu erstellen und die jeweils ähnlichsten Cluster zusammenzuführen. Ein anderer Ansatz besteht darin, die Zuordnung von Datenobjekten zu Clustern anhand der Distanz zu Clusterrepräsentanten vorzunehmen. Daneben existieren weitere Ansätze, die zum Teil Kombinationen anderer Ansätze darstellen. Unabhängig vom verwendeten Ansatz ist es immer möglich, die identifizierten Cluster im Raum der Eingangsvariablen grafisch darzustellen. Anhand der Darstellung kann ein Machine-Learning-Architekt dann auch eine Beschreibung der Cluster vornehmen.
Aufgrund des explorativen Charakters können Clusterverfahren immer dann verwendet werden, wenn Daten erkundet werden sollen. Clusterverfahren können allerdings auch verwendet werden, um die Menge an Daten zu reduzieren und Datenobjekte anstelle mehrerer Variablen durch nur eine Variable, das Cluster, zu beschreiben. In der öffentlichen Verwaltung können Clusterverfahren beispielsweise verwendet werden, um Empfehlungssysteme für Dokumente oder Personen zu erstellen, Anomalien in Datensätzen zu identifizieren oder um Regionen für zum Beispiel bestimmte Förderungen oder bestimmte Schutzmaßnahmen zu definieren.
Topic Modeling
Topic Modeling befasst sich damit, Gemeinsamkeiten in einer Menge an Daten (meist textbasierte Dokumente oder Bilder) zu finden und diese Themen (sogenannten Topics) zuzuordnen.
Wie beim Clustering sind auch hier zumeist die Topics nicht im Vorhinein bekannt, sondern werden vom Modell selber erkannt und zusammengestellt.
Die Grundannahme von Topic Modeling ist, dass ein Dokument nicht nur aus Wörtern, sondern auch aus Themen besteht. Dabei können Themen nicht direkt erkannt werden, so wie Wörter, aus denen der Text besteht, sondern sie werden als eine versteckte Struktur innerhalb der Datensammlung angesehen. Ein Thema wird als eine Ansammlung von Worten beschrieben, die mit einer gewissen Wahrscheinlichkeit im Thema vorkommen.
Der meistverwendete Ansatz, die Latent Dirichlet Allocation (LDA), weist zunächst jedes Wort aller Dokumente der Datensammlung einem zufälligen Topic zu. Die Anzahl der zu erstellenden Topics wird dabei vorgegeben. Im weiteren Verlauf wird dann die zunächst zufällige Aufteilung verbessert. Dabei werden die folgenden beide Faktoren berücksichtigt: Erstens, wie oft ein Wort in jedem Topic bisher vorkommt. Zweitens, wie viele der anderen Worte im aktuellen Dokument in jedem Topic vorkommen. Der erste Punkt berücksichtigt die Annahme, dass ein Wort eher nur einem bestimmten Topic zugewiesen ist und nicht vielen, der zweite Punkt, dass ein Dokument eher aus einem oder wenigen Themen besteht. Abhängig von diesen beiden Punkten wird dann für jedes Topic die Wahrscheinlichkeit berechnet, mit der ein Wort diesem zugewiesen werden sollte. Dieser Vorgang wird so lange wiederholt, bis sich kaum noch Änderungen ergeben oder eine bestimmte Anzahl an Iterationen erreicht ist. Am Ende ergibt sich über die Zuordnung von Worten zu Topics und der Zuordnung zwischen Worten und Dokumenten auch eine Beziehung zwischen Dokumenten und Topics.
In der öffentlichen Verwaltung kann Topic Modeling vor allem verwendet werden, um große Mengen an Dokumenten zu kategorisieren oder für weitere Analysen (zum Beispiel Klassifikation) durch einfache Variablen zu beschreiben. Topic Modeling ist nicht auf textuelle Daten beschränkt und kann beispielsweise auch verwendet werden, um Anomalien in Videoaufnahmen zu erkennen.
Maschinelles Lernen ≠ Black Box
Maschinelles Lernen stellt eine Vielzahl an Methoden zur Verfügung, die in der öffentlichen Verwaltung für unterschiedliche Anwendungen genutzt werden können. Auch wenn Machine- Learning-Architekten die gelernten Modellparameter nicht vorhersagen können, so können sie doch bei vielen Methoden die gelernten Modelle interpretieren und sowohl für Erklärungen als auch zur Prognose nutzen. Die Güte einer Erklärung oder Prognose hängt von der gewählten Methode ab. Methoden, die eine Interpretation der Modelle durch einen Machine- Learning-Architekten ermöglichen, haben jedoch nicht per se eine niedrigere Güte als sogenannte Black-Box-Methoden. Oftmals haben derartige Methoden sogar eine höhere Güte als sogenannte Black-Box-Methoden, wie neuronale Netze, oder können durch eine Mehrfachanwendung auf dieselben Daten beziehungsweise Teilmengen derselben Daten eine sehr hohe Güte erzielen.
Methoden wie neuronale Netze können sehr flexibel Modelle auch bei Tausenden oder Millionen Eingangsvariablen in noch akzeptabler Zeit schätzen. Dies ist beispielsweise bei der Bilderkennung von Vorteil, bei der jeder Bildpunkt typischerweise zu drei Eingangsvariablen (rot, grün, blau) führt und ein Bild mit einer Größe von 1.024 x 768 Pixeln bereits aus mehr als 780.000 Bildpunkten besteht.
In vielen Anwendungsfällen in der öffentlichen Verwaltung (zum Beispiel Dokumentenklassifikation, Betrugserkennung, Prognose der zukünftigen Entwicklung) können jedoch auch Methoden verwendet werden, die eine Erklärung der Ergebnisse zulassen. Wir empfehlen daher, zunächst mit Methoden zu starten, die eine Erklärung der Ergebnisse ermöglichen. Durch eine Optimierung von Modellparametern bzw. eine Mehrfachanwendung auf dieselben Daten oder Teilmengen derselben Daten kann oft eine sehr hohe Güte erreicht werden. Erst in einem zweiten Schritt sollte eine Anwendung von Black-Box-Methoden wie neuronalen Netzen erfolgen, oder es sollten Methoden kombiniert werden, wodurch wiederum zumeist eine Black-Box-Methode entsteht.