Ein paar Beispiele aus der Forschung
Durch Hinzufügen eines wohlkomponierten Bildrauschens lassen sich Bilder, die als Input verwendet werden, dahingehend manipulieren, dass die KI nun statt eines Pandas das Bild als Gibbon klassifiziert. Setzt man einem Menschen, der zuvor im Wege der Image Recognition korrekt erkannt wurde, eine Spezialbrille auf, so klassifiziert die KI ihn nun als berühmte Schauspielerin. Und schließlich wurden Versuche unternommen, ein Stopp-Schild mit Markern zu versehen, so dass die KI dieses nun als Geschwindigkeitsbegrenzung eingestuft hat. Dies sind Beispiele aus der Bildverarbeitung, aber auch Audio- und Videosequenzen lassen sich dahingehend manipulieren, dass bereits mit wenigen realen Beispielen ganze sogenannten Deep Fake Videos erzeugt werden können.
Am stark vereinfachten Beispiel eines neuronalen Netzes sieht das so aus: Im Normalfall wird ein NN im Input Layer mit einem Vektor an Zahlenwerten (z.B. die RGB-Werte eines Bildes) gespeist. Jedes dieser Neuronen wird dann, mit einer Gewichtung versehen, an einen oder mehrere Hidden Layer übermittelt und dort neu berechnet bis schließlich im Output Layer die KI zu einer Klassifizierung führt, also z.B. die Einordnung als Panda. Das wird beim ersten Mal noch nicht gut funktionieren, aber wenn man Trainingsdaten hat, bei denen man im Voraus schon das Ergebnis kennt, versucht man über eine Rückrechnung (Backpropagation) schrittweise die Gewichte und einen hinzugefügten Grenzwert, ab dem ein Neuron „feuert“, so zu optimieren, dass die KI im Training einen möglichst großen Prozentsatz der eingespeisten Bilder richtig klassifiziert. Zwischen dem gelieferten und dem erwarteten Ergebnis liegt ein Fehler dessen Wert, beispielsweise über die sogenannte Stochastic Gradient Descent-Methode schrittweise in Richtung eines lokalen oder absoluten Minimums optimiert wird. Das kann man sich so vorstellen, als würde eine Kugel einen Abhang ins Tal herunterrollen.
Bei einem Adversarial Attack hingegen versucht der Angreifer, die Kugel in eine andere Richtung rollen zu lassen, so dass dann Pandas eben als solche schlechter erkannt werden und stattdessen Gibbons daraus werden. Das geschieht dadurch, dass man einem Bild ein Rauschen hinzufügt, also eine geringfüge Veränderung der RGB-Werte. Diese Abweichung, auch als Epsilon-Wert bezeichnet, ist für das menschliche Auge kaum erkennbar, aber für eine hochsensible KI eben schon. Dadurch entsteht ein Zielkonflikt zwischen Robustheit und Genauigkeit. Die Auswertung der Ergebnisse verschiedener Modelle der sogenannten ImageNet-Challenge hat gezeigt, dass ein Modell zwar hochgenau getrimmt werden kann, dadurch aber sensibler auf Veränderungen der Input-Daten reagiert, was zu Lasten der Robustheit geht. Das ist etwa so, als würde man ein Rennpferd mit einem Brauereiross hinsichtlich der beiden Dimensionen Robustheit und Geschwindigkeit vergleichen.