Wie funktioniert Reinforcement Learning?

Die „lebende Vorlage“ sind die neuronalen Netze, die sich im menschlichen Gehirn verknüpfen. Ganz ähnlich verknüpfen Rechner Informationen Schritt für Schritt und so lange, bis aus einzelnen Strichen ein erkennbares Bild für sie wird.

Passieren Fehler auf dem Weg, beginnt der Prozess „zur Strafe“ neu. Ist das optimale Ergebnis erreicht, ist dies ein „Lob“ für das System. Es speichert den gefundenen Weg und hat so für die Zukunft gelernt.

Entscheidend ist dabei die so genannte Q-Funktion in der Software: Sie vergleicht und bewertet die vom Modul gefundenen Lösungen und erkennt die Lernrate. Der bessere Weg mit dem besseren Ergebnis wird auch künftig weiterverfolgt. Wegen der zentralen Bedeutung der Q-Funktionen spricht man beim selbstständigen Lernen auch von „deep-Q-learning“. Die für viele Millionen Rechenoperationen in kürzester Zeit ausgelegte Datenverarbeitung heißt in Fachkreisen „deep-Q-Network“.

Dass dieses Prinzip angesichts der heutigen Rechnerkapazitäten funktionieren kann, wurde 2015 deutlich. Damals gelang es Wissenschaftlern erstmals, ein „deep-Q-network“ in einem Selbstlernprozess so weit zu trainieren, dass es das asiatische Strategiespiel „Go“ besser als ein Mensch beherrschte - was bis dahin als unmöglich galt.

Vereinfach dargestellt geht es darum, dass die beiden Spieler ihre Steine nach und nach so geschickt auf den 361 Schnittpunkten von 19 vertikalen und 19 horizontalen Linien verteilen, dass die jeweils gegnerischen Steine von vier Seiten eingeschlossen und damit „gefangen“ werden. Das Spiel erfordert eine Kombination aus langfristiger Überlegung, schneller Auffassungsgabe und immer neuen Lernprozessen.

Die Herausforderung für von künstlicher Intelligenz gesteuerte Systeme: Sie müssen lernen, die Muster zu erkennen, die in den intuitiven Aktionen ihres menschlichen Partners bei der Auswahl aus einer praktisch unbegrenzten Zahl von Spielzügen stecken. Nur dann können sie die Züge vorhersagen und ihnen rechtzeitig entgegenwirken. Herkömmliche KI-Module waren damit bislang überfordert, weil sie kein klares, sondern ein sich veränderndes Ziel erreichen sollten.

Die Parallelen zwischen dem Spiel auf dem Go-Brett und der Stellplatz-Vergabe im Hafen sind offensichtlich: Auch beim Containerstacking sind KI-Systeme gegenüber den bisherigen Lösungen im Vorteil, wenn sie auf der Basis eigener Erfahrungen die beste Lagerplatz-Kombination erkennen können, statt auf ein vorgegebenes Ziel zuzuarbeiten.

Das Erfolgsgeheimnis des digitalen Go-Spielers steckt darin, dass er erfolgreiche Spielzüge und fruchtlose Versuche für die nächste Runde speichern und damit sein Potenzial Runde für steigern kann. Das lässt sich auf die Herausforderung auf den Containerterminals anwenden. Einem selbstlernenden System muss man nicht mit viel Aufwand Bewertungskriterien einprogrammieren - es sammelt selbst seine Erfahrungen und kommt deswegen mit vergleichsweise einfachen Algorithmen aus.