Reinforcement Learning

Berater der HHLA-Tochter HPC Hamburg Port Consulting bereiten einen Quantensprung in der Organisation von Terminalprozessen vor: Künstliche Intelligenz (KI) stapelt Container und findet selbstständig die beste Lösung. Selbstlernende „Agenten“ sollen Containern den optimalen Lagerplatz zuweisen.

Auf den ersten Blick erscheint die Aufgabe lösbar, diese vielen bunten Boxen in einem Containerlager optimal zu stapeln. Tatsächlich aber gibt es für jeden Container eine große Zahl möglicher Stellplätze. Vielleicht kann „Reinforcement Learning“ helfen? Bei dieser modernsten Variante der Künstlichen Intelligenz (KI) verfolgt das KI-Modul nicht mehr starr ein vorgegebenes Ziel. Programmierte „Agenten“ bewegen sich in einer virtuellen Trainingsumgebung und optimieren sich selbst anhand einer Belohnungsfunktion.

Bisher konnte das Reinforcement-Learning-Prinzip schon in eine Modellversion implementiert werden. HPC ließ virtuelle Logistik-Agenten 800 Container auf 100 Stapel verteilen. Sie lernten dabei, Stellplätze so zu wählen, dass die Zahl der Umstapel-Bewegungen eines Containers zwischen Ein- und Auslagerung minimiert wurden. Nächster Schritt im Projekt: die lernenden Agenten sollen in einem Rahmen agieren, der den realen Bedingungen auf einem Containerterminal entspricht.

Wie funktioniert Reinforcement Learning?

Die „lebende Vorlage“ sind die neuronalen Netze, die sich im menschlichen Gehirn verknüpfen. Ganz ähnlich verknüpfen Rechner Informationen Schritt für Schritt und so lange, bis aus einzelnen Strichen ein erkennbares Bild für sie wird. Passieren Fehler auf dem Weg, beginnt der Prozess „zur Strafe“ neu. Ist das optimale Ergebnis erreicht, ist dies ein „Lob“ für das System. Es speichert den gefundenen Weg und hat so für die Zukunft gelernt.

Entscheidend ist dabei die so genannte Q-Funktion in der Software: Sie vergleicht und bewertet die vom Modul gefundenen Lösungen und erkennt die Lernrate. Der bessere Weg mit dem besseren Ergebnis wird auch künftig weiterverfolgt. Wegen der zentralen Bedeutung der Q-Funktionen spricht man beim selbstständigen Lernen auch von „deep-Q-learning“. Die für viele Millionen Rechenoperationen in kürzester Zeit ausgelegte Datenverarbeitung heißt in Fachkreisen „deep-Q-Network“.

Dass dieses Prinzip angesichts der heutigen Rechnerkapazitäten funktionieren kann, wurde 2015 deutlich. Damals gelang es Wissenschaftlern erstmals, ein „deep-Q-network“ in einem Selbstlernprozess so weit zu trainieren, dass es das asiatische Strategiespiel „Go“ besser als ein Mensch beherrschte - was bis dahin als unmöglich galt.

Vereinfach dargestellt geht es darum, dass die beiden Spieler ihre Steine nach und nach so geschickt auf den 361 Schnittpunkten von 19 vertikalen und 19 horizontalen Linien verteilen, dass die jeweils gegnerischen Steine von vier Seiten eingeschlossen und damit „gefangen“ werden. Das Spiel erfordert eine Kombination aus langfristiger Überlegung, schneller Auffassungsgabe und immer neuen Lernprozessen.

Die Herausforderung für von künstlicher Intelligenz gesteuerte Systeme: Sie müssen lernen, die Muster zu erkennen, die in den intuitiven Aktionen ihres menschlichen Partners bei der Auswahl aus einer praktisch unbegrenzten Zahl von Spielzügen stecken. Nur dann können sie die Züge vorhersagen und ihnen rechtzeitig entgegenwirken. Herkömmliche KI-Module waren damit bislang überfordert, weil sie kein klares, sondern ein sich veränderndes Ziel erreichen sollten.

Maschinen das Lernen lehren

Die Parallelen zwischen dem Spiel auf dem Go-Brett und der Stellplatz-Vergabe im Hafen sind offensichtlich: Auch beim Containerstacking sind KI-Systeme gegenüber den bisherigen Lösungen im Vorteil, wenn sie auf der Basis eigener Erfahrungen die beste Lagerplatz-Kombination erkennen können, statt auf ein vorgegebenes Ziel zuzuarbeiten.

Das Erfolgsgeheimnis des digitalen Go-Spielers steckt darin, dass er erfolgreiche Spielzüge und fruchtlose Versuche für die nächste Runde speichern und damit sein Potenzial Runde für steigern kann. Das lässt sich auf die Herausforderung auf den Containerterminals anwenden. Einem selbstlernenden System muss man nicht mit viel Aufwand Bewertungskriterien einprogrammieren - es sammelt selbst seine Erfahrungen und kommt deswegen mit vergleichsweise einfachen Algorithmen aus.

Weitere Innovationen zu Künstlicher Intelligenz bei der HHLA

Ansprechpartner

Daniel Beck

Manager KI-Strategieentwicklung und -planung

Mobil +49 151 10232986

Umdenken. Vorausdenken. Weiterdenken.

Megatrends und unsere neuen Geschäftsfelder Automatisierung, Künstliche Intelligenz, Vernetzte Lieferketten, Drohnentechnologie und Wasserstoff.

Innovationen bei der HHLA