Reinforcement Learning (RL, deutsch: verstärkendes Lernen) ist ein Teilgebiet des maschinellen Lernens: ein digitaler Lernagent, der aus seinen eigenen Erfahrungen lernt. Dieses System muss nicht mit Daten gefüttert werden, um Aufgaben zu erfüllen. RL zielt darauf ab, keine externen Daten zu verwenden, sondern sich aus Erfahrungen in der Umgebung durch positives und negatives Verhalten weiter zu entwickeln, um verwertbare Ergebnisse zu erzielen.
Es gibt drei Arten des maschinellen Lernens: überwachtes, unbeaufsichtigtes und verstärkendes Lernen. Überwachtes maschinelles Lernen ist dem verstärkenden Lernen sehr ähnlich, allerdings mit einem Satz von Trainingsdaten, die zur Korrektur der eigenen Aktionen verwendet werden. Beim unüberwachten Lernen gibt es keinen Trainingsdatensatz, sondern die Modelle entdecken Erkenntnisse aus verborgenen Daten und Mustern.
Das Ziel des verstärkten Lernens besteht darin, keinen trainierten Datensatz oder versteckte Daten zu verwenden, sondern eine Aufgabe nach der Methode Trial and Error (Versuch und Irrtum) auszuführen.
So wie Menschen durch wiederholte Handlungen auf bestimmte Aufgaben trainiert werden, zielt verstärkendes Lernen darauf ab, dass der Algorithmus aus seinen eigenen Handlungen und Ergebnissen neue Schlussfolgerungen zieht.
Verstärkendes Lernen wird anhand seiner Typen besser verständlich. Es gibt zwei Arten von RL: positiv und negativ.
Positive Verstärkung liegt vor, wenn eine Handlung zu einem positiven Ergebnis führt. Jede Handlung eines Agenten, die die Gesamtleistung in der Umgebung erhöht, wird als positive Verstärkung betrachtet. Positives Verhalten wird zu bestehenden maschinellen Lernmodellen hinzugefügt, um als Belohnung zu fungieren. Es wird verstärkt, um vergleichbare Ergebnisse erneut zu erzielen.
Negatives Verstärkungslernen ist Lernen durch negative Ergebnisse und negatives Verhalten. Wenn der Algorithmus negative Handlungen ausführt, wird das negative Verhalten in Form einer Bestrafung verstärkt, damit die vorhandenen Modelle sich verbessern und bessere Leistungen erbringen. Die Bestrafung (negatives Verhalten) wirkt als Abschreckung, um das negative Verhalten zu minimieren. Sie setzt gleichzeitig einen Standard für positives Verhalten.
Dies wiederum ermöglicht es dem Agenten, durch die Leistungsoptimierung die Gesamtbelohnung zu maximieren.
Zum besseren Verständnis des Konzepts des Verstärkungslernens sind hier einige Beispiele aus der Praxis aufgeführt.
Kennen Sie die Pawlowsche Konditionierungstheorie? Verstärkendes Lernen funktioniert ähnlich.
Im Rahmen der Konditionierungstheorie schlug Pawlow vor, dass das Training eines Hundes einen Reiz erfordert. Dieser Reiz war das Läuten einer Glocke
. Das Geräusch allein führte jedoch zu keiner Reaktion. Auch die Präsentation des Futters führte zu keiner Reaktion des Hundes. Wurde jedoch die Glocke geläutet und das Futter dargeboten, begann der Hund zu speicheln. Pawlow schloss daraus, dass Speichelfluss eine erlernte Reaktion ist. Auch ohne Futter reagierte der Hund jedes Mal, wenn die Glocke läutete, mit Speichelfluss. Ähnlich verhält es sich mit der Verstärkung.
Der Hund wurde konditioniert und verband das Läuten der Glocke mit Futter. Wenn das Futter mit einer Verstärkung verbunden war, wirkte es als positive Verstärkung.
Je nach Anwendungsfall kann die Belohnung positiv oder negativ sein. Ein Hund kann auch bestraft werden, um Verbesserungen zu ermöglichen.
Verstärkungslernen kann in verschiedenen Bereichen eingesetzt werden: Marketing, Gesundheitswesen, Rundfunk und Robotik. Hier sind einige der Anwendungen von Reinforcement Learning:
Das digitale Marketing kann vom Reinforcement Learning profitieren. Im Marketing geht es darum, die Vorlieben und Abneigungen der Zielgruppe zu erkennen und ihr Kaufverhalten vorherzusagen. Unternehmen geben viel Geld für Analysen und digitale Marketingkampagnen aus, um solche Trends zu verstehen.
Reinforcement Learning und seine Möglichkeiten können Vermarktern helfen:
Auch der Rundfunk und der Journalismus profitieren in hohem Maße vom Verstärkungslernen. Durch negative und positive Verstärkung ist es einfacher, das Verhalten des Lesers in Bezug auf den Nachrichteninhalt zu erkennen.
Das Publikum hat heute viele Möglichkeiten, Gedanken und Meinungen zu einem bestimmten Thema zu äußern. Dies hat die Medien dazu veranlasst, Nachrichten vor ihrer Veröffentlichung auf ihre Richtigkeit zu überprüfen. Verstärkungslernen kann den Sendern helfen, die Wirksamkeit einprägsamer Schlagzeilen zu verstehen und die Reaktionen der Nutzer entsprechend vorherzusagen.
Pro Gamers profitieren von Reinforcement Learning. Sie können den Agenten darauf trainieren, unerwarteten Herausforderungen zu begegnen, die ein normaler Spieler nicht meistern kann. Verstärkungslernen wurde bereits in beliebten Handyspielen wie Flappy Bird, Subway Surfers und anderen eingesetzt.
Das Verstärkungslernen hat diese Games spielbarer gemacht. Das Hinzufügen negativer Verstärkung wie der Abzug von Münzen und die Verringerung von Leben motiviert den Agenten, seine Leistung durch Erfahrung zu verbessern. Positives Verhalten wird durch Belohnungen in Form von Münzen gefördert. Diese Spiele verwenden eine Technik des Verstärkungslernens (der sogenannte Q-Learning-Ansatz), um den Agenten zu trainieren.
Das Verstärkungslernen wurde auch bei Ligaspielen wie Alpha Go und vielen anderen eingeführt.
Verstärkungslernen kann Leben retten. Es kann Krankheiten diagnostizieren, die besten Behandlungen vorschlagen, die erforderliche Medikation und sogar die Zeitpunkte bestimmen, zu denen die Dosen für die besten Ergebnisse verabreicht werden sollten.
RL verwendet hierfür DTRs (Dynamic Treatment Regimes). Es kann auch die Zahl von Fehlbehandlungen aufgrund von Verzögerungen bei der Diagnose reduzieren. RL identifiziert Probleme durch seine optimierten und verstärkten Lösungen.
RL automatisiert den Entscheidungsprozess, der bei laufenden Behandlungen erforderlich ist. Studien haben auch die Nutzbarkeit von Deep Reinforcement Chemotherapie, glykämische Kontrolle bei der Sepsis-Behandlung und mehr erwiesen.
Verstärkendes Lernen im Gesundheitswesen muss jedoch erst noch in realen Situationen getestet werden.
Studien zufolge kann RL bei der Bestandskontrolle und bei der Katastrophenhilfe von Nutzen sein. RL verwendet historische Daten, um den Bedarf an Lagerbeständen durch seinen Prognose- und Optimierungsansatz im Voraus zu bestimmen. Es ist auch praktikabler als andere Anwendungen des maschinellen Lernens, da RL eine Umgebung benötigt, mit der es interagieren kann.
RL-Algorithmen können auch für die Bereitstellung von Lösungen verwendet werden. Angesichts des Mangels an Forschung und Anwendungen ist RL bisher bei der Handhabung komplexer Multiagentensysteme noch nicht praktikabel.
RL in der Logistik ist jedoch potenziell ein mächtiges Werkzeug, sobald mehr Forschungsmethoden in diesem Bereich angewendet werden.
Das Hauptziel von Fertigungsbetrieben besteht darin, Produkte herzustellen, die den Bedürfnissen und Wünschen der Menschen entsprechen. Hersteller können RL-Lösungen nutzen, um den Prozess der Verpackung zu beschleunigen, Qualitätstests durchzuführen und Kundenfeedback schneller zu erhalten. RL kann das Kundenfeedback intelligenter nutzen und Verbesserungen in den Fertigungsprozess einfließen lassen. Dies führt zu einer besseren Produktleistung, Produktrentabilität und einer Erhöhung der Umsatzspanne.
In folgenden Bereichen bietet sich Reinforcement Learning für die Produktion an:
RL kann auch bei der Auftragsplanung und Disposition von Massenprojekten innerhalb von Produktionseinheiten erfolgreich eingesetzt werden. Bei der Auftragsplanung gibt es viele Probleme, die auf einen Mangel an Informationen und Konfigurationsprobleme zurückzuführen sind. RL behandelt diese als negative Verhaltensweisen und entwickelt Optimierungstechniken, um positive Ergebnisse zu verstärken.
RL kann auch Herausforderungen im Zusammenhang mit additiver Fertigung, Produktmontage, hochpräziser Montage und mehr lösen.
Die Liste ist nicht erschöpfend. Verstärkungslernen kann auf viele andere Bereiche wie Robotik, Bildverarbeitung und Gastfreundschaft angewendet werden.
Da sich das Reinforcement Learning noch in der Entwicklungsphase befindet, weist es auch einige Einschränkungen auf.
einen starken Fehlermodus, der mit scheinbar geringfügigen Fehlern bei der Datenerfassung verbunden ist.
Bis man eine Belohnungsfunktion entwickelt hat, die in jedem Zeitschritt ein gutes Signal liefert, hat man die Aufgabe im Grunde schon gelöst.
Verstärkungslernen ist ein Schritt zur Revolutionierung der vorhandenen Daten. Verstärkungslernen hat das Potenzial, allein mit Hilfe von Daten zu arbeiten, ohne Kenntnisse über Dynamik oder Analytik. Dieses Agenten- und Belohnungssystem lernt aus seiner eigenen Umgebung und Erfahrung, um Verhaltensweisen vorherzusagen – sei es im Bereich der Finanzen, des Marketings, der Werbung, der Spiele, der Robotik oder des Rundfunks.
Beim Verstärkungslernen interagiert ein Agent mit einer Umgebung, indem er auf der Grundlage seines aktuellen Zustands Aktionen auswählt. Die Umwelt reagiert auf die Aktionen des Agenten mit Belohnungen oder Strafen. Der Agent aktualisiert seine Strategie auf der Grundlage dieses Feedbacks. Ziel ist es, eine Strategie zu erlernen, die die erwartete Gesamtbelohnung im Laufe der Zeit maximiert.
Verstärkungslernen wurde erfolgreich auf eine Vielzahl von Problemen angewandt, darunter Spiele (zum Beispiel AlphaGo), Robotik (Steuerung eines Roboterarms), autonomes Fahren (Navigation eines Autos) und Empfehlungssysteme (Produktvorschläge für Kunden).
Zu den gängigen Algorithmen des Verstärkungslernens gehören Q-Learning, SARSA und Deep Reinforcement Learning.
Beim überwachten Lernen lernt das Modell, Vorhersagen auf der Grundlage markierter Daten zu treffen, während es beim verstärkenden Lernen lernt, Entscheidungen auf der Grundlage von Rückmeldungen aus der Umgebung zu treffen. Überwachtes Lernen wird in der Regel für Aufgaben wie Klassifizierung und Regression verwendet, während verstärkendes Lernen für Aufgaben wie Kontrolle und Entscheidungsfindung eingesetzt wird.