Seite
3/8
Gradientenabstiegsverfahren
Algorithmus
Lösung: Gradientenabstiegsverfahren
Statt die gesamte Hügellandschaft zu bestimmen werden die Gewichte mit dem Gradientenabstiegsverfahren nach und nach modifiziert, bei dem die gesamte n-dimensionale "Gebirgslandschaft" nicht bekannt sein muss.
Algorithmus
Das Gradientenabstiegsverfahren durchläuft folgende Schritte:
- Wahl eines (zufälligen) Startpunktes: Das Gradientenabstiegsverfahren startet mit einer zufällig gewählten Gewichtskombination.
- Festsetzung der einzelnen Parameter des Verfahrens:
- Festlegung des Lernparameters: Häufig liegt die festgelegte Lernrate ("Schrittweite") im Bereich zwischen 0.01 und 0.9.
- Festlegung des Momentumterms: Der Momentum- oder Trägheitsterm bezieht zur aktuell ermittelten Gewichtsveränderung zu einem bestimmten Prozentsatz die vorangegangene Gewichtsänderung mit ein. Stellt man sich das Gradientenabstiegsverfahren beispielsweise als einen Ball vor, der eine Hügellandschaft herunterrollt bzw. herunterspringt, dann erfolgen die Richtungsänderungen des Balles nicht abrupt, sondern aufgrund der Trägheit nimmt der Ball "Schwung" auf.
- Festlegung des Abbruchkriteriums: Es wird festgelegt, wann das Verfahren abgebrochen wird. Hierbei wird eine kritischen Differenz der Gewichtsveränderungen festgelegt, die nicht unterschritten werden darf.
- Berechnung des Gradienten: An der Startstelle wird geprüft, in welcher Richtung der "Hügellandschaft" es am steilsten "bergab" geht (siehe die roten Pfeile in Abbildung 2). Mathematisch ist der steilste Abstieg durch den sogenannten Gradienten repräsentiert bzw. genauer gesagt durch den negativen Gradienten, da der Gradient selbst den stärksten Anstieg in der "Hügellandschaft" markiert.
- Veränderung der Gewichte: Das genaue Verfahren zur Modifikation der Gewichte mit Hilfe des Gradienten und des Lernparameters soll an dieser Stelle nicht weiter erörtert werden, sondern wird in der anschließenden interaktiven Visualisierung dargestellt.
- Wiederholung: An der Stelle der neu erhaltenen Gewichtskombination wird wiederum der Gradient bestimmt und abermals eine Modifikation der Gewichte vorgenommen (siehe Abbildung 2). Der dritte und vierte Punkt werden solange wiederholt bis das Abbruchkriterium (siehe oben) erfüllt ist.

- Abbildung 2: Zweidimensionales, animiertes Liniendiagramm mit Gradientenabstiegskurve. Auf der Abszisse (x-Achse) ist das Gewicht (W) abgetragen, auf der Ordinate (y-Achse) der Fehlerterm (F). Der rote Pfeil markiert den Gradienten, der blaue gibt die Richtung und Stärke der Positionsveränderung der Gewichte an. Er bildet sich mit Hilfe des Gradienten und der Lernrate. In diesem Beispiel findet das Gradientenabstiegsverfahren nach 3 Zyklen das globale Minimum.
Einführung
