Leider ist das Gradientenabstiegsverfahren mit mehreren Problemen verbunden,
die dadurch resultieren, dass dem Verfahren lediglich die lokale Umgebung (der Gradient) bekannt ist:
Lokale Minima:
Man weiß beim Gradientenabstiegsverfahren nie, ob man nach der Durchführung
ein lokales oder absolutes Minimum gefunden hat. Dieses Problem
tritt verstärkt bei höherer Dimension des Netzes (= Anzahl der
Verbindungen zwischen den Neuronen) auf. Eine höhere Dimension führt dazu, dass die "Gebirgslandschaft"
des Fehlerterms zumeist stärker zerklüftet und sich somit die Anzahl der lokalen Minima erhöht.
Flache Plateaus:
Im Grunde genommen besteht hier genau das umgekehrte Problem.
Statt einer (zu) starken Zerklüftung existieren
- zumindest in Teilen der "Landschaft" - kaum "Berge und Täler", sondern
ein relativ flaches "Plateau". Dadurch wird der
Gradient beim Gradientenabstiegsverfahren sehr klein,
so dass das nächste "Tal" gar nicht mehr erreicht wird. Das Verfahren stagniert.
Überspringen guter Minima:
Auch dieses Problem lässt sich als Gegenstück
zum Problem lokaler Minima auffassen. Statt ein globales Minimum gar nicht zu
erreichen, wird hier das globale Minimum "übersprungen".
Dies passiert vornehmlich dann, wenn solch ein "tiefes Tal" mit relativ geringer
Ausdehnung in der Hyperebene liegt.
In der Folge findet das Gradientenabstiegsverfahren nur ein lokales Minimum (s. o.).
Direkte und indirekte Oszillation:
Im Falle der direkten Oszillation entdeckt das Gradientenabstiegsverfahren weder ein globales
noch ein lokales Minimum bzw. das Minimum wird mit deutlicher Verzögerung erreicht. Dies passiert dann, wenn der Gradient
von einem "Abhang" eines
Tals zum gegenüberliegenden "Abhang" springt und von dort wieder zur selben Stelle
zurück. In diesem Fall sind die Beträge der Gradienten gleich, lediglich die Vorzeichen
wechseln hin und her. Dem Gradientenabstiegsverfahren gelingt es nicht in die "Tiefe
der Hügellandschaft hervorzustoßen". Das Verfahren oszilliert.
Im Gegensatz zur direkten Oszillation kann es auch passieren,
dass das Verfahren nicht direkt zurückspringt, sondern mehrere
Schritte benötigt, um wieder zum Ausgangspunkt zurückkehren.