Ein Blick unter die Motorhaube der generativen KI
Das im vorhergehenden Blog-Beitrag geschilderte McDonald’s-Beispiel zeigt die Grenzen des GPT(Generative Pretrained Transformer)-Modells auf. Dieses in den USA entwickelte und seit zwei Jahren gepushte Modell gründet auf einem riesigen Pool von Wörtern einer Standardsprache. Hauptursache für die zahlreichen Missinterpretationen gesprochener Bestellungen dürften Akzente und Dialekte der amerikanischen Kunden gewesen sein.
Das lässt das GPT-Modell ins Schleudern geraten. Für eine auf Standard-Englisch vortrainierte KI bauen sich durch die individuelle Aussprache von Anwendern schwer zu überwindende Hindernisse auf. Die KI tut dann das, wofür sie programmiert ist: Sie bietet ein Ergebnis, auch wenn es in der realen Welt einen Nonsens ergibt.
Das Transformer-Modell
Wie bekannt, untersucht das vortrainierte Transformer-Modell die statistischen Verhältnisse eines Wortes zu einem anderen in einer bereits Monate oder Jahre vorher erstellten Datenbank. Es errechnet innerhalb eines neuronalen Netzwerks in überlagernden Ebenen (durch das sogenannte „Deep Learning“) Verhältnisse zwischen einzelnen Wörtern und baut Folge-Wahrscheinlichkeiten auf.
Soll nun ein Text von 1.000 Wörtern durch die KI mittels eines Prompts untersucht werden, so gilt: „Der Transformer benötigt 1.000 mal 1.000 Schritte, weil jedes Sequenzelement auf jedes andere Sequenzelement schaut“1.
Das heißt, der Aufwand der KI potenziert sich zum Quadrat mit den Anforderungen. Daraus folgt unmittelbar, nur ein einziges Wort mehr und die KI muss 1.000 zusätzliche Verhältnisse untersuchen. Das wirkt sich rasch auf die Rechenprozesse, benötigten Speicher, verbrauchten Strom und die Zeitdauer aus. Die Grenzen dieses Transformer-Modells werden wie anno dazumal als heiße Dampfwolke aus dem Wasserkühler eines überforderten Motors sichtbar.
Das LSTM-Modell
Das bis etwa 2017 in den Large Language-Modellen maßgebende Modell ist das LSTM (Long Short-Term Memory). Es wurde ab den 1990er Jahren in Europa entwickelt. Das zentrale Kennzeichen hier ist die Fähigkeit, auch im Moment des Abfragens Wörter, die zuvor (im Prompt oder im zu untersuchenden Text) erwähnt wurden, zu speichern. Diese Wörter (Begriffe) werden in Form kleiner Happen für längere Zeit behalten. Dementsprechend heißt es etwas ambivalent „Long Short-Term Memory“.
LSTM wurde in den letzten Jahren vom simpel gehaltenen Transformer aufgrund dessen „Skalierbarkeit“ überholt. Skalierbarkeit nennt man die Fähigkeit eines Systems, auch bei veränderten Größen weiter zu funktionieren. Meist meint man damit die Fähigkeit zu großem Wachstum. Einfacher ausgedrückt: Brutale Rechenpower und technische Tricks im Transformer-Modell haben über intelligentes Merken, Suchen und Bewerten gesiegt.
Obwohl der Transformer vom Konzept her ohne Gedächtnis für das Verstehen der Anweisungen auskommt und daher primitiver ist, haben schnelle parallele Chips, ausgelagerte Trainingseinheiten und riesige Server-Farmen das intelligente LSTM verdrängt.
Ausgetrickst und doch wieder im Kommen?
Kein Baum wächst in den Himmel, auch nicht die amerikanischen Mammutbäume. Wie das weltweit berichtete und vermutlich von Ihnen mit Schmunzeln gelesene McDonald’s-Beispiel zeigt, stößt das Transformer-Modell auch nach außen und gut sichtbar an seine Grenzen. Andere und klügere KI-Modelle geraten wieder in den Blick von Systementwicklern. Das Pendel könnte sogar zurückschwingen, denn eine verbesserte Version, das xLSTM, wurde Anfang Mai 2024 präsentiert2.
Dies ist eine neu entwickelte Variante des ursprünglichen LSTM, das die Stärken des Transformer-Modells mit den Vorteilen des LSTM kombinieren soll. Diese neue Variante speichert nicht nur die Wörter des Textes, sondern gewichtet sie auch. Denn es kann in einem höherdimensionalen Raum Kontexte bewerten und verschiedene Memorys mischen, um so eine bessere Antwort auf die Anfragen zu erhalten.2
Fazit: Im Gegensatz zum Transformer mit seinem exponentiell wachsenden Ressourcenverbrauch steigt in xLSTM-Netzen der Aufwand nur linear (!) mit den Anforderungen.
Im eben erwähnten Zitat eines Anforderungstextes von 1.000 Wörtern heißt es daher: „[...] braucht unser neuer xLSTM-Algorithmus nur 1.000 Schritte, nämlich einen Schritt, um ein Element der Sequenz abzuarbeiten“1. Das neue Modell konzentriert sich auf den Inhalt eines Wortes und merkt sich seine Bedeutung. Es vermeidet so den steil abfallenden Grenznutzen, wie es bei umfangreichen Texten der Fall ist.
Für kleinere Anwendungen, etwa in der Robotik, dürfte xLSTM bereits jetzt besser sein als das Transformer-Modell, da es effizienter mit den Daten in einem begrenzten Kontext umgeht. Kommt mittelfristig ein Modell-Change in der KI auf uns zu? Oder ein Wechsel zu Kombinationen mit dem Transformer und xLSTM?
Oder ein Wechsel zu dreifach gemischten Modellen. So könnten hier neben den erwähnten zwei Modellen auch klassische Datenbankabfragen zu Produkten, Preisen und Spezifikationen durchgeführt werden. Denn die Durchführung solcher Abfragen darf keinesfalls kreativ sein, sonst erhält man falsche Ergebnisse. Ist der alte Kontinent Europa doch nicht so rückständig, wie in den Medien häufig zu lesen ist?
26. Juli 2024
PS: Viel technisches Zeug ist im heutigen Blog zu lesen. In den nächsten Beiträgen wird’s wieder erzählerisch. Versprochen! 😊
Verzwickte Technik: Don Quijote im Kampf mit der Windmühle
1 Armbruster, A (15.07.2024). „Die großen Sprachmodelle sind so intelligent wie eine Datenbank“. Der deutsche Informatiker Sepp Hochreiter hat die Künstliche Intelligenz revolutioniert. Er sagt, was Computer vom Gehirn unterscheidet – und mit welcher Idee er die führenden KI-Modelle ausstechen will. Frankfurter Allgemeine. https://www.faz.net/pro/d-economy/ki-pionier-sepp-hochreiter-was-computer-vom-gehirn-unterscheidet-19840488.html
2 Beck, M./Auer,A./Klambauer, G. et al. (2014). xLSTM: Extended Long Short-Term Memory. arXiv:2405.04517v1 [cs.LG] 7 May 2024.