Das überraschende Prognose-Tool
Was wir seit langem über generative KI wissen: Halluzinationen kommen vor, Unscharfes und Durchschnittliches kennzeichnen nicht selten die KI-Antworten. Davor wird überall gewarnt, Checks und Korrekturen werden empfohlen.
Und nun das: Eine umfassende Studie an der Universität Chicago belegt, dass Umsatzprognosen von ChatGPT-4 (von OpenAI) oder Gemini Pro (von Google) nicht nur besser sind als speziell entwickelte mathematische Finanzmodelle, sondern auch besser als die Prognosen erfahrener Finanzanalysten1.
Diese Studie wirkt überlegt und gewissenhaft durchgeführt. Die Ergebnisse basieren auf einem Datenpool von mehr als 15.000 Unternehmen mit 150.000 Jahresumsätzen im Zeitraum 1968–2021. Sowohl die Unternehmen als auch die Jahre sind anonymisiert, sodass die Chatbots keine Informationen aus umgebenden Texten (Geschäftsberichte etc.) sammeln können. Die Eingaben bestehen daher nur aus Zahlen.
Das Interessanteste ist der gekonnte Umgang mit dem Prompt. Eine einfache Frage nach der Prognose zukünftiger Umsätze zeigt für GPT-4 ein geringfügig schlechteres Ergebnis als das, was ein erfahrener Finanzanalyst prognostizieren würde. Nutzt man jedoch eine Angabe, die im Prompt die Überlegungen und Gedankenketten eines menschlichen Finanzanalysten schrittweise vorgibt, so werden die KI-Prognosen signifikant besser als die Prognosen der Finanzanalysten.
Das bedeutet, Large Language Modelle (LLMs) können mit der Abfolge spezifischer menschlicher Überlegungen Zahlenreihen besser fortschreiben als der Mensch allein oder GPT-4 allein. Menschen denken aufgrund ihrer kaum bewussten Vorannahmen und Vorurteile ineffizient und verzerrt. Chatbots allein sind auch eher schwach.
Jedoch in Kombination mit menschlichen, algorithmusähnlichen Überlegungen, die groben Algorithmen ähneln, sind sie kaum zu schlagen. Fazit: Die Kombination aus KI und Mensch gewinnt!
Trotzdem muss theoretisch und praktisch durchdacht werden, was LLMs zu leisten imstande sind. Wir wissen offensichtlich noch immer nicht, welches Potenzial in ihnen steckt. Jeder Chatbot stellt eine Blackbox dar und überrascht nach wie vor – vielleicht sogar die Schöpfer selbst.
Daraus ist zu folgern, dass LLMs aus den Soft-Science-Bereichen in die Felder der Hard-Science hinüberreichen. Bei entsprechender Handhabung in Kombination mit dem Menschen als Kontext-Experten stellen die Large Language Modelle eine pragmatische Verbesserung dar für:
- das interne Rechnungswesen/Controlling in Unternehmen,
- die Marktbeobachtung in der Betriebswirtschaftslehre und viele Kennzahlen (Key Performance Indicators) für das strategische Management,
- die prognostische Entwicklung von Aktien, Zinsen, Wechselkursen, BIP-Wachstum oder -Schrumpfung, Arbeitslosenzahlen oder Inflation in der Volkswirtschaftslehre,
- kurzfristige Wettervorhersagen und langfristige Klimawandelprognosen, mögliche Systemveränderungen, Annäherungen an Kipppunkte,
- Vorhersagen von Erdbeben oder Vulkanausbrüchen in den Geowissenschaften,
- frühzeitiges Erkennen von Krankheitsausbrüchen und Epidemien in den Gesundheitswissenschaften,
- die Bevölkerungsentwicklung samt Hinweisen auf die Planung für Infrastruktur und entsprechenden Anforderungen für Gesundheits- und Bildungssysteme,
- Prognosen von Ernten, Schädlingsbefall oder die Entwicklung der Bodenbeschaffenheit für Pflanzen in den Agrarwissenschaften.
Daraus wiederum ist zu schließen, dass die Chatbots direkt die Entscheidungen von Managern, Administratoren oder Politikern beeinflussen können und dies auch werden. Diese KI-basierten Entscheidungen werden uns über kurz oder lang alle betreffen.
6. Juni 2024
1 Kim, A., Muhn, M., Nikolaev, V. (Mai 2024). Financial Statement Analysis with Large Language Models. Working Paper No. 2024-65. Becker Friedman Institute, the University of Chicago. https://bfi.uchicago.edu/wp-content/uploads/2024/05/BFI_WP_2024-65.pdf (3. Juni 2024)
Wieviele Kunden werden heute kommen?
Venedig: Campo Santa Margherita