Wie steht's um die Qualität?
ChatGPT ist ein Generalist –
für vieles sehr brauchbar, etwa für spezifische Anwendungen im Bildungs- oder Gesundheitsbereich.
Für vieles, etwa im Berufsleben, kann GPT eventuell sogar gefährlich werden. Man denke nur an erfundene (halluzinierte) Fälle in der US-amerikanischen Rechtssprechung.
Für alle Antworten von ChatGPT gilt das Warndreieck auf der Straße: Achtung Gefahr voraus!
Denn die angebotenen Informationen wirken zwar vertrauenswürdig, sind es aber nicht. Die KI-Generalisten sind eben eine black box – die Anwender*innen wissen nicht, wie die Antworten entstanden sind, auf welchen Quellen sie beruhen und ob sie tatsächlich das letztgültig bewährte Wissen repräsentieren.
Für wissenschaftliche Zwecke sind die universalen Bots in dieser Form unbrauchbar. Die textgenerative KI wird sowohl kreative als auch seriös forschende Wissenschaftler nicht ersetzen können.
Zu erwarten ist daher, dass für wissenschaftliche Zwecke spezifische KI auf den Markt kommen wird – erste Ansätze sind zu erkennen. So lassen sich pdf-Dateien durchsuchen und auf ihre wichtigen Erkenntnisse reduzieren.
Um diese neuen wissenschaftsspezifischen Bots einschätzen und beurteilen zu können, bedarf es bestimmter Kriterien. Dies ist allerdings nichts Neues. Die Wissenschaftstheorie bietet einen Fundus an in den letzten Generationen entwickelten Gütekriterien.
Denn im Grunde weiß man beim Lesen eines Artikels und einer Studie nie, ob es sich dabei um gute Wissenschaft handelt oder zum Zwecke des ‚publish or perish‘ verfasst wurde.
Gute Wissenschaft zeigt sich oft erst nach Jahren. Ein berühmtes Beispiel hierfür ist Albert Einstein, der selbst nach fünf Veröffentlichungen in 1905, seinem "Wunderjahr" weitere vier Jahre technischer Experte 3. Klasse im Berner Patentamt blieb. Vier dieser Veröffentlichungen waren nach Weizsäcker1 nobelpreiswürdig. Erkannt hat man das erst viele Jahre später.
Behelfsmäßig springen hier Gütekriterien ein – sie sind Indizien für wissenschaftliche Qualität. Hierbei geht es um Wege der Evidenz, um Überprüf- und Nachvollziehbarkeit. Dies, um Inhalte verstehen und erklären zu können.
Die grundlegenden Forschungsansätze werden grob in drei Kategorien eingeteilt: Quantitative, qualitative und Mixed-Method-Verfahren. Die letzten Jahrzehnte haben gezeigt, dass Gütekriterien für eine Richtung nicht unbedingt wissenschaftliche Qualität für die andere Richtung verbürgen. Zu unterschiedlich sind Ziele, Forschungswege und Forschungsmethoden.
Qualität in einer Kategorie kann Qualität in der anderen Kategorie mindern.
Wir stehen im Grunde bei der Beurteilung der Qualität des KI-Outputs vor demselben Problem wie bei der Beurteilung von wissenschaftlichen Studien. Warum daher nicht die mühsam über Forschergenerationen erarbeiteten Gütekriterien auch für KI anwenden? Damit käme XAI ins Spiel.
29. Jänner 2024
1 Weizsäcker, C. (1992). Das Carl Friedrich von Weizsäcker Lesebuch. München: DTB, S. 46
Qualität fürs Auge und den Gaumen