Ein großer Datensatz, viele Variablen - und oh Schreck, man steht vor saftigen Herausforderungen: Wie prüfe ich meine Hypothesen, wie hängen diese Daten zusammen? In der modernen Statistik der letzten zwei Jahrzehnte werden zunehmend Prozess- und Pfadanalysen genutzt, um Zusammenhänge zu prüfen und zu erkennen. Hierbei geht es nicht nur um assoziativ-korrelative, sondern auch um mögliche kausale Effekte. Gerade letztere stehen im Fokus des Interesses bzw. der Hypothesen.

Falls es kausale Effekte gibt: Was wäre die unabhängige Variable (üblicherweise als X bezeichnet) und was die abhängige Variable (als Y bezeichnet)?

Eine umsichtige Annäherung zu eine effektive Prüfung von Hypothesen ist: Um die zu untersuchenden Phänomene besser zu verstehen, sollten zusätzlich zu den vermuteten X und Y ein Wie und ein Wann untersucht werden. Mögliche Einflüsse des Wie und mögliche Einflüsse des Wann werden nun ergänzend zum (vermuteten und so besser begründbaren) kausalen Effekt in die Untersuchung miteinbezogen. Achtung: Die als kausal vermuteten Einflüsse sollten immer themeninhaltlich begründbar sein.

Einflüsse stellen oft mögliche, aber aus einer ersten Sicht - verborgene - Strukturen dar. Klingt im ersten Moment kompliziert und ist es ein kleines Bisschen auch. Jedoch unterstützen solche Rechnungen Vorgehensweisen und Argumentationen in akademischen Arbeiten auf das Eindrucksvollste.

Die angedachten (und/oder in den Daten vorhandenen) Wie und Wann werden durch dazwischentretende Variable (intervenierende Variable) repräsentiert. Sie zeigen den möglichen Pfad der Einflüsse über mehrere Stationen. Ein Beispiel für ein Modell, das Zusammenhänge in einem Datensatz repräsentieren könnte, sieht so aus (nicht erschrecken, rechnen muss es der Computer):

Um verborgene Strukturen zu erkennen, werden grundsätzlich zwei  Arten von Drittvariablen genutzt: Mediatoren und Moderatoren. 

  • Mediatoren verweisen auf das Wie - sie mediieren = sie werden als 'in der Mitte des kausalen Geschehens' aufgefasst. Mediatoren fungieren gleichsam als Mechanismen, durch welche X einen Einfluss auf Y ausüben. Sie sind auf die eine oder andere Weise inhaltlich mit Y verbunden.

  • Moderatoren verweisen auf ein Wann - sie moderieren = sie beeinflussen gleichsam wie ein TV-Moderator das Gespräch. Das heißt, sie verändern Y, weil sie quasi 'von außen' Variationen in Y erzeugen. Moderatoren zeigen Randbedingungen oder Umstände auf.

 

Die damit zusammenhängenden Rechnungen basieren auf Regressionsanalysen. Diese sind vermutlich jedem Studierende schon begegnet: In eine Punktwolke wird versucht, eine errechnete Gerade passend zu legen, um einen linearen Trend zu erkennen. Dieser Trend zeigt die Wirkung von X auf Y in Form des Anstiegs der Geraden auf.

Strukturgleichungen machen im Prinzip das Gleiche, nur nutzen sie mehrere Variablen samt ihrer möglichen Wechselbeziehungen 'gleichzeitig'. Jetzt wird's kompliziert - das aber soll den Computer-Skripts vorbehalten bleiben. Wichtig ist nur, die Ergebnisse wieder interpretieren zu können. 

Wann immer Sie ausreichend quantitative Daten für eine Prüfung bestimmter Hypothesen haben und/oder eine glänzende Dissertation oder Masterarbeit abliefern wollen - schauen Sie nach, ob nicht das Instrument von Pfad- und Strukturgleichungen das Mittel der Wahl ist. Wenn ja, könnte dies strenge Gutachter überzeugen. Selbstverständlich zeigen ich Ihnen, wie Sie Ihre Daten auf diese Weise untersuchen!

Reinhard Neumeier
Juni 2020 


Literatur:

Baron, R./Kenny, D.: The Moderator-Mediator Variable Distinction in Social Psychological Research: Conceptual, Strategic, and Statistical Considerations. Journal of Personality and Social Psychology, 1986, Vol. 51, No. 6, S. 1173-1182. Die frühe Darstellung der Unterschiede. 

Hayes, A. (2018): Introduction to Mediation, Moderation, and Conditional Process Analysis. A Regression-Based Approach. New York: Guilford. Vorsicht, da 700 englischsprachige Seiten zu Statistik und Programmzeilen.