In dieser Übung werden wir üben wie man von Hand und mit Hilfe von R Zusammenhangsmasse für metrische und diskrete Variablen berechnet. Wenn Sie einige Inhalte der Vorlesung nochmal vertiefen wollen, oder die Berechnung in R nachvollziehen wollen, dann können Sie sich die folgenden Videos anschauen:
In den folgenden Übungen können Sie entweder den simulierten Datensatz correlation_data.csv nutzen, oder Sie können die in den Aufgaben angegebenen Deskriptiven Statistiken nutzen die auf Basis des Datensatzes ausgerechnet wurden verwenden um die jeweiligen Tests von Hand zu rechnen. Der Datensatz enthält die Variablen: geschlecht, groesse, alter, luzern.
head(correlation_data)
geschlecht groesse alter luzern
1 weiblich 162.20 24 ja
2 weiblich 168.92 20 ja
3 weiblich 165.04 19 ja
4 weiblich 161.06 20 ja
5 weiblich 171.14 25 nein
6 weiblich 172.81 26 ja
Falls Sie die Übungsfragen nicht mit R beantworten wollen, dann können Sie die hier gedruckte Tabelle der p-Quantile der \(t\)-Verteilung nutzen um die Fragen zu beantworten.
Tabelle der p-Quantile der \(t\)-Verteilung
Sowie die Tabelle der Verteilungsfunktion der Standardnormalverteilung:
Tabelle der Verteilungsfunktion der Standardnormalverteilung
Wie in den bisherigen Übungen finden Sie über den Übungsaufgaben die webr Konsole, die Ihnen das Schreiben und Durchführen von R Code direkt auf der Website ermöglicht. Wenn viele Studierenden die Übungen parallel machen, dann kann es sein, dass webr langsam wird.
Um den Code den Sie geschrieben haben auszuführen drücken Sie entweder Run Code, damit der gesamte Code ausgeführt würde. Alternativ können Sie auch einzelne Zeilen ausführen, indem sie CRTL+Enter (Windows) oder CMD+Enter (Mac) drücken.
Nutzen Sie eine Suchmaschine, wenn Sie nicht wissen welche Funktionen Ihnen ein bestimmtes Ergebnis liefern. Ausserdem können Sie in R immer die Hilfe einer Funktion aufrufen, indem sie vor den Namen der Funktion ein Fragezeichen schreiben, z. Bsp ?median oder die Hilfe-Funktion help() mit dem jeweiligen Funktionsbefehl ausführen: help(median).
Sie wollen für die Stichprobe von N = 180 Personen aus dem Datensatz correlation_data.csv testen, ob die Korrelation zwischen alter und groesse von dem Wert \(\rho_0 = .40\) unterschiedlich ist. Berechnen Sie dafür aus der Kovarianz der beiden Variablen ist \(s_{XY} = 4.48\), sowie deren Standardabweichungen \(s_{X} = 2.59\), und \(s_{X} = 6.86\) die Korrelation.
Zur Berechnung der z-Statistik für den Unterschied der beobachteten Korrelation müssen Sie als erstes den \(Z\)-Wert der beobachteten Korrelation berechnen: \(Z_r =\)
Darüber hinaus müssen sie auch den \(Z\)-Wert der Korrelation unter der Nullhypothese berechnen (3-Nachkommastellen): \(Z_{\rho_0} =\)
Dann müssen Sie noch die Standardabweichung der Stichprobenkennwerte Verteilung berechnen (3-Nachkommastellen): \(\sigma_Z =\)
Berechnen Sie anhand dieser Werte den empirischen \(z\)-Wert für den Unterschied der beobachteten Korrelation von der Korrelation unter der Nullhypothese (2-Nachkommastellen): \(z_{emp} =\)
Als erstes berechnen wir aus den Statistiken die gegeben sind die Korrelation zwischen groesse und alter. Diese ist wie in einer vorherigen Übung \(r_{XY} = 0.25\).
Mit dieser Korrelation können wir anhand der Formel für die Fisher’s Z-Transformation \(Z_r = \frac{1}{2} \cdot \text{ln} \left(\frac{1 + r}{1-r}\right)\) den \(Z\)-Wert der beobachteten Korrelation berechnen: \(Z_r = 0.257\)
Entsprechend können wir auch den \(Z\)-Wert für die Korrelation unter der Nullhypothese berechnen: \(Z_{\rho_0} = 0.424\)
Die Standardabweichung der Stichprobenkennwerteverteilung ergibt sich aus \(\sigma_Z = \frac{1}{\sqrt{N-3}} = \frac{1}{\sqrt{180-3}}= 0.075\)
Auf Basis dieser Werte können wir den empirischen \(z\)-Wert für den Test aus \(z_{emp} = \frac{Z_r - Z_{\rho_0}}{\sigma_Z} = -2.21\) berechnen.
Sie wollen für die Stichprobe von N = 180 Personen aus dem Datensatz correlation_data.csv testen, ob alter mit der groesse zusammenhängt. Dafür wollen Sie eine Produkt-Moment Korrelation berechnen. Die Kovarianz der beiden Variablen ist \(s_{XY} = 4.48\), die Standardabweichung des Alters ist \(s_{X} = 2.59\), und die Standardabweichung der Grösse ist \(s_{X} = 6.86\).
Berechnen Sie die Produkt-Moment-Korrelation (auf 2-stellen gerunder):
Berchnen Sie den empirischen \(t\)-Wert für den Hypothesentest, ob die Korrelation bedeutsam von Null unterschiedlich ist
Bestimmen Sie den kritischen \(t\)-Wert für eine ungerichtete Hypothese mit \(\alpha = .05\). Wegen der hohen Freiheitsgrade können Sie dafür näherungsweise die Tabelle der Standardnormalverteilung nutzen:
Die Korrelation können Sie anhand der Fromel \(r_{XY} = \frac{s_{XY}}{s_X \cdot s_Y}\) aus den Werte in der Aufgabenstellung berechnen. Dabei sollten Sie auf den Wert \(0.25\) kommen.
Der empirische \(t\)-Wert berechnet sich anhand der Formel: \(t = \frac{r \cdot \sqrt{N-2}}{\sqrt{1-r^2}}\), wenn Sie die Korrelation auf 2 Nachkommastellen gerundet haben, dann ist der Wert: \(3.44\). Wenn Sie die Korrelation auf mehr Nachkommastellen berechnen, dann ist der Wert: \(3.47\)
Den kritischen \(t\)-Wert lesen sie wegen der hohen Freiheitsgrade \(df = 178\) aus der \(z\)-Tabelle der Standardnormalverteilung ab, da die \(t\)-Verteilung in diesem Fall ausreichend gegen die Standardnormalverteilung konvergiert ist. Wenn Sie den kritischen Wert aus der Standardnormalverteilung bestimmen erhalten sie: \(t_{krit} = 1.96\), wenn Sie den kritischen Wert mit Hilfe von R aus der \(t\)-Verteilung mit \(df = 178\) bestimmen erhalten sie: \(t_{krit} = 1.97\).
Sie wollen für die Stichprobe von N = 180 Personen aus dem Datensatz correlation_data.csv berechnen, ob es einen Zusammenhang zwischen der groesse und dem geschlecht der Teilnehmer gibt. Der t-test für unabhängige Stichproben hat einen empirischen \(t\)-Wert von \(t_{emp} = -9.24\) ergeben.
Berechnen Sie den Betrag der Punkt-Biseriale-Korrelation (auf 2-stellen gerundet): \(|r_{pb}| =\) .
Wie viel Varianz wird durch das Geschlecht an der Grösse erklärt (in Prozent mit keinen Nachkommastellen):
Mit Hilfe der Formel \(r_{pb} = \frac{t}{\sqrt{t^2+df}}\) können wir den \(t\)-Wert in die Punkt-Biseriale Korrelation umrechnen. Die Freiheitsgrade ergeben sich dabei aus \(df = N - 2 = 178\). Wenn Sie dabei den negativen \(t\)-Werte von \(t_{emp} = -9.24\) einsetzen sollten Sie dabei auf den Wert: \(r_{pb} = -0.57\) kommen. Da sie bei der Nominalskalierten Variable geschlecht nicht wirklich eine klare Ordnung haben, macht es mehr Sinn den absoluten Wert der punkt-biserialen Korrelation anzugeben: \(|r_{pb}| = 0.57\)
Für die aufgeklärte Varianz können wir die Punkt-Biseriale Korrelation quadrieren: \(r_{pb}^2 = 0.32\). Dieser Wert mal 100 gibt die aufgeklärte Varianz in Prozent