Paired t-test
data: data$post and data$pre
t = 2.2278, df = 29, p-value = 0.03381
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
0.02458924 0.57541076
sample estimates:
mean difference
0.3
Übungsfragen: Klausurvorbereitung
HS 2025
Übungsfragen: Klausur
Auf dieser Übungsseite finden Sie noch weitere Übungsfragen zur Vorbereitung auf die Klausur. Die Fragen werden alle entweder Single-Choice oder K-Prim Fragen mit je 4 Antwortoptionen sein. Die Formatierung der Fragen ist nicht identisch mit der Klausur, das Frageformat ist jedoch identisch. Die Lösungen erklären die korrekten Antworten kurz, wiederholen aber nicht alle Details der jeweiligen Inhalte.
Wichtig: Die Inhalte der Fragen sind nicht repräsentativ für die Inhalte die eventuell in der Prüfung abgefragt werden. Die Fragen sollen Ihnen ermöglichen einen guten Eindruck zu bekommen wie unterschiedliche Inhalte der Vorlesung in der Prüfung abgefragt werden.
Skalenniveaus
Welche der folgenden Transformationen erhalten das Skalenniveau einer ordinalskalierten Variablen (z. Bsp. Rangplätze bei einem Wettrennen)?
Kreuzen Sie für jeden Antwort an, ob diese richtig (ankreuzen) oder falsch (nicht ankreuzen) ist.
Für eine ordinalskalierte Variable müssen Transformationen mindestens streng monoton sein. Das heisst die Funktion der Transformation steigt entweder über den gesamten Werte bereich an, oder sie fällt ab. Wenn Sie abfällt, dann würde sich bei der Transformation die Richtung der Rangfolge jeweils umdrehen.
Entsprechend erhalten monotone Transformationen und positiv-lineare Transformationen das Ordinalskalenniveau. Zweiteres ist eine strengere Transformation die sogar das Intervallskalenniveau erhalten würde. Diese Transformationen dürfen aber auch für niedrigere Skalenniveaus angewendet werden.
Eineindeutige Transformationen erhalten nur das Nominalskalenniveau, aber reichen nicht aus um das Ordinalskalenniveau zu erhalten. Und Transformationen, die die Rangordnung verändern würden die Oridale Rangfolge auch nicht erhalten.
Welche der folgenden Aussagen zu unterschiedlichen Datenformaten in der Programmiersprache R sind korrekt.
Kreuzen Sie für jeden Antwort an, ob diese richtig (ankreuzen) oder falsch (nicht ankreuzen) ist.
Eine Variable vom Typ factor dient der Repräsentation kategorialer Variablen; die interne numerische Codierung ist rein technisch und nicht inhaltlich interpretierbar.
Eine Variable vom Typ vector muss homogen sein; Wenn man versucht unterschiedliche Variablentypen in dem gleichen Vektor zu speichert führt das zu einer impliziter Typkonversion (z.B. alle Werte werden zu numeric oder character konvertiert).
Eine Variable vom Typ matrix ist eine 2-dimensionale Datenstruktur dim-Attribut und kann so wie ein vector nur einen Datentyp enthalten.
Eine Variable vom Typ boolean kodiert logische Werte und erlaubt entsprechen nur zwei Ausprägungen (TRUE/FALSE). Daher kann eine solche Variable keine Ordnung mit mehr als zwei Stufen abbilden; Häufig erfordern ordinalskalierte Merkmale jedoch Ranginformation über mehrere Kategorien.
In einer Studie bewerten Teilnehmer die Stimmung einer Person auf einem Foto auf einer Skala von 1 (“sehr schlecht”) bis 7 (“sehr gut”). Welche der folgenden Aussagen beschreibt das Skalenniveau dieser Messung am treffendsten?
Die richtige Antwort ist: “Ordinalskala, da die Reihenfolge der Bewertungen interpretierbar ist.”
Die Messung erlaub eine Ordnung der Stimmung (“besser” vs. “schlechter”), aber es ist nicht garantiert, dass die Teilnehmer gleiche Abstände zwischen den einzelnen Ratingstufen annehmen. Entsprechen solltend die Werte eher auf Ordinalskalenniveau interpretiert werden, auch wenn Zahlen für die Ratings verwendet werden.
In der Praxis werden häufig mehrere Items solcher Rating-Skalen aggregiert. Die Summe dieser Werte bzw. der Mittelwert über mehrere solcher Items wird dann in der Regel mit einer Intervallskala interpretiert. Aus einer Methodischen Perspektive sollte dabei jedoch mit geeigneten Analysen (die wir nicht behandelt haben) getestet werden, ob diese Annahme gerechtfertigt ist.
Masse der zentralen Tendenz
Das Alter von Frauen und Männern unter den Psychologiestudierenden im 1. Semester an der Uni Luzern hat für Frauen und Männern den Median von 22.5 und einen Mittelwert von 22.5.
Welche der folgenden Aussagen lässt sich aus diesen Werten zwingend ableiten? Beurteilen Sie für jede Aussage an, ob diese richtig (ankreuzen) oder falsch (nicht ankreuzen) ist.
Aussage 1 ist falsch: Gleicher Mittelwert und gleicher Median reichen nicht aus, um zu schließen, dass die gesamten Verteilungen identisch sind. Die Gruppen könnten sich z. B. in Streuung, Form (Schiefe) oder Ausreißern unterscheiden und trotzdem denselben Median und Mittelwert haben.
Aussage 2 ist falsch: Ein Mittelwert von 22.5 bedeutet nur, dass der Durchschnitt 22.5 ist. Es ist nicht notwendig, dass ein beobachteter Wert genau 22.5 vorkommt. Beispiel: Werte 22 und 23 haben einen Mittelwert von 22.5, ohne dass 22.5 beobachtet wird.
Aussage 3 ist richtig: Mittelwert und Median sind beides Lagemaße. Wenn beide Gruppen denselben Mittelwert (22.5) und denselben Median (22.5) haben, ist die zentrale Lage (im Sinne dieser Lagemaße) in beiden Gruppen gleich.
Aussage 4 ist richtig: Definition des Medians: Mindestens 50% der Beobachtungen liegen kleiner oder gleich dem Median und mindestens 50% liegen größer oder gleich dem Median. Daher gilt zwingend: Mindestens 50% sind \(\le 22.5\).
Beurteilen Sie die folgenden Aussgane zur Indizierung und Auswahl von Werten aus einer Variable in R.
Beurteilen Sie für jede Aussage an, ob diese richtig (ankreuzen) oder falsch (nicht ankreuzen) ist.
Vektoren sind eindimensionale Datenstrukturen, entsprechend werden einzelne Elemente über eckige Klammern und ihre Position ausgewählt -> Antwort 1 ist richtig
Der $-Operator greift auf benannte Komponenten von Listen und Data Frames zu, sofern diese benannte Elemente besitzen -> Antwort 2 ist richtig
Auch Data Frames unterstützen eine zweidimensionale Indizierung mit [Zeile, Spalte]. Intern werde Data Frames von R zwar als Listen gespeichert, bei der Auswahl von Zeilen und Spalten verhalten sie sich aber matrix-ähnlich. -> Antwort 3 ist also falsch
Bei Matrizen gibt die Auswahl einer einzelnen Zeile ohne zusätzliche Optionen standardmäßig einen Vektor zurück, der alle Spaltenwerte dieser Zeile enthält. -> Antwort 4 ist richtig
In einer Untersuchung erheben Sie die Anzahl an korrekt gelöster Aufgaben in einem Konzentrationstest. Die Verteilung der Werte ist stark rechtsschief, da einige wenige Personen extrem viele Aufgaben lösen.
Welches Mass der zentralen Tendenz ist hier am sinnvollsten, um eine “typische” Leistung zu beschreiben?
Für dieses Szenario ist der Median die sinnvollste Wahl um die “typische” Leistung zu beschreiben, da dieser - im Gegensatz zum Mittelwert - kaum durch die extremen Leistung einiger weniger Personen beeinflusst wird.
Das Filter (d.h. nicht berücksichtigen einiger Werte) ist in der Regel subjektiv, da der Cut Off ab dem Werte nicht berücksichtigt werden in der Regel nicht objektiv bestimmt werden kann.
Dispersionsmasse
Welche der folgenden Aussagen zur Interpretation von Streuungsmassen sind korrekt?
Beurteilen Sie für jede Aussage an, ob diese richtig (ankreuzen) oder falsch (nicht ankreuzen) ist.
Aussage 1 ist falsch: Ein großes Streuungsmass beschreibt zunächst nur, dass sich die beobachteten Werte stärker voneinander unterscheiden. Dies kann unterschiedliche Ursachen haben, z.B.: echte Unterschiede zwischen Personen, eine heterogene Stichprobe, oder tatsächlich eine ungenaue Messung. Aus der Streuung allein lässt sich daher nicht eindeutig auf Messgenauigkeit schließen.
Aussage 2 ist richtig: Streuungsmasse geben an, wie stark die Werte um einen typischen Wert variieren, nicht aber, wo dieser typische Wert liegt. Erst zusammen mit einem Lagemass (z.B. Mittelwert oder Median) wird die Verteilung der Daten sinnvoll interpretierbar.
Aussage 3 ist richtig: Der Mittelwert beschreibt nur die zentrale Lage der Daten. Unterschiedliche Verteilungen können denselben Mittelwert haben, sich aber stark darin unterscheiden, wie breit oder eng die Werte um diesen Mittelwert verteilt sind.
Aussage 4 ist falsch: Die Standardabweichung wird in den Einheiten der jeweiligen Variable gemessen. Unterschiedliche Variablen (z.B. Jahre vs. Kilogramm) haben daher Standardabweichungen auf nicht vergleichbaren Skalen, sodass ein direkter Vergleich inhaltlich nicht sinnvoll ist.
Beurteilen Sie die folgenden Aussagen zur Verwendung von relationalen und logischen Operatoren in R.
Beurteilen Sie für jede Aussage an, ob diese richtig (ankreuzen) oder falsch (nicht ankreuzen) ist.
Aussage 1 ist richtig: Relationale Operatoren wie <, >, <=, >=, == oder != prüfen Vergleiche zwischen Werten. Das Ergebnis eines solchen Vergleichs ist immer ein logischer Wert, der angibt, ob die jeweilige Bedingung erfüllt ist.
Aussage 2 ist richtig: Der Operator & entspricht einer logischen UND-Verknüpfung. Nur wenn beide verknüpften logischen Ausdrücke den Wert TRUE haben, ist auch das Gesamtergebnis TRUE.
Aussage 3 ist falsch: Der Operator | steht für eine logische ODER-Verknüpfung. Er liefert TRUE, wenn mindestens einer der verknüpften logischen Ausdrücke TRUE ist – nicht FALSE.
Aussage 4 ist richtig: In R werden logische Operationen auf Vektoren standardmäßig elementweise ausgewertet. Das bedeutet, dass jedes Element eines Vektors separat mit dem entsprechenden Element eines anderen Vektors verglichen oder verknüpft wird.
In einer Stichprobe wurden die folgenden Werte einer intervallskalierten Variable erhoben:
\[ X={4,6,8,10} \]
Berechnen Sie den Populationsschätzer der Standardabweichung für die Variable X.
Für die Berechnung des Populationsschätzers der Variable X müssen wir als erstes den Mittelwert berechnen:
\[ \bar{X}= \frac{\sum X_i}{N} = \frac{4 + 6 + 8 + 10}{4} = 7 \]
Dann können wir die Summe der Quadrierten Abweichungen berechnen, die im Zähler der Formel für den Populationsschätzer der Standardabweichung stehen:
\[ \sum_{i =1}^N (X_i - \bar{X})^2 = (4-7)^2 + (6-7)^2 + (8-7)^2 + (10-7)^2 = 20 \]
Die Summe der Quadrierten Abweichungen teilen wir nun durch die Stichprobengrösse minus 1 (N-1) um den Populationsschätzer der Varianz zu erhalten:
\[ \hat{\sigma}^2 = \frac{\sum_{i =1}^N (X_i - \bar{X})^2}{N-1} = \frac{20}{4-1} = 6.666... \approx 6.667 \]
Und als letztes müssen wir aus dem Populationsschätzer der Varianz noch die Wurzel ziehen um den Populationsschätzer der Standardabweichung zu erhalten:
\[ \hat{\sigma} = \sqrt{\hat{\sigma}^2} = \sqrt{6.667} = 2.5820... \approx 2.58 \]
Wahrscheinlichkeitstheorie
In einer psychologischen Studie nehmen 20 Versuchspersonen teil. Für eine aufwendige Zusatzaufgabe werden 3 Personen zufällig ausgewählt. Sie nehmen selbst an der Studie teil und hoffen, nicht ausgewählt zu werden. Beurteilen Sie die folgenden Aussagen.
Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.
Aussage 1 ist richtig: Jede Versuchsperson kann höchstens einmal für die Zusatzaufgabe ausgewählt werden (ohne Zurücklegen). Für die Frage, welche drei Personen ausgewählt werden, spielt die Reihenfolge der Auswahl keine Rolle (ohne Berücksichtigung der Reihenfolge).
Aussage 2 ist richtig: Es werden drei Personen aus insgesamt 20 ausgewählt, ohne Zurücklegen und ohne Reihenfolge. Genau dieses Szenario wird durch den Binomialkoeffizienten \(\binom{20}{3}\) beschrieben.
Aussage 3 ist richtig: Insgesamt sollen drei Personen ausgewählt werden. Wenn bereits zwei Personen ausgewählt wurden, bleibt ein Platz für die Zusatzaufgabe. Sind noch 10 Personen im Pool, ist die Wahrscheinlichkeit, dass dieser letzte Platz auf Sie fällt \(\frac{1}{10}\)
Aussage 4 ist falsch: Die Wahrscheinlichkeit nicht ausgewählt zu werden berechnet sich als LaPlace Wahrscheinlichkeit \(P(A) = \frac{N_A}{K}\)aus der Gesamtzahl möglicher Personenkombinationen die aus der Gesamtstichprobe ausgewählt werden können: \(K = \binom{20}{3}\), während die Anzahl für Sie günstiger Ereignisse \(N_A\) sich aus der Gesamtzahl an Personenkombinationen berechnet, wenn die Personen aus den anderen 19 Teilnehmern am Experiment gezogen werden: \(N_A = \binom{19}{3}\). Entsprechend gilt:
\[ P(A) = \frac{N_A}{K} = \frac{\binom{19}{3}}{\binom{20}{3}} = \frac{969}{1140} = 0.85 \]
In der psychologischen Diagnostik wird in der Regel eine Anfangseinschätzung (z.B. zur Wahrscheinlichkeit einer Störung) auf Basis neuer Informationen (z. Bsp. Symptome oder Persönlichkeitseigenschaften) angepasst. Welche der folgenden Aussagen beschreiben zutreffend die Rolle des Bayes-Theorems in diesem Prozess?
Beurteilen Sie für jede Aussage an, ob diese richtig (ankreuzen) oder falsch (nicht ankreuzen) ist.
Aussage 1 ist richtig: Die zentrale Funktion des Bayes-Theorems ist die Aktualisierung von Wahrscheinlichkeiten: Eine anfängliche Einschätzung (Prior) wird durch neue Information (Evidenz / Likelihoo) angepasst und führt zu einer aktualisierten Wahrscheinlichkeit (Posterior).
Aussage 2 ist falsch: Das Bayes-Theorem integriert fachliches Vorwissen in Form der Anfangswahrscheinlichkeit mit neuen Daten. Es ersetzt Vorwissen also nicht, sondern macht dessen Einfluss transparent und formalisierbar.
Aussage 3 ist richtig: Die Häufigkeit eines Merkmals in der Population (Basisrate) beeinflusst, wie stark neue Evidenz die Einschätzung verändern kann. Seltene Ereignisse bleiben selbst bei scheinbar starker Evidenz (hohe Sensitivität und Spezifität) oft unwahrscheinlich.
Aussage 4 ist richtig: Wenn Basisraten ignoriert werden, wird die diagnostische Aussagekraft neuer Information häufig überschätzt. Dieses Phänomen ist als Basisratenfehler bekannt und ein zentrales Anwendungsargument für das Bayes-Theorem.
Wahrscheinlichkeitsverteilungen
In einer Aufmerksamkeitsaufgabe muss eine Versuchsperson bei jedem Durchgang entscheiden, ob ein Zielreiz präsentiert wurde oder nicht. Die Wahrscheinlichkeit für eine korrekte Entscheidung bei reinem Raten beträgt \(p = 0.5\). Die Aufgabe wird 4-mal durchgeführt.
Wie groß ist die Wahrscheinlichkeit, dass die Versuchsperson die rät genau 2 richtige Entscheidungen trifft?
Gesucht ist die Wahrscheinlichkeit, dass eine Versuchsperson bei 4 unabhängigen Durchgängen einer Aufmerksamkeitsaufgabe genau 2 richtige Entscheidungen trifft, wenn die Erfolgswahrscheinlichkeit pro Durchgang bei \(p = 0.5\) liegt.
Für die Berechnung dieser Wahrscheinlichkeit können wir die Binomialverteilung nutzen. Dabei müssen wir die entsprechenden Werte in die Wahrscheinlichkeitsfunktion der Binomialverteilung einsetzen:
\[ P(X = 2) = \binom{4}{2} \cdot 0.5^2 \cdot (1-0.5)^{4-2} = 6 \cdot 0.25 \cdot 0.25 = 0.375 \]
Beurteilen Sie die folgenden Aussagen zu den in R implementierten Funktionen der Normalverteilung (dnorm, pnorm, qnorm, rnorm).
Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.
Aussage 1 ist richtig: dnorm() gibt den Wert der Dichtefunktion an der Stelle x zurück. Mit den Argumenten mean = 0 und sd = 1 ist die zugrunde liegende Verteilung eine Standardnormalverteilung. Wichtig: Es handelt sich bei dem Ergebnis um eine Dichte, und nicht um eine Wahrscheinlichkeit für einen exakten Wert.
Aussage 2 ist falsch: pnorm() berechnet zwar korrekt die Wahrscheinlichkeit \(P(X≤10)\) aber das Argument sd = 2 beschreibt die Standardabweichung, nicht die Varianz. Die Varianz wäre hier \(2^2 = 4\). Die Aussage ist daher inhaltlich falsch formuliert.
Aussage 3 ist richtig: qnorm() ist die Quantilfunktion der Normalverteilung. Sie liefert genau den Wert x, für den die kumulierte Wahrscheinlichkeit \(P(X≤x)=0.80\) gilt. Mit mean = 0 und sd = 1 bezieht sich dies auch auf die Standardnormalverteilung.
Aussage 4 ist falsch: rnorm() erzeugt Zufallszahlen aus einer Normalverteilung mit den angegebenen Parametern. Dabei ist der erwartete Mittelwert = 100 und die erwartete Standardabweichung = 15, aber die tatsächlich gezogene Stichprobe hat im Allgemeinen nicht exakt diese Kennwerte.
Beurteilen Sie die folgenden Aussagen zu diskreten und kontinuierlichen Wahrscheinlichkeitsverteilungen.
Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.
Aussage 1 ist richtig: Diskrete Zufallsvariablen besitzen eine abzählbare Menge möglicher Ausprägungen.Daher kann für jeden einzelnen Wert eine konkrete, positive Wahrscheinlichkeit angegeben werden (z.B. \(P(X=3)=0.2\))
Aussage 2 ist falsch: Bei kontinuierlichen Zufallsvariablen ist die Wahrscheinlichkeit für einen exakt bestimmten Einzelwert immer null. Wahrscheinlichkeiten ergeben sich nur für Intervalle von Werten, nicht für einzelne Punkte.
Aussage 3 ist richtig: Eine Wahrscheinlichkeitsverteilung ordnet möglichen Ausprägungen einer Zufallsvariablen Wahrscheinlichkeiten zu (bei diskreten Variablen) oder beschreibt die Wahrscheinlichkeitsdichte über Wertebereiche (bei kontinuierlichen Variablen).
Aussage 4 ist richtig: Die Verteilungsfunktion \(F(x)\) einer Wahrscheinlichkeitsfunktion \(f(x)\) ist definiert als:
\[ F(x)=P(X≤x). \]
Sie gibt die kumulierte Wahrscheinlichkeit bis zu einem bestimmten Wert an – unabhängig davon, ob die Zufallsvariable diskret oder kontinuierlich ist.
Hypothesentests
Beurteilen Sie die folgenden Aussagen zur Logik von statistischen Hypothesentests.
Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.
Aussage 1 ist richtig: Sowohl bei Hypothesentest im Sinne von Fischer (Nullhypothesentest), wie auch nach dem Binären Entscheidungskonzept wird beurteilt, wie gut die beobachteten Daten mit der Annahme der Nullhypothese vereinbar sind. Der \(p\)-Wert gibt dabei an, wie wahrscheinlich die beobachteten (oder extremere) Daten wären, wenn die Nullhypothese gilt. Zusätzlichen wird bei der Anwendung des Binären Entscheidungskonzepts der Stichprobenumfang auf Basis eines angenommenen Effekts so gewählt, dass man eine vorher festgesetzte Power (\(1 - \beta\)) erreicht, und so auch die Wahrscheinlichkeit fälschlicherweise die Nullhypothese anzunehmen, obwohl in der Population die Alternativhypothese gilt zu kontrollieren.
Aussage 2 ist falsch: Das Verwerfen der Nullhypothese bedeutet lediglich, dass die Daten unter Annahme der Nullhypothese unwahrscheinlich sind. Es liefert keinen sicheren Beweis für die Alternativhypothese.
Aussage 3 ist richtig: Das Signifikanzniveau \(\alpha\) wird vor der Testdurchführung festgelegt und definiert die Entscheidungsregel (z. B. Verwerfen der \(H_0\), wenn \(p < \alpha\). Für die Gültigkeit der Testentscheidung ms das Signifikanzniveau a-priori also vor der Testung festgelegt werden.
Aussage 4 ist falsch: Ein nicht signifikantes Ergebnis bedeutet lediglich, dass nicht genügend Evidenz gegen die Nullhypothese vorliegt. Es erlaubt keine Aussage, dass der Effekt in der Population tatsächlich null ist; der Effekt kann existieren, aber z. B. klein oder die Stichprobe zu klein sein.
Ein statistischer Test ergibt ein signifikantes Ergebnis bei \(\alpha = .05\)
Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.
Aussage 1 ist richtig: Ein signifikantes Testergebnis bei \(\alpha=.05\) bedeutet, dass der berechnete p-Wert kleiner als das vorab festgelegte Signifikanzniveau ist. Damit ist das Ergebnis statistisch bedeutsam gemäß der Entscheidungsregel des Tests.
Aussage 2 ist falsch: Der p-Wert (und damit auch das Signifikanzniveau) beschreibt die Wahrscheinlichkeit der Daten unter Annahme der Nullhypothese, nicht die Wahrscheinlichkeit, dass die Nullhypothese wahr ist. Aussagen über die Wahrscheinlichkeit der Hypothesen selbst sind im klassischen Hypothesentesten nicht möglich.
Aussage 3 ist falsch: Das Ergebnis statistischer Tests sind Zufallsvariablen und damit kann ein erneuter Test auch bei identischem Studiendesign ein anderes Ergebnis liefern. Die Signifikanz eines Tests garantiert also keine Reproduzierbarkeit der Ergebnisse.
Aussage 4 ist richtig: Die statistische Signifikanz gibt lediglich Auskunft darüber, ob ein Effekt unter der Nullhypothese als unwahrscheinlich gilt. Sie macht keine Aussage darüber, wie groß der Effekt ist oder ob er praktisch oder inhaltlich bedeutsam ist.
Parameterschätzung
Beurteilen Sie die folgenden Aussagen zur Verteilung von Stichprobenkennwerten und deren Bezug zum Zentralen Grenzwerttheorem.
Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.
Aussage 1 ist richtig: Unabhängig von der Form der Populationsverteilung (vorausgesetzt, die Varianz ist endlich) wird die Verteilung des Stichprobenmittelwerts mit wachsender Stichprobengröße näherungsweise normalverteilt, das ist die Kernaussage des Zentralen Grenzwerttheorems
Aussage 2 ist falsch: Das Zentrale Grenzwerttheorem bezieht sich nicht auf die Verteilung der Rohdaten, sondern auf die Verteilung eines Stichprobenkennwerts (typischerweise des Mittelwerts). Die Verteilung der Rohdaten bleibt auch bei großen Stichproben so geformt wie die zugrunde liegende Populationsverteilung.
Aussage 3 ist richtig: Die Verteilung des Stichprobenmittelwerts beschreibt die zufallsbedingte Variation des geschätzten Mittelwerts über wiederholte Stichproben hinweg und damit die Unsicherheit der Parameterschätzung.
Aussage 4 ist richtig: Die Streuung der Stichprobenmittelwertsverteilung ist der Standardfehler:
\[ SE = \frac{\sigma}{\sqrt{N}} \]
Da durch die Streuung \(\sigma\) durch Wurzel der Stichprobengrösse \(N\) geteilt wird ist der Standardfehler stets kleiner (oder gleich bei N = 1) als die Populationsstandardabweichung.
Beurteilen Sie die folgenden Aussagen zum Standardfehler des Mittelwertes.
Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.
Aussage 1 ist richtig: Wenn wir den Standardfehler auf Basis der gegebene Werte berechnen, erhalten wir:
\[ \sigma_{\bar{x}}= \frac{10}{\sqrt{50}} = \frac{10}{7.071} = 1.4142... \approx 1.41 \] was genau dem in der Aussage angegebenen Wert entspricht.
Aussage 2 ist richtig: Der Standardfehler ist proportional zu \(\frac{1}{\sqrt{N}}\). Wird N vervierfacht, verdoppelt sich \(\sqrt{N}\) und der Standardfehler halbiert sich entsprechend. Nehmen wir an der Standardfehler bei N = 20 ist 1, dann ist der Standardfehler bei N = 80:
\[ \sigma_{\bar{x}(N = 80)} = \frac{\sigma_x}{\sqrt{N_{20} \cdot 4}} = \frac{\sigma_x}{2 \cdot \sqrt{N_{20}}} = \frac{1}{2} \cdot \sigma_{\hat{x}(N=20)} \]
Aussage 3 ist falsch: Die Stichprobenmittelwerte im beschriebenen Szenario folgen einer Normalverteilung mit dem Standardfehler des Mittelwerts:
\[ \sigma_{\bar{x}} = \frac{2}{\sqrt{10}} \approx 0.632 \]
Mit Hilfe der \(z\)-Standardisierung können wir den \(z\)-Wert für den im Szenario genannten Mittwert von \(\bar{x} = 11.04\) berechnen: \(z = \frac{11.04-10}{0.632} \approx 1.65\).
Anhand der Verteilungsfunktion der Standardnormalverteilung können wir bestimmend, dass für diesen Wert nur 5% der Werte eine Wahrscheinlichkeit haben grösser als dieser Wert zu sein:
\[ P (X > 11.04) = 1 - P(X \leq 11.04) = 1 - P(z \leq 1.65) = 1 - .95 \]
Die Erwartete Anzahl einer Stichprobe mit einem Mittelwert \(\bar{x} \geq 11.04\) bei 10 unabhängigen Stichproben ist also \(10 \cdot 0.05 = 0.5\). Es ist also nicht im Mittel eine, sondern eine halbe Stichprobe zu erwarten.
Aussage 4 ist falsch: Wenn wir aus der Formel des Standardfehlers und den gegebenen Werten die Stichprobengrösse berechnen ergibt sich:
\[ 2 = \frac{12}{\sqrt{N}}; \quad \sqrt{N} = \frac{12}{2} = 6; \quad N = 6^2 = 36 \]
Die angegebene Stichprobengrösse \(N=64\) ist daher falsch.
\(t\)-Test
Zwei unabhängige Gruppen werden hinsichtlich ihrer Gedächtnisleistung verglichen. Dabei erhalten Sie folgenden Ergebnisse:
| Gruppe | N | \(\bar{x}\) | \(\hat{\sigma}_x\) |
|---|---|---|---|
| 1 | 16 | 52 | 8 |
| 2 | 16 | 48 | 8 |
Es wird ein t-Test für unabhängige Stichproben durchgeführt. Beurteilen Sie die folgenden Aussagen.
Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.
Aussage 1 ist falsch: Beim t-Test für unabhängige Stichproben gilt für die Freiheitsgrade \(df = N_1 + N_2 -2\). Aus gegebenen \(df\) kann man nur die Summe \(N_1 + N_2\) bestimmen \(N_1 + N_2 = df + 2\) Aber daraus folgt nicht eindeutig, wie groß die einzelnen Gruppen sind (z.B. könnten \(N_1=10, N_2=22\) oder \(N_1=16, N_2=16\) sein und denselben \(df\) liefern). Man kann also nicht „direkt“ auf beide Gruppengrößen schließen.
Aussage 2 ist richtig: Als erstes bestimmen wir die Freiheitsgrade: \(df = 16 + 16 - 2 = 30\). Für einen zweiseitigen Test mit \(\alpha = .05\) schneiden wir je \(0.025\) unterhalb und oberhalb der Verteilung ab, so dass: \(t_{krit} = t_{0.975; df = 30}\) ist. Diesen Wert können wir aus der Verteilungstabelle der \(t\)-Verteilung ablesen und dabei ergibt sich \(t_{krit} \approx 2.04\).
Aussage 3 ist richtig: Der Standardfehler der Mittelwertsdifferent berechnet sich aus:
\[ \hat{\sigma}_{\bar{x}_1-\bar{x}_2} = \sqrt{\frac{\hat{\sigma}_{inn}^2}{N_1} + \frac{\hat{\sigma}_{inn}^2}{N_2}} \]
als erstes müssen wir also die gepoolte Innerhalbvarianz bestimmen:
\[ \hat{\sigma}_{inn}^2 = \frac{\hat{\sigma}_{x1}^2(N_1 - 1) + \hat{\sigma}_{x2}^2(N_2 - 1)}{(N_1 -1) + (N_2 -1)} = \frac{8^2(16-1) + 8^2(16-1)}{(16-1) + (16-1)} = \frac{960 + 960}{30} = 64 \]
mit dieser gepoolten Innerhalbvarianz können wir nun den Standardfehler der Mittelwertsdifferenz berechnen:
\[ \hat{\sigma}_{\bar{x}_1-\bar{x}_2} = \sqrt{\frac{64}{16} + \frac{64}{16}} = \sqrt{4 + 4} = \sqrt{8} = 2.8284... \approx 2.83 \]
Aussage 4 ist richtig: Der standardisierte Effekt aus den beobachteten Daten berechnet sich als:
\[ \delta = \frac{\bar{x}_1 - \bar{x}_2}{\hat{\sigma}_x} \]
für den \(t\)-Test für unabhängig Stichproben macht es dabei Sinn aus der gepoolten Innerhalbvarianz die gepoolte Standardabweichung zu berechnen. Bei gleichen Gruppengrössen und gleichen Varianzen entspricht die gepoolte Standardabweichung einfach der Standardabweichung in den Stichproben. Ziehen wir die Wurzel aus der gepoolten Innerhalbvarianz aus der Lösung für Aussage 3 erhalten wir \(\hat{\sigma}_{inn} = \sqrt{\hat{\sigma}_{inn}^2}= \sqrt{64} = 8.\)
Entsprechen berechnen wir den beobachteten Effekt als:
\[ d = \frac{52 - 48}{8} = \frac{4}{8} = 0.5 \]
Beurteilen Sie die folgenden Aussagen zu \(t\)-Tests für Gruppenvergleiche.
Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.
Aussage 1 ist richtig: Ist die Populationsvarianz unbekannt, wird sie aus der Stichprobe geschätzt. Diese zusätzliche Unsicherheit führt dazu, dass die standardisierte Teststatistik einer t-Verteilung folgt (statt der Normalverteilung). Der \(t\)-Test berücksichtigt diese Unsicherheit korrekt.
Aussage 2 ist richtig: Ob ein unabhängiger oder abhängiger t-Test verwendet wird, entscheidet sich danach, ob die Messungen zwischen verschiedenen Personen oder innerhalb derselben Personen (z. B. Vorher–Nachher) erfolgen. Das Skalenniveau der abhängigen Variable muss in beiden Fällen intervall- oder verhältnisskaliert sein, bestimmt aber nicht, welcher der beiden t-Tests zu wählen ist.
Aussage 3 ist richtig: Beim t-Test für abhängige Stichproben werden zunächst Differenzen innerhalb der Paare gebildet. Anschließend wird geprüft, ob der Mittelwert dieser Differenzen signifikant von 0 abweicht. Damit ist der Test konzeptuell ein Ein-Stichproben-t-Test auf der Differenzvariable.
Aussage 4 ist richtig: Mit wachsender Stichprobengröße konvergiert die t-Verteilung gegen die Normalverteilung. Der Einfluss der geschätzten Standardabweichung wird vernachlässigbar, sodass sich Teststatistiken, kritische Werte und \(p\)-Werte von \(z\)- und \(t\)-Test praktisch nicht mehr unterscheiden.
Sie haben einen \(t\)-Test mit R berechnet und erhalten folgenden Output.
Beurteilen Sie die folgenden Aussagen zu dem R Output. Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.
Aussage 1 ist falsch: Es wurde eine \(t\)-Test für abhängige Stichproben berechnet. Das lässt sich an dem Titel Paired t-test ablesen.
Aussage 2 ist richtig: Der \(t\)-Wert der im Output angegeben wird ist der Wert, der auf Basis der Daten berechnet wurde und damit der empirische \(t\)-Wert. In der Regel werden in R keine kritischen Werte von Teststatistiken ausgegeben.
Aussage 3 ist falsch: Der \(p\)-Wert ist mit \(p = 0.03381\) grösser als das in der Aussage angegebene Signifikanzniveau \(\alpha = .01\), also ist der Test nicht signifikant.
Aussage 4 ist richtig: Das 95% Konfidenz Interval ist \(95\%-KI = [0.0245...; 0.5754...]\) und schliesst den Wert 0 nicht mit ein.
\(\chi^2\)-Test
In einer Untersuchung wollen Sie prüfen, ob sie die Präferenz für bestimmte Eiscremsorten unter 4 bis 8 Jährigen Kindern von 1990 bis heute verändert hat. Aus einer Studie von 1990 haben Sie die folgenden Relativen Häufigkeiten für die Lieblingssorte von 4 bis 8 Jährigen Kindern.
| Schokolade | Vanille | Erdbeere | Straciatella |
|---|---|---|---|
| 0.34 | 0.31 | 0.14 | 0.21 |
Aus einer Stichprobe die Sie in den letzten Woche erhoben haben ergab sich die folgende Häufigkeitstabelle:
| Schokolade | Vanille | Erdbeere | Straciatella |
|---|---|---|---|
| 25 | 20 | 17 | 28 |
Berechnen Sie die erwarteten Häufigkeiten für die Hypothese, dass sich die Geschmackspräferenz von 1990 bis heute nicht verändert hat.
Gesucht sind die erwarteten Häufigkeiten unter der Nullhypothese, dass sich die Geschmackspräferenzen seit 1990 nicht verändert haben.
Schritt 1: Zunächst müssen wir den Gesamtumfang der aktuellen Stichprobe berechnet:
\[ N = 25 + 20 + 17 + 28 = 90 \]
Schritt 2: Unter der Nullhypothese entsprechen die erwarteten Häufigkeiten den relativen Häufigkeiten aus dem Jahr 1990 multipliziert mit dem aktuellen Stichprobenumfang: \(\epsilon_i = h_i(1990) \cdot N\)
Wenn wir damit die Erwarten Häufigkeite für jede Sorte berechnen, ergibt sich:
- Schokolade: \(\epsilon_{Shokolade} = 0.34 \cdot 90 = 30.6\)
- Vanille: \(\epsilon_{Shokolade} = 0.31 \cdot 90 = 27.9\)
- Erdbeere: \(\epsilon_{Shokolade} = 0.14 \cdot 90 = 12.6\)
- Straciatelle: \(\epsilon_{Shokolade} = 0.21 \cdot 90 = 18.9\)
Beurteilen Sie die folgenden Aussagen zu Gruppenvergleichen mit kategorialen Variablen und \(\chi^2\)-Tests.
Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.
Aussage 1 ist richtig: Der \(\chi^2\)-Test vergleicht beobachtete Häufigkeiten mit erwarteten Häufigkeiten, die aus einer Nullhypothese abgeleitet werden. Ein signifikanter Test zeigt an, dass die beobachteten Abweichungen größer sind, als man sie allein durch zufällige Schwankungen erwarten würde.
Aussage 2 ist richtig: Der \(\chi^2\)-Unabhängigkeitstest wird für den Vergleich von Häufigkeiten einer kategorialen Variablen in mehreren Gruppen verwendet, um zu prüfen, ob zwischen der Häufigkeitsverteilung der kategorialen Variablen ein statistischer Zusammenhang zu den Gruppen besteht oder ob sie unabhängig voneinander sind.
Aussage 3 ist richtig: Ein signifikanter \(\chi^2\)-Test zeigt, dass die Gesamtabweichung der beobachteten von den erwarteten Häufigkeiten statistisch bedeutsam ist. Daraus folgt, dass mindestens eine Kategorie stärker oder schwächer vertreten ist als unter der Nullhypothese angenommen. Für eine konkrete Aussage welche Kategorie abweicht müssen weitere Kennwerte berechnet werden. Diese haben wir in der Vorlesung nicht besprochen.
Aussage 4 ist falsch: Der \(\chi^2\)-Test stellt keine Normalverteilungsannahme an die Daten. Er basiert auf Häufigkeiten kategorialer Daten. Eine wichtige Voraussetzung ist stattdessen, dass die erwarteten Häufigkeiten in den Zellen ausreichend groß sind.
Sie haben einen \(\chi^2\)-Test mit R berechnet um eine Häufigkeitsverteilung gegen eine Gleichverteilung zu testen und erhalten folgenden Output.
Chi-squared test for given probabilities
data: frequency_table
X-squared = 11.571, df = 5, p-value = 0.04116
Beurteilen Sie die folgenden Aussagen zu dem R Output.
Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.
Aussage 1 ist richtig: Mit Hilfe der im Output angegebenen Freiheitsgrade können Sie die Anzahl an Kategorien \(k\) berechnen. Für die Freiheitsgrade gilt \(df = k-1\), also ist die Anzahl der Kategorien \(k = df + 1 = 5 + 1 = 6\).
Aussage 2 ist falsch: Der im Output angegebene \(\chi^2\)-Wert bezieht sich auf den empirischen nicht den kritischen \(\chi^2\)-Wert. Der kritische \(\chi^2\)-Wert für \(df = 5\) und das in Aussage 3 angegebene Signifikanzniveau \(\alpha = .05\) wäre \(\chi^2_{krit} = 11.07\)
Aussage 3 ist richtig: Der \(p\)-Wert ist mit \(p = 0.04116\) kleiner als das in der Aussage angegebene Signifikanzniveau \(\alpha = .05\), also ist der Test signifikant.
Aussage 4 ist falsch: Aus dem R Output lassen sich keine Rückschlüsse auf die Stichprobengrösse ziehen.
Korrelation
In einer empirischen Untersuchung wollen sie den Zusammenhang zwischen Lebenszufriedenheit und monatlichem Einkommen untersuchen. Unten sehen sie den Scatterplot der die Daten der Studie zusammenfasst.
Der statistische Test, den Sie mit Hilfe von R duchführen liefert Ihnen folgendes Ergebnis:
Pearson's product-moment correlation
data: einkommen and zufriedenheit
t = 8.5646, df = 148, p-value = 1.298e-14
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.4576171 0.6737632
sample estimates:
cor
0.5756606
Beurteilen Sie die folgenden Aussagen zu dem R Output.
Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.
Aussage 1 ist falsch: Bei der Produkt-Moment-(Pearson)-Korrelation gilt für die Freiheitsgrade \(df = N - 2\). Lösen wir diese Gleichung nach der Stichprobengrösse auf ergibt sich: $ N = df + 2 = 148 + 2 = 150\(. Die Stichprobe umfasst also **\)N = 150$** Personen, nicht 148.
Aussage 2 ist falsch: Der durchgeführte Signifikanztest für die Korrelation prüft die Nullhypothese \(H_0: \rho = 0\) also, ob kein linearer Zusammenhang zwischen den beiden Variablen in der Population besteht.
Ein signifikantes Testergebnis zeigt, dass die beobachteten Daten unter Annahme der Nullhypothese unwahrscheinlich sind. Aber: Nur weil die Daten einen von Null unterschiedlichen Korrelationskoeffizienten indizieren, heißt das nicht, dass der Zusammenhang in der Population notwendigerweise linear ist, da der Test nur auf das Vorhandensein eines linearen Anteils prüft.
Aussage 3 ist richtig: Die geteilte Varianz können wir durch den Determinationskoeffizienten \(r^2\) berechnen. Mit der aus dem Output gegebene Korrelation \(r = 0.5756606\) ergibt sich: \(r^2 = 0.5756606^2 \approx 0.331\).
Aussage 4 ist richtig: Der R-Output berichtet den auf Basis der Daten bestimmten \(t\)-Wert für die Korrelation. Dieser ist \(t_{emp} = 8.5646 \approx 8.56\)
In einer Stichprobe von 5 Personen wurden die Variablen Körpergröße (in cm) und Körpergewicht (in kg) erhoben:
| Person | Körpergröße (X) | Körpergewicht (Y) |
|---|---|---|
| 1 | 162 | 58 |
| 2 | 168 | 63 |
| 3 | 171 | 67 |
| 4 | 176 | 72 |
| 5 | 182 | 70 |
Berechnen Sie die Kovarianz zwischen Körpergröße und Körpergewicht in der Stichprobe \(s_{XY}\).
Gesucht ist die Kovarianz in der Stichprobe:
\[ s_{XY}=\frac{\sum_{i=1}^{N}(x_i-\bar{x})(y_i-\bar{y})}{N} \]
Schritt 1: Mittelwerte der beiden Variablen berechnen:
\[ \bar{x}=\frac{162+168+171+176+182}{5}=\frac{859}{5}=171.8 \]
\[ \bar{y}=\frac{58+63+67+72+70}{5}=\frac{330}{5}=66 \]
Schritt 2: Als nächstes berechnen wir die Abweichungen von Mittelwert und das Kreuzprodukt für jedes Messwertepaar
| Person | \(x_i-\bar{x}\) | \(y_i-\bar{y}\) | Kreuzprodukt \((x_i-\bar{x})(y_i-\bar{y})\) |
|---|---|---|---|
| 1 | \(162-171.8=-9.8\) | \(58-66=-8\) | \((-9.8)\cdot(-8)=78.4\) |
| 2 | \(168-171.8=-3.8\) | \(63-66=-3\) | \((-3.8)\cdot(-3)=11.4\) |
| 3 | \(171-171.8=-0.8\) | \(67-66=1\) | \((-0.8)\cdot 1=-0.8\) |
| 4 | \(176-171.8=4.2\) | \(72-66=6\) | \(4.2\cdot 6=25.2\) |
| 5 | \(182-171.8=10.2\) | \(70-66=4\) | \(10.2\cdot 4=40.8\) |
Schritt 3: Mit diesen Informationen können wir nun die Summe der Kreuzprodukte durch die Stichprobengrösse teilen:
\[ s_{XY} = \frac{\sum_{i=1}^{N}(x_i-\bar{x})(y_i-\bar{y})}{N} = \frac{78.4+11.4-0.8+25.2+40.8}{5} = \frac{155.0}{5} = 31.00 \]
Beurteilen Sie die folgenden Aussagen zu Zusammenhangsmassen.
Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.
Aussage 1 ist richtig: Korrelationskoeffizienten (z. B. Produkt-Moment Korrelation, Punkt-Biseriale Korrelation oder der \(\phi\)-Koeffizient ) quantifizieren, wie stark zwei Variablen zusammenhängen und (falls dies für die Variablen sinnvoll ist) in welche Richtung (positiv oder negativ) dieser Zusammenhang verläuft.
Aussage 2 ist falsch: Ein Korrelationskoeffizient von \(r = 0\) bedeutet lediglich, dass kein linearer Zusammenhang vorliegt. Es können dennoch nicht-lineare Zusammenhänge zwischen den Variablen bestehen, die durch den Korrelationskoeffizienten nicht erfasst werden. Für Beispiele schauen Sie in die Folien der Vorlesung.
Aussage 3 ist falsch: Korrelation beschreibt einen statistischen Zusammenhang, erlaubt aber keine kausalen Schlussfolgerungen. Ein hoher Korrelationskoeffizient kann auch durch Drittvariablen oder zufällige Zusammenhänge entstehen.
Aussage 4 ist richtig: Der Pearson-Korrelationskoeffizient misst ausschließlich lineare Zusammenhänge. Nicht-lineare Beziehungen können trotz eines starken Zusammenhangs zu einem niedrigen oder null Korrelationskoeffizienten führen.