Übungsfragen: Klausurvorbereitung

HS 2025

Author

Gidon Frischkorn

Übungsfragen: Klausur

Auf dieser Übungsseite finden Sie noch weitere Übungsfragen zur Vorbereitung auf die Klausur. Die Fragen werden alle entweder Single-Choice oder K-Prim Fragen mit je 4 Antwortoptionen sein. Die Formatierung der Fragen ist nicht identisch mit der Klausur, das Frageformat ist jedoch identisch. Die Lösungen erklären die korrekten Antworten kurz, wiederholen aber nicht alle Details der jeweiligen Inhalte.

Wichtig: Die Inhalte der Fragen sind nicht repräsentativ für die Inhalte die eventuell in der Prüfung abgefragt werden. Die Fragen sollen Ihnen ermöglichen einen guten Eindruck zu bekommen wie unterschiedliche Inhalte der Vorlesung in der Prüfung abgefragt werden.

Wahrscheinlichkeitstheorie

In einer psychologischen Studie nehmen 20 Versuchspersonen teil. Für eine aufwendige Zusatzaufgabe werden 3 Personen zufällig ausgewählt. Sie nehmen selbst an der Studie teil und hoffen, nicht ausgewählt zu werden. Beurteilen Sie die folgenden Aussagen.

Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.

Für dieses Zufallsexperiment ist ein kombinatorisches Modell ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge angemessen.Die Gesamtzahl möglicher Kombinationen an Personen die für das Zufallsexperiment ausgewählt werden lässt sich mit dem Binomialkoeffizienten $\binom{20}{3}$ berechnen.Haben bereits 10 Personen teilgenommen, wobei 2 Personen bereits für die Zusatzaufgabe ausgewählt wurden, so beträgt die Wahrscheinlichkeit, dass Sie noch ausgewählt werden $\frac{1}{10}$.Die Wahrscheinlichkeit, dass sie nicht ausgewählt werden liegt bei 0.90

Aussage 1 ist richtig: Jede Versuchsperson kann höchstens einmal für die Zusatzaufgabe ausgewählt werden (ohne Zurücklegen). Für die Frage, welche drei Personen ausgewählt werden, spielt die Reihenfolge der Auswahl keine Rolle (ohne Berücksichtigung der Reihenfolge).

Aussage 2 ist richtig: Es werden drei Personen aus insgesamt 20 ausgewählt, ohne Zurücklegen und ohne Reihenfolge. Genau dieses Szenario wird durch den Binomialkoeffizienten $\binom{20}{3}$ beschrieben.

Aussage 3 ist richtig: Insgesamt sollen drei Personen ausgewählt werden. Wenn bereits zwei Personen ausgewählt wurden, bleibt ein Platz für die Zusatzaufgabe. Sind noch 10 Personen im Pool, ist die Wahrscheinlichkeit, dass dieser letzte Platz auf Sie fällt $\frac{1}{10}$

Aussage 4 ist falsch: Die Wahrscheinlichkeit nicht ausgewählt zu werden berechnet sich als LaPlace Wahrscheinlichkeit $P(A) = \frac{N_A}{K}$aus der Gesamtzahl möglicher Personenkombinationen die aus der Gesamtstichprobe ausgewählt werden können: $K = \binom{20}{3}$, während die Anzahl für Sie günstiger Ereignisse $N_A$ sich aus der Gesamtzahl an Personenkombinationen berechnet, wenn die Personen aus den anderen 19 Teilnehmern am Experiment gezogen werden: $N_A = \binom{19}{3}$. Entsprechend gilt:

\[ P(A) = \frac{N_A}{K} = \frac{\binom{19}{3}}{\binom{20}{3}} = \frac{969}{1140} = 0.85 \]

In der psychologischen Diagnostik wird in der Regel eine Anfangseinschätzung (z.B. zur Wahrscheinlichkeit einer Störung) auf Basis neuer Informationen (z. Bsp. Symptome oder Persönlichkeitseigenschaften) angepasst. Welche der folgenden Aussagen beschreiben zutreffend die Rolle des Bayes-Theorems in diesem Prozess?

Beurteilen Sie für jede Aussage an, ob diese richtig (ankreuzen) oder falsch (nicht ankreuzen) ist.

Das Bayes-Theorem beschreibt, wie eine anfängliche Wahrscheinlichkeit durch neue Evidenz systematisch aktualisiert wird.Bayes-Theorem ersetzt fachliches Vorwissen durch eine rein datengetriebene Entscheidung.Die Relevanz neuer Information hängt davon ab, wie häufig das betrachtete Merkmal oder Ereignis in der Population vorkommt.Ohne Berücksichtigung der Ausgangswahrscheinlichkeit kann neue Evidenz leicht überschätzt werden.

Aussage 1 ist richtig: Die zentrale Funktion des Bayes-Theorems ist die Aktualisierung von Wahrscheinlichkeiten: Eine anfängliche Einschätzung (Prior) wird durch neue Information (Evidenz / Likelihoo) angepasst und führt zu einer aktualisierten Wahrscheinlichkeit (Posterior).

Aussage 2 ist falsch: Das Bayes-Theorem integriert fachliches Vorwissen in Form der Anfangswahrscheinlichkeit mit neuen Daten. Es ersetzt Vorwissen also nicht, sondern macht dessen Einfluss transparent und formalisierbar.

Aussage 3 ist richtig: Die Häufigkeit eines Merkmals in der Population (Basisrate) beeinflusst, wie stark neue Evidenz die Einschätzung verändern kann. Seltene Ereignisse bleiben selbst bei scheinbar starker Evidenz (hohe Sensitivität und Spezifität) oft unwahrscheinlich.

Aussage 4 ist richtig: Wenn Basisraten ignoriert werden, wird die diagnostische Aussagekraft neuer Information häufig überschätzt. Dieses Phänomen ist als Basisratenfehler bekannt und ein zentrales Anwendungsargument für das Bayes-Theorem.

Hypothesentests

Beurteilen Sie die folgenden Aussagen zur Logik von statistischen Hypothesentests.

Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.

Ein statistischer Hypothesentest prüft, wie wahrscheinlich die beobachteten Daten unter Annahme der Nullhypothese sind.Wird die Nullhypothese verworfen, gilt die Alternativhypothese mit Sicherheit als wahr.Die Testentscheidung bezieht sich immer auf ein vor der Berechnung des Tests festgelegtes Signifikanzniveau.Ein nicht signifikanter Test bedeutet, dass der Effekt in der Population gleich null ist.

Aussage 1 ist richtig: Sowohl bei Hypothesentest im Sinne von Fischer (Nullhypothesentest), wie auch nach dem Binären Entscheidungskonzept wird beurteilt, wie gut die beobachteten Daten mit der Annahme der Nullhypothese vereinbar sind. Der $p$-Wert gibt dabei an, wie wahrscheinlich die beobachteten (oder extremere) Daten wären, wenn die Nullhypothese gilt. Zusätzlichen wird bei der Anwendung des Binären Entscheidungskonzepts der Stichprobenumfang auf Basis eines angenommenen Effekts so gewählt, dass man eine vorher festgesetzte Power ($1 - \beta$) erreicht, und so auch die Wahrscheinlichkeit fälschlicherweise die Nullhypothese anzunehmen, obwohl in der Population die Alternativhypothese gilt zu kontrollieren.

Aussage 2 ist falsch: Das Verwerfen der Nullhypothese bedeutet lediglich, dass die Daten unter Annahme der Nullhypothese unwahrscheinlich sind. Es liefert keinen sicheren Beweis für die Alternativhypothese.

Aussage 3 ist richtig: Das Signifikanzniveau $\alpha$ wird vor der Testdurchführung festgelegt und definiert die Entscheidungsregel (z. B. Verwerfen der $H_0$, wenn $p < \alpha$. Für die Gültigkeit der Testentscheidung ms das Signifikanzniveau a-priori also vor der Testung festgelegt werden.

Aussage 4 ist falsch: Ein nicht signifikantes Ergebnis bedeutet lediglich, dass nicht genügend Evidenz gegen die Nullhypothese vorliegt. Es erlaubt keine Aussage, dass der Effekt in der Population tatsächlich null ist; der Effekt kann existieren, aber z. B. klein oder die Stichprobe zu klein sein.

Ein statistischer Test ergibt ein signifikantes Ergebnis bei $\alpha = .05$

Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.

Das Ergebnis ist statistisch bedeutsam im Sinne des gewählten Signifikanzniveaus.Die Wahrscheinlichkeit, dass die Nullhypothese wahr ist, beträgt weniger als 5 %.Bei einer Wiederholung der Studie wird das Ergebnis mit Sicherheit erneut signifikant ausfallen.Ein signifikanter Test sagt nichts über die Größe oder praktische Relevanz des Effekts aus.

Aussage 1 ist richtig: Ein signifikantes Testergebnis bei $\alpha=.05$ bedeutet, dass der berechnete p-Wert kleiner als das vorab festgelegte Signifikanzniveau ist. Damit ist das Ergebnis statistisch bedeutsam gemäß der Entscheidungsregel des Tests.

Aussage 2 ist falsch: Der p-Wert (und damit auch das Signifikanzniveau) beschreibt die Wahrscheinlichkeit der Daten unter Annahme der Nullhypothese, nicht die Wahrscheinlichkeit, dass die Nullhypothese wahr ist. Aussagen über die Wahrscheinlichkeit der Hypothesen selbst sind im klassischen Hypothesentesten nicht möglich.

Aussage 3 ist falsch: Das Ergebnis statistischer Tests sind Zufallsvariablen und damit kann ein erneuter Test auch bei identischem Studiendesign ein anderes Ergebnis liefern. Die Signifikanz eines Tests garantiert also keine Reproduzierbarkeit der Ergebnisse.

Aussage 4 ist richtig: Die statistische Signifikanz gibt lediglich Auskunft darüber, ob ein Effekt unter der Nullhypothese als unwahrscheinlich gilt. Sie macht keine Aussage darüber, wie groß der Effekt ist oder ob er praktisch oder inhaltlich bedeutsam ist.

Parameterschätzung

Beurteilen Sie die folgenden Aussagen zur Verteilung von Stichprobenkennwerten und deren Bezug zum Zentralen Grenzwerttheorem.

Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.

Auch wenn die Verteilung einzelner Messwerte aus einer Population nicht normalverteilt ist, nähert sich die Verteilung des Stichprobenmittelwerts für große Stichproben einer Normalverteilung an.Das Zentrale Grenzwerttheorem besagt, dass die Verteilung der Rohdaten für grosse Stichprobe zu einer Normalverteilung konvergiert.Die Verteilung des Stichprobenmittelwerts beschreibt, wie stark der geschätzte Mittelwert von Stichprobe zu Stichprobe variiert.Die Streuung der Verteilung des Stichprobenmittelwerts ist kleiner als die Streuung der ursprünglichen Population.

Aussage 1 ist richtig: Unabhängig von der Form der Populationsverteilung (vorausgesetzt, die Varianz ist endlich) wird die Verteilung des Stichprobenmittelwerts mit wachsender Stichprobengröße näherungsweise normalverteilt, das ist die Kernaussage des Zentralen Grenzwerttheorems

Aussage 2 ist falsch: Das Zentrale Grenzwerttheorem bezieht sich nicht auf die Verteilung der Rohdaten, sondern auf die Verteilung eines Stichprobenkennwerts (typischerweise des Mittelwerts). Die Verteilung der Rohdaten bleibt auch bei großen Stichproben so geformt wie die zugrunde liegende Populationsverteilung.

Aussage 3 ist richtig: Die Verteilung des Stichprobenmittelwerts beschreibt die zufallsbedingte Variation des geschätzten Mittelwerts über wiederholte Stichproben hinweg und damit die Unsicherheit der Parameterschätzung.

Aussage 4 ist richtig: Die Streuung der Stichprobenmittelwertsverteilung ist der Standardfehler:

\[ SE = \frac{\sigma}{\sqrt{N}} \]

Da durch die Streuung $\sigma$ durch Wurzel der Stichprobengrösse $N$ geteilt wird ist der Standardfehler stets kleiner (oder gleich bei N = 1) als die Populationsstandardabweichung.

Beurteilen Sie die folgenden Aussagen zum Standardfehler des Mittelwertes.

Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.

Für eine Stichprobe von 50 Personen beträgt der Standardfehler des Mittelwertes $\sigma_{\bar{x}} = 1.41$, wenn die bei einer Populationsstandardabweichung $\sigma_x = 10$ beträgt.Wird die Stichprobengrösse vervierfacht, so halbiert sich der Standardfehler des Mittelwertes, sofern die Streuung der Variable konstant bleibt.Für eine Variable $X \sim \mathcal{N}(\mu = 10, \sigma = 2)$ ist im Mittel zu erwarten, dass aus 10 unabhängigen Stichproben mit $N = 10$ etwa eine Stichprobe einen Mittelwert grösser als $\bar{x} = 11.04$ aufweist.Wenn der Standardfehler des Mittelwert einer Variable X $\sigma_{\bar{x}} = 2$ beträgt und die Standardabweichung der Variable X $\sigma_x = 12$ ist, dann betrug die Stichprobengrösse $N = 64$.

Aussage 1 ist richtig: Wenn wir den Standardfehler auf Basis der gegebene Werte berechnen, erhalten wir:

\[ \sigma_{\bar{x}}= \frac{10}{\sqrt{50}} = \frac{10}{7.071} = 1.4142... \approx 1.41 \] was genau dem in der Aussage angegebenen Wert entspricht.

Aussage 2 ist richtig: Der Standardfehler ist proportional zu $\frac{1}{\sqrt{N}}$. Wird N vervierfacht, verdoppelt sich $\sqrt{N}$ und der Standardfehler halbiert sich entsprechend. Nehmen wir an der Standardfehler bei N = 20 ist 1, dann ist der Standardfehler bei N = 80:

\[ \sigma_{\bar{x}(N = 80)} = \frac{\sigma_x}{\sqrt{N_{20} \cdot 4}} = \frac{\sigma_x}{2 \cdot \sqrt{N_{20}}} = \frac{1}{2} \cdot \sigma_{\hat{x}(N=20)} \]

Aussage 3 ist falsch: Die Stichprobenmittelwerte im beschriebenen Szenario folgen einer Normalverteilung mit dem Standardfehler des Mittelwerts:

\[ \sigma_{\bar{x}} = \frac{2}{\sqrt{10}} \approx 0.632 \]

Mit Hilfe der $z$-Standardisierung können wir den $z$-Wert für den im Szenario genannten Mittwert von $\bar{x} = 11.04$ berechnen: $z = \frac{11.04-10}{0.632} \approx 1.65$.

Anhand der Verteilungsfunktion der Standardnormalverteilung können wir bestimmend, dass für diesen Wert nur 5% der Werte eine Wahrscheinlichkeit haben grösser als dieser Wert zu sein:

\[ P (X > 11.04) = 1 - P(X \leq 11.04) = 1 - P(z \leq 1.65) = 1 - .95 \]

Die Erwartete Anzahl einer Stichprobe mit einem Mittelwert $\bar{x} \geq 11.04$ bei 10 unabhängigen Stichproben ist also $10 \cdot 0.05 = 0.5$. Es ist also nicht im Mittel eine, sondern eine halbe Stichprobe zu erwarten.

Aussage 4 ist falsch: Wenn wir aus der Formel des Standardfehlers und den gegebenen Werten die Stichprobengrösse berechnen ergibt sich:

\[ 2 = \frac{12}{\sqrt{N}}; \quad \sqrt{N} = \frac{12}{2} = 6; \quad N = 6^2 = 36 \]

Die angegebene Stichprobengrösse $N=64$ ist daher falsch.

$t$-Test

Zwei unabhängige Gruppen werden hinsichtlich ihrer Gedächtnisleistung verglichen. Dabei erhalten Sie folgenden Ergebnisse:

Gruppe	N	$\bar{x}$	$\hat{\sigma}_x$
1	16	52	8
2	16	48	8

Es wird ein t-Test für unabhängige Stichproben durchgeführt. Beurteilen Sie die folgenden Aussagen.

Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.

Aus den Freiheitsgraden können wir beim $t$-Test für unabhängige Stichproben direkt auf die Gruppengrössen in den beiden Gruppen schliessen.Der kritische t-Wert für einen zweiseitigen Test bei $\alpha = .05$ liegt bei ungefähr $t_{krit} = 2.04$.Der Populationsschätzer des Standardfehlers der Mittelwertsdifferenz beträgt ungefähr $\hat{\sigma}_{\bar{x}_1 - \bar{x}_2} = 2.83$.Der beobachtete Effekt liegt in dieser Studie bei $d = 0.5$

Aussage 1 ist falsch: Beim t-Test für unabhängige Stichproben gilt für die Freiheitsgrade $df = N_1 + N_2 -2$. Aus gegebenen $df$ kann man nur die Summe $N_1 + N_2$ bestimmen $N_1 + N_2 = df + 2$ Aber daraus folgt nicht eindeutig, wie groß die einzelnen Gruppen sind (z.B. könnten $N_1=10, N_2=22$ oder $N_1=16, N_2=16$ sein und denselben $df$ liefern). Man kann also nicht „direkt“ auf beide Gruppengrößen schließen.

Aussage 2 ist richtig: Als erstes bestimmen wir die Freiheitsgrade: $df = 16 + 16 - 2 = 30$. Für einen zweiseitigen Test mit $\alpha = .05$ schneiden wir je $0.025$ unterhalb und oberhalb der Verteilung ab, so dass: $t_{krit} = t_{0.975; df = 30}$ ist. Diesen Wert können wir aus der Verteilungstabelle der $t$-Verteilung ablesen und dabei ergibt sich $t_{krit} \approx 2.04$.

Aussage 3 ist richtig: Der Standardfehler der Mittelwertsdifferent berechnet sich aus:

\[ \hat{\sigma}_{\bar{x}_1-\bar{x}_2} = \sqrt{\frac{\hat{\sigma}_{inn}^2}{N_1} + \frac{\hat{\sigma}_{inn}^2}{N_2}} \]

als erstes müssen wir also die gepoolte Innerhalbvarianz bestimmen:

\[ \hat{\sigma}_{inn}^2 = \frac{\hat{\sigma}_{x1}^2(N_1 - 1) + \hat{\sigma}_{x2}^2(N_2 - 1)}{(N_1 -1) + (N_2 -1)} = \frac{8^2(16-1) + 8^2(16-1)}{(16-1) + (16-1)} = \frac{960 + 960}{30} = 64 \]

mit dieser gepoolten Innerhalbvarianz können wir nun den Standardfehler der Mittelwertsdifferenz berechnen:

\[ \hat{\sigma}_{\bar{x}_1-\bar{x}_2} = \sqrt{\frac{64}{16} + \frac{64}{16}} = \sqrt{4 + 4} = \sqrt{8} = 2.8284... \approx 2.83 \]

Aussage 4 ist richtig: Der standardisierte Effekt aus den beobachteten Daten berechnet sich als:

\[ \delta = \frac{\bar{x}_1 - \bar{x}_2}{\hat{\sigma}_x} \]

für den $t$-Test für unabhängig Stichproben macht es dabei Sinn aus der gepoolten Innerhalbvarianz die gepoolte Standardabweichung zu berechnen. Bei gleichen Gruppengrössen und gleichen Varianzen entspricht die gepoolte Standardabweichung einfach der Standardabweichung in den Stichproben. Ziehen wir die Wurzel aus der gepoolten Innerhalbvarianz aus der Lösung für Aussage 3 erhalten wir $\hat{\sigma}_{inn} = \sqrt{\hat{\sigma}_{inn}^2}= \sqrt{64} = 8.$

Entsprechen berechnen wir den beobachteten Effekt als:

\[ d = \frac{52 - 48}{8} = \frac{4}{8} = 0.5 \]

Beurteilen Sie die folgenden Aussagen zu $t$-Tests für Gruppenvergleiche.

Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.

Wenn die Populationsvarianz unbekannt ist, dann verwenden wir auf Grund der Kennwerteverteilung der geschätzten Populationsvarianz einen $t$-Test statt eines $z$-Tests.Die Wahl zwischen einem unabhängigen und abhängigen t-Test hängt vom Studiendesign bzw. Testszenario ab, nicht vom Skalenniveau der abhängigen Variable.Der t-Test für abhängige Stichproben ist konzeptuell äquivalent zu einem Ein-Stichproben-t-Test, da dabei der Mittelwert der Differenzvariable gegen den Referenzwert 0 getetstet wird.Für große Stichproben werden die Ergebnisse von $z$-Test und $t$-Test nahezu identisch.

Aussage 1 ist richtig: Ist die Populationsvarianz unbekannt, wird sie aus der Stichprobe geschätzt. Diese zusätzliche Unsicherheit führt dazu, dass die standardisierte Teststatistik einer t-Verteilung folgt (statt der Normalverteilung). Der $t$-Test berücksichtigt diese Unsicherheit korrekt.

Aussage 2 ist richtig: Ob ein unabhängiger oder abhängiger t-Test verwendet wird, entscheidet sich danach, ob die Messungen zwischen verschiedenen Personen oder innerhalb derselben Personen (z. B. Vorher–Nachher) erfolgen. Das Skalenniveau der abhängigen Variable muss in beiden Fällen intervall- oder verhältnisskaliert sein, bestimmt aber nicht, welcher der beiden t-Tests zu wählen ist.

Aussage 3 ist richtig: Beim t-Test für abhängige Stichproben werden zunächst Differenzen innerhalb der Paare gebildet. Anschließend wird geprüft, ob der Mittelwert dieser Differenzen signifikant von 0 abweicht. Damit ist der Test konzeptuell ein Ein-Stichproben-t-Test auf der Differenzvariable.

Aussage 4 ist richtig: Mit wachsender Stichprobengröße konvergiert die t-Verteilung gegen die Normalverteilung. Der Einfluss der geschätzten Standardabweichung wird vernachlässigbar, sodass sich Teststatistiken, kritische Werte und $p$-Werte von $z$- und $t$-Test praktisch nicht mehr unterscheiden.

Sie haben einen $t$-Test mit R berechnet und erhalten folgenden Output.


    Paired t-test

data:  data$post and data$pre
t = 2.2278, df = 29, p-value = 0.03381
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
 0.02458924 0.57541076
sample estimates:
mean difference 
            0.3

Beurteilen Sie die folgenden Aussagen zu dem R Output. Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.

Es wurde ein Einstichproben $t$-Test durchgeführt.Der empirische $t$-Wert für diesen Test, liegt bei $t_{emp} = 2.2278$Der Test ist mit $\alpha = .01$ signifikant.Das 95% Konfidenzintervall, dass für diesen Test bestimmt wurde, schliesst den Wert 0 nicht ein.

Aussage 1 ist falsch: Es wurde eine $t$-Test für abhängige Stichproben berechnet. Das lässt sich an dem Titel Paired t-test ablesen.

Aussage 2 ist richtig: Der $t$-Wert der im Output angegeben wird ist der Wert, der auf Basis der Daten berechnet wurde und damit der empirische $t$-Wert. In der Regel werden in R keine kritischen Werte von Teststatistiken ausgegeben.

Aussage 3 ist falsch: Der $p$-Wert ist mit $p = 0.03381$ grösser als das in der Aussage angegebene Signifikanzniveau $\alpha = .01$, also ist der Test nicht signifikant.

Aussage 4 ist richtig: Das 95% Konfidenz Interval ist $95\%-KI = [0.0245...; 0.5754...]$ und schliesst den Wert 0 nicht mit ein.

$\chi^2$-Test

In einer Untersuchung wollen Sie prüfen, ob sie die Präferenz für bestimmte Eiscremsorten unter 4 bis 8 Jährigen Kindern von 1990 bis heute verändert hat. Aus einer Studie von 1990 haben Sie die folgenden Relativen Häufigkeiten für die Lieblingssorte von 4 bis 8 Jährigen Kindern.

Schokolade	Vanille	Erdbeere	Straciatella
0.34	0.31	0.14	0.21

Aus einer Stichprobe die Sie in den letzten Woche erhoben haben ergab sich die folgende Häufigkeitstabelle:

Schokolade	Vanille	Erdbeere	Straciatella
25	20	17	28

Berechnen Sie die erwarteten Häufigkeiten für die Hypothese, dass sich die Geschmackspräferenz von 1990 bis heute nicht verändert hat.

Schokolade: 30.6; Vanille: 27.9; Erdbeere: 18.9; Straciatella: 12.6Schokolade: 30.6; Vanille: 27.9; Erdbeere: 12.6; Straciatella: 18.9Schokolade: 18.9; Vanille: 27.9; Erdbeere: 12.6; Straciatella: 30.6Schokolade: 27.9; Vanille: 30.6; Erdbeere: 12.6; Straciatella: 18.9

Gesucht sind die erwarteten Häufigkeiten unter der Nullhypothese, dass sich die Geschmackspräferenzen seit 1990 nicht verändert haben.

Schritt 1: Zunächst müssen wir den Gesamtumfang der aktuellen Stichprobe berechnet:

\[ N = 25 + 20 + 17 + 28 = 90 \]

Schritt 2: Unter der Nullhypothese entsprechen die erwarteten Häufigkeiten den relativen Häufigkeiten aus dem Jahr 1990 multipliziert mit dem aktuellen Stichprobenumfang: $\epsilon_i = h_i(1990) \cdot N$

Wenn wir damit die Erwarten Häufigkeite für jede Sorte berechnen, ergibt sich:

Schokolade: $\epsilon_{Shokolade} = 0.34 \cdot 90 = 30.6$
Vanille: $\epsilon_{Shokolade} = 0.31 \cdot 90 = 27.9$
Erdbeere: $\epsilon_{Shokolade} = 0.14 \cdot 90 = 12.6$
Straciatelle: $\epsilon_{Shokolade} = 0.21 \cdot 90 = 18.9$

Beurteilen Sie die folgenden Aussagen zu Gruppenvergleichen mit kategorialen Variablen und $\chi^2$-Tests.

Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.

Der $\chi^2$-Test prüft, ob sich empirisch beobachtete Häufigkeiten stärker von den auf Basis einer Nullhypothese erwarteten Häufigkeiten unterscheiden, als durch Zufallsschwankungen zu erwarten wäre.Mit einem $\chi^2$-Test kann geprüft werden, ob zwei kategoriale Variablen statistisch unabhängig sind.Ein signifikantes Ergebnis bei einem $\chi^2$-Test bedeutet, dass mindestens eine Kategorie häufiger oder seltener auftritt, als unter der Nullhypothese erwartet.Der $\chi^2$-Test setzt voraus, dass die empirischen Häufigkeiten normalverteilt sind.

Aussage 1 ist richtig: Der $\chi^2$-Test vergleicht beobachtete Häufigkeiten mit erwarteten Häufigkeiten, die aus einer Nullhypothese abgeleitet werden. Ein signifikanter Test zeigt an, dass die beobachteten Abweichungen größer sind, als man sie allein durch zufällige Schwankungen erwarten würde.

Aussage 2 ist richtig: Der $\chi^2$-Unabhängigkeitstest wird für den Vergleich von Häufigkeiten einer kategorialen Variablen in mehreren Gruppen verwendet, um zu prüfen, ob zwischen der Häufigkeitsverteilung der kategorialen Variablen ein statistischer Zusammenhang zu den Gruppen besteht oder ob sie unabhängig voneinander sind.

Aussage 3 ist richtig: Ein signifikanter $\chi^2$-Test zeigt, dass die Gesamtabweichung der beobachteten von den erwarteten Häufigkeiten statistisch bedeutsam ist. Daraus folgt, dass mindestens eine Kategorie stärker oder schwächer vertreten ist als unter der Nullhypothese angenommen. Für eine konkrete Aussage welche Kategorie abweicht müssen weitere Kennwerte berechnet werden. Diese haben wir in der Vorlesung nicht besprochen.

Aussage 4 ist falsch: Der $\chi^2$-Test stellt keine Normalverteilungsannahme an die Daten. Er basiert auf Häufigkeiten kategorialer Daten. Eine wichtige Voraussetzung ist stattdessen, dass die erwarteten Häufigkeiten in den Zellen ausreichend groß sind.

Sie haben einen $\chi^2$-Test mit R berechnet um eine Häufigkeitsverteilung gegen eine Gleichverteilung zu testen und erhalten folgenden Output.


    Chi-squared test for given probabilities

data:  frequency_table
X-squared = 11.571, df = 5, p-value = 0.04116

Beurteilen Sie die folgenden Aussagen zu dem R Output.

Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.

Es gab 6 Kategorien der abhängigen VariableDer kritische $\chi^2$-Wert für diesen Test, liegt bei $\chi^2_{krit} = 11.571$Der Test ist mit $\alpha = .05$ signifikant.Die Stichprobengrösse betrug $N = 100$

Aussage 1 ist richtig: Mit Hilfe der im Output angegebenen Freiheitsgrade können Sie die Anzahl an Kategorien $k$ berechnen. Für die Freiheitsgrade gilt $df = k-1$, also ist die Anzahl der Kategorien $k = df + 1 = 5 + 1 = 6$.

Aussage 2 ist falsch: Der im Output angegebene $\chi^2$-Wert bezieht sich auf den empirischen nicht den kritischen $\chi^2$-Wert. Der kritische $\chi^2$-Wert für $df = 5$ und das in Aussage 3 angegebene Signifikanzniveau $\alpha = .05$ wäre $\chi^2_{krit} = 11.07$

Aussage 3 ist richtig: Der $p$-Wert ist mit $p = 0.04116$ kleiner als das in der Aussage angegebene Signifikanzniveau $\alpha = .05$, also ist der Test signifikant.

Aussage 4 ist falsch: Aus dem R Output lassen sich keine Rückschlüsse auf die Stichprobengrösse ziehen.

Korrelation

In einer empirischen Untersuchung wollen sie den Zusammenhang zwischen Lebenszufriedenheit und monatlichem Einkommen untersuchen. Unten sehen sie den Scatterplot der die Daten der Studie zusammenfasst.

Der statistische Test, den Sie mit Hilfe von R duchführen liefert Ihnen folgendes Ergebnis:


    Pearson's product-moment correlation

data:  einkommen and zufriedenheit
t = 8.5646, df = 148, p-value = 1.298e-14
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.4576171 0.6737632
sample estimates:
      cor 
0.5756606

Beurteilen Sie die folgenden Aussagen zu dem R Output.

Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.

In der Studie wurde eine Stichprobe mit $N = 148$ Personen erhoben.Weil das Ergebnis auf einem Signifikanzniveau von $\alpha = .01$ signifkant ist, können wir schliessen, dass der Zusammenhang zwischen Lebenszufriedenheit und monatlichem Einkommen in der Population linear ist.Die geteilte Varianz zwischen Lebenszufrieden heit und Einkommen ist ca. 33%.Der empirische $t$-Wert für den Signifikanztest der Korrelation ist $t_{emp} \approx 8.56$

Aussage 1 ist falsch: Bei der Produkt-Moment-(Pearson)-Korrelation gilt für die Freiheitsgrade $df = N - 2$. Lösen wir diese Gleichung nach der Stichprobengrösse auf ergibt sich: $ N = df + 2 = 148 + 2 = 150$. Die Stichprobe umfasst also **$N = 150$** Personen, nicht 148.

Aussage 2 ist falsch: Der durchgeführte Signifikanztest für die Korrelation prüft die Nullhypothese $H_0: \rho = 0$ also, ob kein linearer Zusammenhang zwischen den beiden Variablen in der Population besteht.

Ein signifikantes Testergebnis zeigt, dass die beobachteten Daten unter Annahme der Nullhypothese unwahrscheinlich sind. Aber: Nur weil die Daten einen von Null unterschiedlichen Korrelationskoeffizienten indizieren, heißt das nicht, dass der Zusammenhang in der Population notwendigerweise linear ist, da der Test nur auf das Vorhandensein eines linearen Anteils prüft.

Aussage 3 ist richtig: Die geteilte Varianz können wir durch den Determinationskoeffizienten $r^2$ berechnen. Mit der aus dem Output gegebene Korrelation $r = 0.5756606$ ergibt sich: $r^2 = 0.5756606^2 \approx 0.331$.

Aussage 4 ist richtig: Der R-Output berichtet den auf Basis der Daten bestimmten $t$-Wert für die Korrelation. Dieser ist $t_{emp} = 8.5646 \approx 8.56$

In einer Stichprobe von 5 Personen wurden die Variablen Körpergröße (in cm) und Körpergewicht (in kg) erhoben:

Person	Körpergröße (X)	Körpergewicht (Y)
1	162	58
2	168	63
3	171	67
4	176	72
5	182	70

Berechnen Sie die Kovarianz zwischen Körpergröße und Körpergewicht in der Stichprobe $s_{XY}$.

$s_{XY} = 31.00$$s_{XY} = 38.75$$s_{XY} = 0$$s_{XY} = 62.25$

Gesucht ist die Kovarianz in der Stichprobe:

\[ s_{XY}=\frac{\sum_{i=1}^{N}(x_i-\bar{x})(y_i-\bar{y})}{N} \]

Schritt 1: Mittelwerte der beiden Variablen berechnen:

\[ \bar{x}=\frac{162+168+171+176+182}{5}=\frac{859}{5}=171.8 \]

\[ \bar{y}=\frac{58+63+67+72+70}{5}=\frac{330}{5}=66 \]

Schritt 2: Als nächstes berechnen wir die Abweichungen von Mittelwert und das Kreuzprodukt für jedes Messwertepaar

Person	$x_i-\bar{x}$	$y_i-\bar{y}$	Kreuzprodukt $(x_i-\bar{x})(y_i-\bar{y})$
1	$162-171.8=-9.8$	$58-66=-8$	$(-9.8)\cdot(-8)=78.4$
2	$168-171.8=-3.8$	$63-66=-3$	$(-3.8)\cdot(-3)=11.4$
3	$171-171.8=-0.8$	$67-66=1$	$(-0.8)\cdot 1=-0.8$
4	$176-171.8=4.2$	$72-66=6$	$4.2\cdot 6=25.2$
5	$182-171.8=10.2$	$70-66=4$	$10.2\cdot 4=40.8$

Schritt 3: Mit diesen Informationen können wir nun die Summe der Kreuzprodukte durch die Stichprobengrösse teilen:

\[ s_{XY} = \frac{\sum_{i=1}^{N}(x_i-\bar{x})(y_i-\bar{y})}{N} = \frac{78.4+11.4-0.8+25.2+40.8}{5} = \frac{155.0}{5} = 31.00 \]

Beurteilen Sie die folgenden Aussagen zu Zusammenhangsmassen.

Kreuzen Sie bei jeder Aussage an, ob sie richtig oder falsch ist.

Korrelationskoeffizienten messen die Stärke und Richtung eines statistischen Zusammenhangs zwischen zwei Variablen.Eine Korrelation von $r = 0$ bedeutet, dass zwischen zwei Variablen kein Zusammenhang besteht.Ein hoher Korrelationskoeffizient impliziert, dass eine Variable die Ursache der anderen ist.Der Pearson-Korrelationskoeffizient erfasst nur lineare Zusammenhänge zwischen Variablen.

Aussage 1 ist richtig: Korrelationskoeffizienten (z. B. Produkt-Moment Korrelation, Punkt-Biseriale Korrelation oder der $\phi$-Koeffizient ) quantifizieren, wie stark zwei Variablen zusammenhängen und (falls dies für die Variablen sinnvoll ist) in welche Richtung (positiv oder negativ) dieser Zusammenhang verläuft.

Aussage 2 ist falsch: Ein Korrelationskoeffizient von $r = 0$ bedeutet lediglich, dass kein linearer Zusammenhang vorliegt. Es können dennoch nicht-lineare Zusammenhänge zwischen den Variablen bestehen, die durch den Korrelationskoeffizienten nicht erfasst werden. Für Beispiele schauen Sie in die Folien der Vorlesung.

Aussage 3 ist falsch: Korrelation beschreibt einen statistischen Zusammenhang, erlaubt aber keine kausalen Schlussfolgerungen. Ein hoher Korrelationskoeffizient kann auch durch Drittvariablen oder zufällige Zusammenhänge entstehen.

Aussage 4 ist richtig: Der Pearson-Korrelationskoeffizient misst ausschließlich lineare Zusammenhänge. Nicht-lineare Beziehungen können trotz eines starken Zusammenhangs zu einem niedrigen oder null Korrelationskoeffizienten führen.

Person	\(x_i-\bar{x}\)	\(y_i-\bar{y}\)	Kreuzprodukt \((x_i-\bar{x})(y_i-\bar{y})\)
1	\(162-171.8=-9.8\)	\(58-66=-8\)	\((-9.8)\cdot(-8)=78.4\)
2	\(168-171.8=-3.8\)	\(63-66=-3\)	\((-3.8)\cdot(-3)=11.4\)
3	\(171-171.8=-0.8\)	\(67-66=1\)	\((-0.8)\cdot 1=-0.8\)
4	\(176-171.8=4.2\)	\(72-66=6\)	\(4.2\cdot 6=25.2\)
5	\(182-171.8=10.2\)	\(70-66=4\)	\(10.2\cdot 4=40.8\)

Übungsfragen: Klausurvorbereitung

Übungsfragen: Klausur

Skalenniveaus

Masse der zentralen Tendenz

Dispersionsmasse

Wahrscheinlichkeitstheorie

Wahrscheinlichkeitsverteilungen

Hypothesentests

Parameterschätzung

\(t\)-Test

\(\chi^2\)-Test

Korrelation

Gruppe	N	\(\bar{x}\)	\(\hat{\sigma}_x\)
1	16	52	8
2	16	48	8