Übung 6 - Wahrscheinlichkeitstheorie

HS 2025

Author

Gidon Frischkorn

Wiederholung & Vertiefung: Dichteverteilungen

In dieser Übung werden wir Üben mit der Dichte- & Verteilungsfunktionen der Normalverteilung in R zu Arbeiten. Falls Sie sich nochmal vertieft mit den einzelnen Funktionen der Normalverteilung in R auseinandersetzen wollen, dann kann ich Ihnen das folgende Video empfehlen:

Wenn Sie nochmal eine Vertiefung der konzeptuellen Hintergründe der Standardnormalverteilung und dem Ablesen aus Verteilungstabellen wollen, kann ich Ihnen dieses Video empfehlen:

Übungen

In den folgenden Übungen nutzen Sie wiederum keinen Datensatz, sondern können R einfach als Taschenrechner verwenden.

Falls Sie die Übungsfragen nicht mit R beantworten wollen, dann können Sie die hier gedruckte Tabelle der z-Werte der Verteilungsfunktion der Standardnormalverteilung nutzen um die Fragen zu beantworten

Tabelle der z-Werte für die Verteilungsfunktion der Standardnormalverteilung

Wie in den bisherigen Übungen finden Sie über den Übungsaufgaben die webr Konsole, die Ihnen das Schreiben und Durchführen von R Code direkt auf der Website ermöglicht. Wenn viele Studierenden die Übungen parallel machen, dann kann es sein, dass webr sehr langsam wird.

Um den Code den Sie geschrieben haben auszuführen drücken Sie entweder Run Code, damit der gesamte Code ausgeführt würde. Alternativ können Sie auch einzelne Zeilen ausführen, indem sie CRTL+Enter (Windows) oder CMD+Enter (Mac) drücken.

Nutzen Sie eine Suchmaschine, wenn Sie nicht wissen welche Funktionen Ihnen ein bestimmtes Ergebnis liefern. Ausserdem können Sie in R immer die Hilfe einer Funktion aufrufen, indem sie vor den Namen der Funktion ein Fragezeichen schreiben, z. Bsp ?median oder die Hilfe-Funktion help() mit dem jeweiligen Funktionsbefehl ausführen: help(median).

Aus einer Studie zum Schlafverhalten von Studierenden wissen Sie, dass die Schlafdauer von Studierenden einer Normalverteilung folgt. Im Mittel Schlafen Studierende 7.4 Stunden, und die Varianz der Schlafdauer beträgt 0.36. Beantworten Sie die Folgenden Fragen zur Schlafdauer der Studierenden mit Hilfe der verschiedenen R-Funktionen zur Normalverteilung oder der Tabelle der z-Werte für die Verteilungsfunktion der Standardnormalverteilung.

  1. In welchem Intervall liegt die Schlafdauer, der Mittleren 95% der Studierenden?
  2. Mit welcher Schlafdauer schläft man länger als 80% der Studierenden?
  3. Mit einer Schlafdauer von 8 Stunden schläft man länger als wie viel Prozent der Studierenden?

Zuerst sollen Sie für die Lösung dieser Aufgabe die Varianz in die Standardabweichung umrechen:

\[ \sigma = \sqrt{VAR}= \sqrt{0.36} = 0.6 \]

Die Standardabweichung können Sie nutzen um die relevanten Werte mit Hilfe der z-Transformation zu berechnen.

\[ Z = \frac{X - \mu}{\sigma}; \quad X = Z \cdot \sigma + \mu \]

Für das Intervall der mittleren 95% der Schlafdauer, müssen Sie jeweils 2.5% am unteren und am oberen Ende der Verteilung abschneiden. Sie müssen also die Z-Werte für eine kumulierte Wahrscheinlichkeit von 2.5% und 97.5% ermitteln. Anhand der Tabelle können Sie heraus finden, dass:

\[ Z_{97.5\%} = 1.96 \]

aufgrund der Symmetrie der Normalverteilung können Sie ableiten:

\[ Z_{2.5\%} = -Z_{97.5\%} = -1.96 \]

Mit dieser Information können wir die erste Frage beantworten und berechnen:

\[ X_{2.5\%} = Z_{2.5\%} \cdot \sigma + \mu = -1.96 \cdot 0.6 + 7.4 \approx 6.22 \] \[ X_{97.5\%} = Z_{97.5\%} \cdot \sigma + \mu = 1.96 \cdot 0.6 + 7.4 \approx 8.58 \]

Um heraus zu finden mit welcher Schlafdauer man länger als 80% der Studierenden schläft, müssen wir zuerst den Z wert für die kumulierte Wahrscheinlichkeit von 80% aus der Tabelle ablesen. Dieser Beträgt \(Z_{80\%} \approx 0.85\)

Anolog zur letzten Aufgaben können wir damit bestimmen, wie lange man Schlafen muss um länger als 80% der Studierenden zu schlafen:

\[ X_{80\%} = Z_{80\%} \cdot \sigma + \mu = 0.85 * 0.6 + 7.4 = 7.91 \]

Wenn wir wissen wollen, welcher Anteil an Studierenden kürzer als 8 Stunden schläft, müssen wir den Z-Wert für den Wert von 8 Stunden berechnen:

\[ Z = \frac{X - \mu}{\sigma}=\frac{8-7.4}{0.6} = 1 \]

Anhand des z-Werts können wir aus der Tabelle ablesen, dass die kumulierte Wahrscheinlichkeit für diesen Wert gleich \(0.8413\) ist.

Mir R können Sie diese Ergebnisse mit Hilfe der folgenden funktionen direkt bestimmen:

# Intervall der mittleren 95%
qnorm(c(0.025, 0.975), mean = 7.4, sd = sqrt(0.36))

# Schlafdauer grösser als 80%
qnorm(0.8, mean = 7.4, sd = sqrt(0.36))

# Kumulierte Prozent mit Schlafdauer kleiner als 8 Stunden
pnorm(8, mean = 7.4, sd = sqrt(0.36))

Eine umfassende Untersuchung hat ergeben, dass Personen die unter Depression leiden eine durschnittliche Schlafdauer von 6.2 Stunden mit einer Varianz von 0.4 haben, wohingegen Gesunde Personen eine durchschnittliche Schlafdauer von 7.1 Stunden mit einer Varianz von 0.5 haben. Sie wissen das die Wahrscheinlichkeit, dass eine zufällige Person unter Depression leidet bei 0.1 liegt.

Ein Patient hat einen Fragebogen zur Schlafqualität ausgefüllt und berichtet dort, dass er in den letzten 4 Wochen durchschnittlich 6.5 Stunden geschlafen hat. Wie verändert dieses Wissen die Wahrscheinlichkeit, dass der Patient unter Depressionen leidet?

Um das Bayes Theorem, dass wir für diese Fragestellung nutzen müssen, einfach und schnell anwenden zu können rechnen wir als erstes die Prior Wahrscheinlichkeit für Depression \(P(D^+) = 0.1\) in die Prior Odds um:

\[ O_{D^+} = \frac{P(D^+)}{1-P(D^+)} = \frac{0.1}{1-0.1} = \frac{0.1}{0.9} = \frac{1}{9} \]

Anschliessend müssen wir den Bayes Faktor zur Aktualisierung der Wahrscheinlichkeit einer Depression \(BF_{D^+}\) berechnen. Dafür müssen wir die Likelihood der berichteten Schlafdauer von \(T_S = 6.5\) Stunden unter der Verteilung von Depressiven Personen, durch die Likelihood der berichteten Schlafdauern unter der Verteilung der Gesunden Personen berechnen:

\[ BF_{D+|T_S} = \frac{P(T_S|D^+)}{P(T_S | D^-)} \]

Dafür nutzen wir am besten die dnorm Funktion:

bf_depression <- dnorm(6.5, mean = 6.2, sd = sqrt(0.4)) / dnorm(6.5, mean = 7.1, sd = sqrt(0.5))

Dieser Bayes Faktor ergibt \(BF_{D^+} \approx 1.4\). Auf Basis dieses Ergebnis können wir schon einschätzen, dass wir durch die gegebene Schlafdauer keine besonders starke Aktualisierung der Wahrscheinlichkeit einer Depression erreichen werden.

Trotzdem können wir nun die Prior Odds mit dem Bayes Faktor multiplizieren und dadurch die Posterior Odds erhalten:

\[ O_{D+|T_S} = O_{D^+} \cdot BF_{D^+} = \frac{1}{9} \cdot 1.4 \approx 0.156 \]

Wenn wir diese Posterior Odds in eine Wahrscheinlichkeit umrechnen erhalten wir:

\[ P(D^+|T_S) = \frac{O_{D+|T_S}}{1+O_{D+|T_S}} = \frac{0.156}{1+0.156} \approx 0.135 \]

Auf Basis der berichteten Schlafdauer ist die Wahrscheinlichkeit einer Depression also bei 13.5%.

Zur Abklärung von Hochbegabung habenSie mit einem Jugendlichen im Alter von 14 Jahren einen Intelligenztest durchgeführt. Der Intelligenztest ist durch eine Normstichprobe so normiert, dass die IQ Werte einen Mittelwert von 100 und eine Varianz von 225 haben. Beantworten Sie folgende Fragen zu dem Ergebnis des Jugendlichen

  1. Mit welchem IQ-Wert hätte der Jugendliche eine Leistung besser als 95% der Normstichprobe?
  2. Mit einem IQ-Ergebnis von 121 ist der Jugendliche besser als wie viel Prozent der Normstichprobe?
  3. Wie viel Prozent der Normstichprobe haben ein IQ-Ergebnis zwischen minus einer Standardabweichung und plus einer Standardabweichung vom Mittelwert.

Wir bestimmen als erstes die Varianz der IQ-Verteilung:

\[ \sigma = \sqrt{VAR}= \sqrt{225} = 15 \]

Nun können wir aus der Tabelle oder mit Hilfe der qnorm Funktion bestimmen für welchen z-Wert 95% der Standardnormalverteilung kleinere Werte haben:

qnorm(0.95)

Dieser Wert ist \(Z_{95\%} \approx 1.65\). Mit diesem Wert können wir den Z-Wert in den X-Wert der Normalverteilung mit dem Mittelwert \(\mu = 100\) und der Standardabweichung \(\sigma = 15\) umrechnen:

\[ X_{95\%} = Z_{95\%} \cdot \sigma + \mu = 1.65 \cdot 15 + 100 = 124.75 \]

Um heraus zu finden wie viel Prozent der Normstichprobe kleine IQ-Werte als 121 haben, müssen wir diesen Wert in eine Z-Wert transformiere:

\[ Z = \frac{X - \mu}{\sigma} = \frac{121 - 100}{15} = \frac{21}{15} = 1.4 \]

Nun können wir anhand der Tabelle oder mit Hilfe der pnorm Funktion bestimmen wie viel Prozent der Verteilung unterhalb dieses z-Werts liegen

pnorm(1.4)

für diesen Z-Wert liegen 91.9% unterhalb der Verteilung.

Für den letzen Punkt müssen wir den Wert der Verteilungsfunktion \(F(Z)\) für \(Z = -1\) von Wert der Verteilungsfunktion für \(Z = 1\) abziehen. Das können wir unabhängig vom Mittelwert und der Standardabweichung einfach mit der Standardnormalverteilung machen. Wenn Sie diese Aufgabe mit Hilfe der Tabelle lösen, dann müssen Sie sich die Symmetrie der Verteilung in Erinnerung rufen, wodurch gilt: \(F(-Z) = 1 - F(Z)\)

Wenn Sie den Wert für \(Z = 1\) aus der Tabelle bestimmen, erhalten sie: \(F(Z = 1) = 0.8413\). Entsprechend können Sie den Anteil an Werten zwischen einer Standardabweichung unterhalb des Mittelwerts und einer Standardabweichung oberhalb des Mittelwerts wie folgt berechnen:

\[ P(\mu - \sigma < X < \mu + \sigma) = F(1) - F(-1) = F(1) - (1 - (F-1)) = 0.8413 - (1- 0.8413) = 0.6826 \]

Entsprechend liegen 68.26% der Normstichprobe zwischen einer Standardabweichung unterhalb des Mittelwerts und einer Standardabweichung oberhalb des Mittelwerts.