Übung 5 - Wahrscheinlichkeitstheorie

HS 2025

Author

Gidon Frischkorn

Wiederholung & Vertiefung: Bayes Theorem & Wahrscheinlichkeitsverteilungen

In dieser Übung werden Üben mit den Verteilungsfunktionen der Binomialverteilung in R zu Arbeiten. Darüber hinaus sollen Sie sich noch einmal Vertieft mit einer anderen Parametrisierung des Bayes Theorems beschäftigen.

Für eine ausführliche Erklärung dieser alternativen Parametrizierung schauen Sie sich bitte das folgende YouTube Video an:

The medical test paradox, and redesigning Bayes’ rule

Nehmen Sie sich bitte Zeit dafür dieses Video anzuschauen und die Konzepte und Erklärungen nachzuvollziehen. Die Inhalte können Teil der Prüfung sein und damit sollten Sie die entsprechenden Konzepte verstehen und anwenden können.

Odds / Chancen & Bayes Faktoren

In diesem Abschnitt fasse ich die wichtigsten Informationen aus dem Video nochmal zusammen. In dem Video werden zwei wichtige Konzepte eingeführt:

Die Darstellung von Wahrscheinlichkeiten mit Hilfe von Odds, oder deutsch Chancen
Die Umformung der Sensitivität und Spezifität eines Tests in einen Bayes Faktor

Odds / Chancen

Normalerweise schreiben wir eine Wahrscheinlichkeit als einen Bruch bzw. eine Zahl zwischen 0 und 1. Die Idee dabei ist, dass wir die Anzahl günstiger Ereignisse zur Gesamtzahl an möglichen Ereignissen in Bezug setzen. Wenn, wir zum Beispiel die Wahrscheinlichkeit bei würfeln eines fairen Würfels eine 6 zu werfen beschreiben, dann ist diese \(\frac{1}{6} = 0.16666 \dots\), weil ein Ergebnis der Zahl 6 enspricht, und es insgesamt 6 mögliche ergebnisse gibt.

Alternativ können wir diese Wahrscheinlichkeit jedoch auch als Odds (bzw. Chancen) schreiben. Dabei setzen wir die Anzahl günstiger Ergebnisse zur Anzahl ungünstiger Ergebnisse in Bezug \(1:5\). Um Odds (Chancen) von Wahrscheinlichkeiten in der Notation abzugrenzen wird dabei Häufig ein Doppelpunkt verwendet. Die Odds \(1:5\) beschreiben dabei genau so die Wahrscheinlichkeit und können auch in diese Übertragen werden in dem man die erste Zahl durch die Summe beider Zahlen teilt \(\frac{1}{1 + 5}\). Allgemein können wir also schreiben:

\[ a:b = \frac{a}{a+b} \]

Odds (Chancen) können dabei auch als eine Zahl zwischen 0 und Unendlich \(\infty\) angegeben werden. Dabei entsprechen Odds = 1 einer Wahrscheinlichkeit von 50% oder \(\frac{1}{2}\), Odds < 1 entsprechen Wahrscheinlichkeiten kleiner als 50%, und Odds > 1 entsprechen Wahrscheinlichkeiten grösser als 50%. Sind Odds als einzelne Zahl angegeben können Sie diese jeweils relativ zur Zahl 1 verstehen. Gegeben die Odds \(O\) ergibt sich die Wahrscheinlichkeit:

\[ O = O:1 = \frac{O}{O+1} \]

Bayes Faktoren

Im Allgemeinen stellen Bayes Faktoren das Verhältnis von zwei Likelihoods, also bedigten Wahrscheinlichkeiten bestimmte Daten \(D\) unter der Annahme eines Modells oder einer Hypothese \(H\) zu Beobachten. Wenn wir also zwei solcher Likelihoods \(P(D | H_1)\) und \(P(D | H_2)\) zueinander in Bezug setzen erhalten wir den Bayes Faktor \(BF\):

\[ BF_{12} = \frac{P(D | H_1)}{P(D | H_2)} \]

Der Index des Bayes Faktors gibt dabei an, welche bedingte Wahrscheinlichkeit im Zähler bzw. im Nenner steht. Die erste Zahl bezieht sich auf den Index der Hypothese im Zähler, die zweite Zahl auf den Index der Hypothese im Nenner.

Im Bezug auf das Bayes Theorem ist die Berechnung des Bayes Faktors sehr hilfreich, da sie die Aktualisierung von den Prior Beliefs, also unseres Wissens bevor wir die Daten gesehen haben, zu den Posterior Beliefs, also unserem Wissen nachdem wir die Daten gesehen haben, sehr klar und einfach darstellt. Stellen wir die Prior und Posterior Probability jeweils als Odds dar, gilt folgendes:

\[ O_{posterior} = BF \cdot O_{prior} \]

Beispiel

Sie interessieren sich dafür wie ein bestimtes Symptom \(S\) ihre Vermutung einer Diagnose \(D\) verändert. Sie wissen,

dass die Prior Odds der Diagnose \(O(D)\) (z. Bsp. Depression) 0.1 sind (es liegt also eine Wahrscheinlichkeit von \(\frac{0.1}{0.1+1} \approx 0.09 = 9\%\) für eine Depression vor).
Für das beobachtete Symptom (z. Bsp. Antriebslosigkeit) ist bekannt das der Bayes Faktor = 5 ist. Das heisst zum Beispiel depressive Personen \(D\) zeigen zu 75% Antriebslosigkeit, während nicht depressive Personen \(\neg D\) nur zu 15% Antriebslosigkeit breichten: \(\frac{P(S|D)}{P(S|\neg D)} = \frac{0.75}{0.15} = 5\).

Mit diesen Informationen können wir schnell und einfach berechnen wie stark sich die Odds (Chancen) einer Diagnose auf Basis des beobachteten Symptoms verändern:

\[ O(D|S) = \frac{P(S|D)}{P(S|\neg D)} \cdot O(D) = \frac{0.75}{0.15} \cdot 0.1 = 5 \cdot 0.1 = 0.5 \]

Wenn wir diese Posterior Odds \(O(D | S)\) in eine Wahrscheinlichkeit umrechnen erhalten wir: \(\frac{0.5}{0.5+1} = 0.333 \dots \approx 33 \%\). Nachdem wir das Symptom beobachtet haben, haben wir nun also eine höhere Chance \(33\% > 9\%\), dass eine Person die das Symptom berichtet an Depression leidet.

Übungen

In den folgenden Übungen nutzen Sie keinen Datensatz, sondern können R einfach als Taschenrechner verwenden.

Wie in den bisherigen Übungen finden Sie hier über den Übungsaufgaben die webr Konsole, die Ihnen das Schreiben und Durchführen von R Code direkt auf der Website ermöglicht. Wenn viele Studierenden die Übungen parallel machen, dann kann es sein, dass webr sehr langsam wird.

Um den Code den Sie geschrieben haben auszuführen drücken Sie entweder Run Code, damit der gesamte Code ausgeführt würde. Alternativ können Sie auch einzelne Zeilen ausführen, indem sie CRTL+Enter (Windows) oder CMD+Enter (Mac) drücken.

Nutzen Sie eine Suchmaschine, wenn Sie nicht wissen welche Funktionen Ihnen ein bestimmtes Ergebnis liefern. Ausserdem können Sie in R immer die Hilfe einer Funktion aufrufen, indem sie vor den Namen der Funktion ein Fragezeichen schreiben, z. Bsp ?median oder die Hilfe-Funktion help() mit dem jeweiligen Funktionsbefehl ausführen: help(median).

In einem normalen Jahr fallen 20% aller Studierenden durch die Prüfung der Vorlesung Statistik 1 \(P(P^-) = 0.2\). Von den Studierenden, die die Prüfung bestehen haben 90% alle Übungen im Selbststudium gewissenhaft gelöst \(P(Ü^+ | P^+) = 0.9\). Von den Studierenden, die durch die Prüfung fallen, haben nur 30% die Übungen gewissenhaft gelöst \(P(Ü^+ | P^-) = 0.3\). Auf welche Wahrscheinlichkeit reduziert sich die Wahrscheinlichkeit durch die Statistikprüfung zu fallen, wenn Sie die Übungen gewissenhaft lösen \(P(P^+ | Ü^+)\).

Um die Frage zu Beantworten berechnen Sie bitte:

Die Odds / Chance die Prüfung zu bestehen, unabhängig davon, ob die Übungen gewissenhaft gelöst wurden oder nicht \(O(P^+)\)
Den Bayes Faktor zur Aktualisierung der Odds die Prüfung zu bestehen, wenn die Übungen gelöst wurden \(BF_{Ü^+}\)

Antworten

Wenn Sie die Übungen gewissenhaft gelöst haben, liegt die Wahrscheinlichkeit, die Prüfung zu bestehen, bei etwa 92 %.Wenn Sie die Übungen gewissenhaft lösen, liegt Ihre Bestehenswahrscheinlichkeit bei 68 %, da das der Anteil aller Studierenden ist, die gut vorbereitet sindWer die Übungen gewissenhaft löst, hat ein Verhalten gezeigt, das dreimal häufiger bei erfolgreichen Studierenden vorkommt als bei den Durchfallenden. Das entspricht dem Bayes-Faktor \(BF_{Ü^+} = 3\)Wenn man noch nichts über das Übungsverhalten weiß, beträgt die Chance, die Prüfung zu bestehen, fünfmal so hoch wie die Chance, durchzufallen. Das entspricht den Prior-Odds \(O(P^+) = 5\)Wer die Übungen gewissenhaft löst, hat keinen Vorteil, die Bestehenswahrscheinlichkeit bleibt bei 80 %.

Bevor wir Informationen über das Übungsverhalten haben, beträgt die Wahrscheinlichkeit zu bestehen \(P(P^+) = 0.8\)
und zu scheitern \(P(P^-) = 0.2\). Die Odds (Chance im Verhältnis zu Misserfolg) sind:

\[ O(P^+) = \frac{P(P^+)}{P(P^-)} = \frac{0.8}{0.2} = 4 \]

Die Chance zu bestehen ist also viermal so hoch wie die Chance, durchzufallen.

Die zusätzliche Information, die Übungen gewissenhaft zu lösen \(Ü^+\) liefert uns weitere Informationen in Bezug auf die Chancen die Prüfung zu bestehen. Wir wollen nun wissen, wie stark diese Information unsere bisherigen Erwartungen aktualisieren sollte. Dazu vergleichen wir, wie wahrscheinlich diese Information unter Personen, die die Prüfung bestehen gegenüber Personen, die die Prüfung nicht bestehen ist. Das liefert uns den Bayes Faktor:

\[ BF_{Ü^+} = \frac{P(Ü^+ \mid P^+)}{P(Ü^+ \mid P^-)} = \frac{0.90}{0.30} = 3 \]

Das Verhalten „Übungen gewissenhaft lösen“ ist dreimal häufiger unter den Bestehenden als unter den Durchfallenden.
Es ist also ein positives Signal für den Prüfungserfolg.

Mit diesem Bayes Faktor können wir unseres Wissens aktualisiern. In Odds-Form lautet diese Aktualisierung:

\[ O(P^+ \mid Ü^+) = O(P^+) \times BF_{Ü^+} = = 4 \times 3 = 12 \]

Nach der Information „Übungen gewissenhaft gelöst“ ist die Bestehenschance also 12-mal höher als die Durchfallchance. Aus diesen Odds lässt sich direkt die Wahrscheinlichkeit berechnen:

\[ P(P^+ \mid Ü^+) = \frac{O(P^+ \mid Ü^+)}{1 + O(P^+ \mid Ü^+)} = \frac{12}{1+12} = \frac{12}{13} \approx 0.923 \]

Entsprechend können wir zu - Wahrscheinlichkeit zu bestehen, wenn die Übungen gewissenhaft bearbeitet wurden: 92,3 % - Wahrscheinlichkeit zu scheitern, wenn die Übungen gewissenhaft bearbeitet wurden: 7,7 %

In einem Gedächtnisexperiment sehen Teilnehmer 5 Wörter, die sie sich merken sollen. Im Test werden 5 Wörter präsentiert, die entweder “alt” - also eines der Wörter die sich die Teilnehmer merken sollten - oder “neu” - also nicht gezeigte Wörter - sein können. Die Teilnehmer sollen dabei für jedes Wort sagen, ob es “neu” oder “alt” ist. Sie führen 20 Durchgänge mit 5 zu merkenden Wörtern durch.

Rechnen Sie die folgenden Wahrscheinlichkeiten auf Basis der Binomialverteilung aus:

Die Wahrscheinlichkeit in einem Durchgänge alle Wörter richtig als “alt” oder “neu” zu klassifizieren
Die Wahrscheinlichkeit 2 oder weniger Wörter richtig als “alt” oder “neu” zu klassifizieren
Die Anzahl an Wörtern, für die die Wahrscheinlichkeit so viele oder mehr richtig als “alt” oder “neu” zu klassifizieren, gleich 0.8 ist

Antworten

Die Wahrscheinlichkeit in einem Durchgang alle Wörter richtig zu klassifizieren ist etwa 3.1%Die Wahrscheinlichkeit in einem Durchgang alle Wörter richtig zu klassifizieren ist etwa 1.4%Die Wahrscheinlichkeit 2 oder weniger Wörter als richtig zu klassifizieren ist 50%Die Wahrscheinlichkeit 2 oder weniger Wörter als richtig zu klassifizieren ist 81%Die Anzahl an Wörter für die man eine Wahrscheinlichkeit von 80% hat so viele oder mehr Wörter richtig zu klassifizieren ist 2Die Anzahl an Wörter für die man eine Wahrscheinlichkeit von 80% hat so viele oder mehr Wörter richtig zu klassifizieren ist 1

Für die drei gefragte Antworten müssen sie jeweils die Wahrscheinlichkeitsfunktion dbinom, die Verteilungsfunktion pbinom, und die Quantilfunktion qbinom nutzen. Wichtig ist dabei darauf zu achten, dass die Anzahl an Durchgängen für die Lösung der Aufgaben nicht relevant ist, und sie nur die Anzahl an Wörtern die in einem Durchgang klassifiziert werden müssen (= 5) beachten müssen. Zusätzlich müssen Sie überlegen, dass die Ratewahrscheinlichkeit in dieser Aufgabe bei \(0.5 = \frac{1}{2}\) liegt.

Die erste Wahrscheinlichkeit berechnet sich dabei mit der Wahrscheinlichkeitsfunktion dbinom für eine bestimmte Anzahl an Wiederholungen gleich 5 und dem Ergebnis dabei 5 Erfolge (also richtige Antworten) zu erzielen:

dbinom(5, size = 5, prob = 1/2)

[1] 0.03125

Die kumulierte Wahrscheinlichkeit 2 oder weniger Wörter korrekt zu klassifizieren berechnet sich mit der Verteilungsfunktion pbinom für eine Anzahl an Wiederholungen gleich 5 und dem Ergebnis dabei 2 oder weniger Erfolge (also richtige Antworten) zu erzielen)

pbinom(2, size = 5, prob = 1/2)

[1] 0.5

Für die Anzahl an Wörter für die Sie eine kumulierte Wahrscheinlichkeit von 80% für so viele oder mehr richtige Antworten haben können sie mit der Quantilsfunktion qbinom berechnen. Dabei gibt es in den Argumenten der Quantilsfunktion die Option lower.tail. Standardmässig ist diese auf TRUE gesetzt. Da wir für die gefragte Anzahl aber die Wahrscheinlichkeit von 80% für so viele oder mehr richtige Antworten suchen, können wir diese Option auf FALSE setzen und damit die gefragte Anzahl an Wörtern erhalten:

qbinom(0.8, size = 5, prob = 1/2, lower.tail = FALSE)

[1] 2

Genauso können sie aber auch \(1 - 0.8 = 0.2\) verwenden, um mit diesem Wert und den Standardeinstellungen auf das gleiche Ergebnis zu kommen:

qbinom(0.2, size = 5, prob = 1/2)

[1] 2

Sie haben einen gezinkten Würfel der mit einer Wahrscheinlichkeit von 0.5 eine Sechs würfelt. Die anderen Zahlen sind jeweils gleich Wahrscheinlich. Berechnen Sie den Erwartungswert und die Standardabweichung der Wahrscheinlichkeitsverteilung für diesen Würfel.

Der Erwartungswert für die Wahrscheinlichkeitsverteilung des Würfels ist: \(E(X) = 4.5\)Der Erwartungswert für die Wahrscheinlichkeitsverteilung des Würfels ist: \(E(X) = 6\)Die Standardabweichung der Wahrscheinlichkeitsverteilung des Würfels ist: \(\sigma = 3.25\)Die Standardabweichung der Wahrscheinlichkeitsverteilung des Würfels ist: \(\sigma \approx 1.81\)

Als erstes müssen wir die Wahrscheinlichkeitsverteilung für den Würfel definieren. Aus dem angaben in der Aufgabe wissen wir, dass das Ergebnis eine Sechs zu würfeln eine Wahrscheinlichkeit von 0.5 hat. Die restliche Wahrscheinlichkeit von 0.5 verteilt sich gleich auf die anderen Ergebnisse. Damit haben die Ergebnisse 1 bis 5 jeweils eine Wahrscheinlichkeit von \(\frac{0.5}{5} = 0.1\). Wir können diese Wahrscheinlichkeiten also in einem Vektor speichern:

prob_wuerfel <- c(0.1,0.1,0.1,0.1,0.1,0.5)
names(prob_wuerfel) <- as.character(1:6)

Mit Hilfe der Werte für die Einzelnen Ergebnisse 1:6 und der Wahrscheinlichkeitsverteilung können wir dann den Erwartungswert berechnen:

erwartungswert <- sum(prob_wuerfel * 1:6)
erwartungswert

Mit dem so berechneten Erwartungswert können wir dann auch die Varianz berechnen:

varianz <- sum( (1:6 - erwartungswert)^2 * prob_wuerfel)
varianz

Indem wir die Wurzel aus der Varianz ziehen bekommen wir dann die Standardabweichung

sqrt(varianz)

Von 100.000 Personen sind 10% an Covid erkrankt. Sie fühlen Sich verschnupft und krank und führen einen Covid-Test durch. Das Ergebnis ist negativ. Sie wissen, dass der Test eine Sensitivität von 90% hat und damit für 90% der Personen, die an Covid erkrankt sind ein positives Ergebnis liefert. Ausserdem hat der Test eine Spezifität von 99%, Personen die nicht an COVID erkrankt sind erhalten also in 1% der Fälle ein positives Ergebnis. Wie hoch ist die Wahrscheinlichkeit, dass Sie an COVID erkrankt sind, gegeben dem negativen Testergebnis.

Wenden Sie das Bayes Theorem an um diese Frage zu Beantworten. Beachten Sie, dass Sie die Wahrscheinlichkeit für COVID gegeben eines negativen Testergebnisses berechnen sollen. Sie müssen die Elemente der Formel also entsprechend anpassen.

Die Wahrscheinlichkeit für ein negatives Testergebnis, unabhängig davon ob man an Covid erkrankt ist oder nicht liegt bei \(P(T-) = 0.95\)Die Wahrscheinlichkeit für ein negatives Testergebnis, wenn man Covid hat liegt bei \(P(- | C) = 0.1\)Die Wahrscheinlichkeit an Covid erkrankt zu sein, gegeben dem negativen Testergebnis ist. \(P(C | -) = 1.1\%\)Die Wahrscheinlichkeit an Covid erkrankt zu sein, gegeben dem negativen Testergebnis ist. \(P(C | -) = 0.5\%\)

Lassen Sie uns zu Beginn nochmal kurz die wichtigen Begriffe für die Aufgabe klären:

Sensitivität: Wie oft erkennt der Test Kranke korrekt als positiv.
Spezifität: Wie oft erkennt der Test Gesunde korrekt als negativ.
Unser Ziel: Von einem negativen Ergebnis auf die Krankheit schließen → (P(C-)).

Dafür brauchen wir das Bayes Theorem in der Variante für ein negatives Ergebnis:

\[ P(C\mid -) \;=\; \frac{P(-\mid C)\,P(C)}{P(-\mid C)\,P(C) \;+\; P(-\mid \neg C)\,P(\neg C)}. \]

In diese From des Bayes Theorems können wir nun die entsprechenden Werte eintragen:

\(P(-\mid C)=1-\text{Sensitivität}=1-0{,}90=0{,}10\)
\(P(-\mid \neg C)=\text{Spezifität}=0{,}99\)
\((P(C)=0{,}10\), \(P(\neg C)=0{,}90\)

Damit können wir zuerst die Wahrscheinlichkeit für ein negatives Testergebnis, unabhängig von der Erkrankrung berechnen:

\[ P(-) \;=\; 0.10\cdot 0.10 \;+\; 0.99\cdot 0.90 \;=\; 0.01 \;+\; 0.891 \;=\; 0.901. \]

Nachdem wir nun den Nenner für das Bayes Theorem bestimmt haben, können wir alle Werte einsetzten und die gesuchte Wahrscheinlichkeit ausrechnen:

\[ P(C\mid -) \;=\; \frac{0.10\cdot 0.10}{0.901} \;=\; \frac{0.01}{0.901} \;\approx\; 0.01110 \;=\; \mathbf{1.11\%}. \]

Nach einem negativen Test ist die Restwahrscheinlichkeit an COVID erkrankt zu sein also 1,11 %.