Urnen mit Bällen und bedingte Wahrscheinlichkeiten

Neulich habe ich über soziale Medien ein interessantes mathematisches Problem gesehen, auf das ich auch zuerst reingefallen bin. Man kann aber ziemlich viel über Statistik lernen, wenn man es auseinandernimmt.

So, sechste Stunde, Mathe, Thema Stoachstik. Es geht um Urnen, in denen jeweils 50 Bälle sind. Die Bälle können entweder rot oder grün sein. Die Anzahl der roten Bälle ist gleichverteilt zwischen 0 und 50, jede Anzahl roter Bälle kann also mit gleicher Wahrscheinlichkeit vorkommen.

Nun nehmen wir an, dass wir eine dieser Urnen haben und die erste herausgenommene Kugel ist rot. Wie groß ist die Wahrscheinlichkeit, dass die zweite Kugel rot ist?

Naive und falsche Antwort

Ich bin dann direkt los und fühlte mich clever. Das ist bei solchen Aufgaben immer schon eine schlechte Idee. Jedenfalls dachte ich mir: Sei die Anzahl der roten Kugeln in der Urne $r$. Wir wissen, dass $r \sim U(0, 50)$ ist, gleichverteilt zwischen 0 und 50. Die Anzahl der grünen Kugeln $g$ ist $50 - r$, was damit dann auch $g \sim U(0, 50)$ ergibt. Rot und Grün sind ja vollkommen austauschbar.

In einer Urne, aus der wir schon eine rote Kugel gezogen haben, sind nur noch $r-1$ Kugeln drin. Von daher musste mindestens eine rote Kugel drin sein. Übrig bleibt also letztlich $r \sim U(1, 50)$ und $g \sim U(0, 49)$. Wir haben aber jetzt eine rote Kugel rausgenommen. Und somit haben wir für die verbleibenden Kugel eine Verteilung von $U(0, 49)$ für die roten als auch die grünen Kugeln.

Es ist also scheinbar klar: Die Wahrscheinlichkeit, eine weitere rote Kugel zu ziehen, ist 50 %. Das stimmt aber leider nicht.

Korrekte Erklärung mit bedingten Wahrscheinlichkeiten

Im ersten Semester des Physikstudiums habe ich Mathematik neu lernen müssen. Man muss sich von dem lösen, was man meint zu wissen, und mit den Definitionen arbeiten. Tun wir das einmal.

Die exakte Fragestellung war: Wenn ich eine Urne habe, aus der die erste Kugel rot war, wie wahrscheinlich ist es, dass die nächste Kugel rot ist? Das ist eine bedingte Wahrscheinlichkeit. Wir können das aufschreiben als $P(\text{rot|erste Kugel rot})$, gesprochen »Wahrscheinlichkeit für rot gegeben erste Kugel rot«.

Jetzt können wir systematisch anfangen zu arbeiten und so lange Definitionen einsetzen und umformen, bis wir ein Ergebnis haben. Fangen wir mit der Definition bedingter Wahrscheinlichkeiten an:

$$ P(A|B) = \frac{P(A \cap B)}{P(B)} \,. $$

In unserem Fall ist Ereignis $A$, dass die zweite Kugel rot ist. $B$ ist, dass die erste Kugel rot ist. $A \cap B$ ist die Schnittmenge, also dass beides gleichzeitig eintritt. Diese Dinge können wir nun besser bestimmen.

Wenn wir also eine beliebige Urne nehmen, dann sind dort $r \sim U(0, 50)$ rote Kugeln drin. Die Wahrscheinlichkeit $P(B)$ hängt dann also von der Urne ab.

Wir haben also implizit noch eine Vorbedingung, nämlich $r$ rote Kugeln in der Urne. Wir können das explizit machen:

$$ P(B) = \sum_{r=0}^{50} P(B|r) P(r) \,. $$

Wir drücken die Wahrscheinlichkeit von $B$, also als erste Kugel eine rote zu ziehen, durch zwei Teile aus. Wir haben $P(B|r)$, das ist die Wahrscheinlichkeit eine rote Kugel zu ziehen, wenn $r$ rote Kugeln enthalten sind. Und $P(r)$ ist die Wahrscheinlichkeit, dass gerade $r$ Kugeln drin sind.

Das letztere ist einfach. Wir haben $N+1$ verschiedene Möglichkeiten, wie die Urne mit $N$ Kugeln bestückt sein könnte. Da es gleichverteilt ist, ist jede davon mit einer Wahrscheinlichkeit von $1/(N+1)$ vertreten.

Der Teil davor ist auch machbar. Wenn von $N$ Kugeln $r$ rot sind, dann ist die Wahrscheinlichkeit eine rote Kugel zu ziehen $r/N$.

Setzen wir das jetzt zusammen, so erhalten wir:

$$ P(B) = \sum_{r=0}^N \frac{r}{N} \frac{1}{N+1} \,. $$

Das lässt sich noch vereinfachen, indem wir alle von $r$ unabhängigen Terme aus der Summe ziehen.

$$ P(B) = \frac{1}{N(N+1)} \sum_{r=0}^N r \,. $$

Nehmen wir die Gaussche Summenformel und wir haben als nächstes Ergebnis

$$ P(B) = \frac{1}{N(N+1)} \frac{N^2 + N}{2} = \frac 12 \,. $$

Die Wahrscheinlichkeit über alle Urnen hinweg (!) als erstes eine rote Kugel zu ziehen, ist 1/2. Das passt auch zu dem, was man sich hier intuitiv vorstellen mag.

Der Knackpunkt kommt aber jetzt, wenn wir die zweite Kugel ziehen. Dazu nochmal die Formel, die wir eben hatten:

$$ P(A|B) = \frac{P(A \cap B)}{P(B)} \,. $$

Wir müssen jetzt den Teil $P(A \cap B)$ ausrechnen und wir nutzen den gleichen Trick:

$$ P(A \cap B) = \sum_{r=0}^N P(A \cap B|r) P(r) \,. $$

Die Wahrscheinlichkeit zwei rote Kugeln hintereinander zu ziehen besteht aus zwei Faktoren. Zuerst das $r/N$, das wir schon kennen. Und danach habe ich ja eine rote Kugel entfernt. Somit ist es $(r-1)/(N-1)$. Zusammen mit der Wahrscheinlichkeit für $P(r) = 1/(N+1)$ erhalten wir so den Ausdruck

$$ P(A \cap B) = \sum_{r=0}^N \frac{r}{N} \frac{r-1}{N-1} \frac{1}{N+1} \,. $$

Auch das können wir ein bisschen vereinfachen zu

$$ P(A \cap B) = \frac{1}{N(N-1)(N+1)} \sum_{r=0}^N (r^2 - r) \,. $$

Wir können wieder die Summenformel anwenden, diesmal die Summenformel für Quadratzahlen. So erhalten wir damit und mit dem Ergebnis von eben, diesen Ausdruck:

$$ P(A \cap B) = \frac{1}{N(N-1)(N+1)} \left( \frac{N(N+1)(2N+1)}{6} - \frac{N^2 + N}{2} \right) \,. $$

Vereinfacht:

$$ P(A \cap B) = \frac{1}{N(N-1)(N+1)} \left( \frac{2N^3+2N^2 + N^2 + N - 3N^2 - 3N}{6} \right) \,. $$

Weiter vereinfacht:

$$ P(A \cap B) = \frac{1}{(N-1)(N+1)} \left( \frac{N^2 - 1}{3} \right) \,. $$

Nun können wir die binomische Formel nutzen, $(a+b)(a-b) = a^2 - b^2$. So haben wir hier $(N - 1)(N+1) = (N^2-1)$ und am Ende bleibt nur noch 1/3 übrig:

$$ P(A \cap B) = \frac 13 \,. $$

Setzen wir das jetzt mit dem anderen Teilergebnis ein, so erhalten wir

$$ P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{\frac 13}{\frac 12} = \frac 23 \,. $$

Die Wahrscheinlichkeit, dass die zweite Kugel rot ist, wenn die erste rot war, ist 2/3! Das fand ich am Anfang ziemlich merkwürdig. Aber letztlich kann man es ganz intuitiv machen: Wenn wir als erstes eine rote Kugel gezogen haben, dann ist die Wahrscheinlichkeit, viele rote Kugeln in der Urne zu haben, groß. Entsprechend ist auch die Chance eine weitere rote Kugel zu ziehen, recht groß.