LLMs tun sich mit logischer Deduktion schwer

Ich habe mit großen Sprachmodellen (LLMs) so meine Probleme, weil sie gerade in Deduktionsaufgaben total versagen können ohne dass man es direkt erkennen kann. Ein Beispiel.

Vor einiger Zeit schrieb ich über ein Problem mit roten und grünen Kugeln in Urnen.

Das hier war die Aufgabenstellung:

So, sechste Stunde, Mathe, Thema Stoachstik. Es geht um Urnen, in denen jeweils 50 Bälle sind. Die Bälle können entweder rot oder grün sein. Die Anzahl der roten Bälle ist gleichverteilt zwischen 0 und 50, jede Anzahl roter Bälle kann also mit gleicher Wahrscheinlichkeit vorkommen.

Nun nehmen wir an, dass wir eine dieser Urnen haben und die erste herausgenommene Kugel ist rot. Wie groß ist die Wahrscheinlichkeit, dass die zweite Kugel rot ist?

Das habe ich so als Prompt bei ChatGPT-4o reingeworfen. Das hier ist die Antwort:

Um die gesuchte Wahrscheinlichkeit zu bestimmen, dass die zweite Kugel rot ist, nachdem die erste Kugel rot war, können wir das Bayessche Theorem und Überlegungen zur bedingten Wahrscheinlichkeit verwenden. Wir können das Problem in mehrere Schritte zerlegen:

1. Problemstellung und Variablen

  • Jede Urne enthält 50 Bälle, die entweder rot oder grün sein können.
  • Die Anzahl der roten Bälle in einer Urne ist gleichverteilt zwischen 0 und 50. Das bedeutet, dass jede mögliche Anzahl roter Bälle (0, 1, 2, ..., 50) mit gleicher Wahrscheinlichkeit vorkommt.
  • Eine Urne wird zufällig ausgewählt, und wir wissen, dass die erste gezogene Kugel rot ist.
  • Wir wollen die Wahrscheinlichkeit bestimmen, dass auch die zweite Kugel rot ist.

2. Formulierung des Problems

Sei $ X $ die Anzahl der roten Bälle in der Urne. Da $ X $ gleichverteilt ist, hat $ X $ eine Wahrscheinlichkeit von $ \frac{1}{51} $ für jeden Wert von 0 bis 50.

Sei $ R_1 $ das Ereignis, dass die erste Kugel rot ist, und $ R_2 $ das Ereignis, dass die zweite Kugel rot ist. Wir suchen die bedingte Wahrscheinlichkeit $ P(R_2 \mid R_1) $.

3. Bedingte Wahrscheinlichkeit

Die Wahrscheinlichkeit $ P(R_2 \mid R_1) $ kann durch bedingte Wahrscheinlichkeiten berechnet werden:

$$ P(R_2 \mid R_1) = \sum_{k=1}^{50} P(R_2 \mid R_1, X=k) \cdot P(X=k \mid R_1) $$

Hier ist $ P(X=k \mid R_1) $ die Wahrscheinlichkeit, dass in der Urne $ k $ rote Bälle sind, gegeben dass die erste gezogene Kugel rot war.

4. Berechnung von $ P(X=k \mid R_1) $

Nach dem Bayesschen Theorem:

$$ P(X=k \mid R_1) = \frac{P(R_1 \mid X=k) \cdot P(X=k)}{P(R_1)} $$

  • $ P(R_1 \mid X=k) = \frac{k}{50} $: Wenn $ k $ rote Bälle in der Urne sind, ist die Wahrscheinlichkeit, eine rote Kugel zu ziehen, $ \frac{k}{50} $.
  • $ P(X=k) = \frac{1}{51} $: Gleichverteilung für $ X $ zwischen 0 und 50.
  • $ P(R_1) $ ist die Gesamtwahrscheinlichkeit, eine rote Kugel zu ziehen:

$$ P(R_1) = \sum_{k=0}^{50} P(R_1 \mid X=k) \cdot P(X=k) = \sum_{k=0}^{50} \frac{k}{50} \cdot \frac{1}{51} = \frac{1}{2550} \sum_{k=0}^{50} k = \frac{1275}{2550} = \frac{1}{2} $$

5. Berechnung von $ P(R_2 \mid R_1) $

$$ P(R_2 \mid R_1) = \sum_{k=1}^{50} \frac{\frac{k}{50} \cdot \frac{1}{51}}{\frac{1}{2}} \cdot \frac{k-1}{49} $$

Das vereinfacht sich zu:

$$ P(R_2 \mid R_1) = \frac{2}{2550} \sum_{k=1}^{50} k \cdot \frac{k-1}{49} $$

$$ = \frac{2}{2550 \cdot 49} \sum_{k=1}^{50} (k^2 - k) $$

6. Summenberechnung

$$ \sum_{k=1}^{50} k^2 = \frac{50 \cdot 51 \cdot 101}{6} = 42925 $$

$$ \sum_{k=1}^{50} k = \frac{50 \cdot 51}{2} = 1275 $$

$$ \sum_{k=1}^{50} (k^2 - k) = 42925 - 1275 = 41650 $$

7. Endergebnis

$$ P(R_2 \mid R_1) = \frac{2 \cdot 41650}{2550 \cdot 49} = \frac{83300}{124950} \approx \frac{2}{3} $$

Die Wahrscheinlichkeit, dass die zweite Kugel rot ist, nachdem die erste Kugel rot war, beträgt somit etwa $\frac{2}{3}$.

Das ist richtig hergeleitet. Der einzige Schönheitsfehler ist, dass es nicht erklärt wo in Schritt 5 die $\frac{k-1}{49}$ herkommen, aber der Term sieht korrekt aus. Auch ist am Ende etwas merkwürdig, dass $83300/124950$ nicht auf exakt $2/3$ gekürzt werden, sondern da ein $\approx$ steht. Dabei ist es exakt gleich.

Gleiches in Englisch

Nun nehme ich einen anderen Prompt in Englisch und probiere es erneut:

There are urns with red and green balls. Initially, there are 50 balls in every urn. The number of red balls is uniformly distributed between 0 and 50. Given an urn where the first ball that is taken out is red, how likely is it that the second ball taken out is red as well?

Dann bekommen wir das hier, wobei eben nicht der Satz von Bayes angewandt wird:

To determine the probability that the second ball taken out is red given that the first ball taken out is red, we need to use conditional probability and the uniform distribution of the number of red balls in the urn.

Problem Setup

  • Each urn initially contains 50 balls.
  • The number of red balls $ R $ in an urn is uniformly distributed between 0 and 50.
  • Given that the first ball drawn is red, we need to find the probability that the second ball drawn is also red.

Step-by-Step Solution

  1. Identify the total number of balls and the number of red balls:

Let $ R $ be the number of red balls in the urn, where $ R $ is uniformly distributed between 0 and 50.

  1. Probability distribution of $ R $:

Since $ R $ is uniformly distributed, the probability $ P(R = r) $ for any specific $ r $ is: $$ P(R = r) = \frac{1}{51}, \quad r = 0, 1, 2, \ldots, 50 $$

  1. Conditional probability calculation:

We need to find the probability $ P(\text{second ball is red} \mid \text{first ball is red}) $.

  1. Applying Bayes' theorem:

Given that the first ball drawn is red, the remaining balls in the urn consist of $ R-1 $ red balls out of 49 remaining balls (since one red ball has already been removed).

The probability that the second ball is red given the number of red balls $ R $ can be written as: $$ P(\text{second ball is red} \mid R) = \frac{R-1}{49} $$

  1. Expected value of the conditional probability:

We need the expected value of $ P(\text{second ball is red} \mid R) $ given that the first ball is red. This involves conditioning on the event that the first ball is red and using the law of total probability: $$ P(\text{second ball is red} \mid \text{first ball is red}) = E\left[ \frac{R-1}{49} \mid \text{first ball is red} \right] $$

  1. Probability adjustment for the first ball being red:

The first ball is red implies $ R $ is at least 1. We need to adjust the distribution of $ R $ given this information. The adjusted distribution is uniform over $ 1 $ to $ 50 $: $$ P(R = r \mid \text{first ball is red}) = \frac{1}{50}, \quad r = 1, 2, \ldots, 50 $$

  1. Expected value calculation:

The expected value of $ \frac{R-1}{49} $ given $ R $ ranges from 1 to 50 uniformly is: $$ E\left[\frac{R-1}{49} \mid \text{first ball is red}\right] = \frac{1}{50} \sum_{r=1}^{50} \frac{r-1}{49} $$

  1. Simplify the summation:

Sum of $ r-1 $ from 1 to 50: $$ \sum_{r=1}^{50} (r-1) = \sum_{r=0}^{49} r = \frac{49 \cdot 50}{2} = 1225 $$

Therefore: $$ \frac{1}{50} \cdot \frac{1225}{49} = \frac{1225}{2450} = \frac{1}{2} $$

Thus, the probability that the second ball taken out is red given that the first ball taken out is red is $ \boxed{\frac{1}{2}} $.

Das ist die nicht ganz vollständige Überlegung, die dann zum falschen Ergebnis führt. Das ganze liest sich dann aber auch erstmal sehr überzeugend.

Ich stelle mir vor, wie zum Beispiel Schüler*innen dies nutzen und damit lernen. Sie lernen etwas, was überzeugend klingt, aber falsch ist. Sie haben auch nicht wirklich eine Möglichkeit das zu überprüfen. Könnten sie es, hätten sie diesen Stoff schon verstanden.

Bei anderen Webseiten kann man Plausibilitätsüberprüfungen machen: Sieht die Webseite seriös aus, gibt es sie schon länger, ist der Beitrag ein Teil von einer größeren Seite? Eine Seite auf "Mathpedia" oder Antwort bei "Math Stack Exchange" ist womöglich seriöser als eine Antwort auf "Gute Frage". Diese Möglichkeiten habe ich hier nicht, ich bekomme einen wunderbar formatierten Text, der ganz eloquent das falsche beschreibt.

Das ist schon eine Welt, an die ich mich noch gewöhnen muss.