Data Science mit Wahl-o-Mat

Als ich mal den Wahl-o-Mat ausprobiert hatte und mir danach die Stellungnahmen der einzelnen Parteien angeschaut habe, so wirkten einige Parteien ziemlich redundant. So fragte ich mich, ob man anhand der Fragen wirklich alle Parteien ausdifferenzieren kann, oder ob die teilweise fast das gleiche geantwortet hatten. Also habe ich die Positionen der Parteien vom Wahl-o-Mat genommen und mit $-1$, $0$ und $+1$ kodiert als Tabelle gespeichert.

Im weiteren habe ich dann die Korrelation zwischen Parteien und den Fragen untersucht. Mit Hilfe einer Hauptkomponentenanalyse kann man dann auch noch Richtungen finden, anhand derer sich die Parteien möglichst prägnant einsortieren lassen können. Ich suche noch nach Clustern und untersuche auch die Fragen noch ein bisschen. Die Ergebnisse sind in interaktiven Grafiken dargestellt.

Korrelation

Als erstes können wir uns eine Spearman-Korrelation zwischen den Parteien anschauen. Dunkles Grün ist eine starke Korrelation in den Antworten, weiß ist keine Korrelation und dunkles Magenta ist eine starke Antikorrelation. Man kann mit der Maus über die Grafik gehen, dann wird der genaue Wert der Korrelation als Tooltip angezeigt.

Interessant finde ich zum Beispiel, wie CDU und SPD komplett unterschiedliche Richtungen zu bedienen scheinen. Grüne und AfD sind dagegen so ziemliche Gegensätze, möglicherweise versucht die AfD gerade das Gegenteil der Grünen zu sein. Wenig überraschend haben Grüne und Linke ziemlich große Überschneidungen. Die SPD ist mit keiner anderen Partei wirklich stark korreliert, die scheinen ihr eigenes Ding zu machen.

Mit den Daten können wir aber noch mehr machen, als nur eine einfache Korrelation zu betrachten.

Hauptkomponentenanalyse

Die 38 Fragen können als Dimensionen eines Raumes aufgefasst werden. Jede Partei ist darin ein Punkt, den wir auch als Ursprungsvektor verstehen können. Die Korrelation zwischen Parteien ist dann letztlich analog zu dem Winkel zwischen den Vektoren in diesem hochdimensionalem Raum. Diesen können wir nicht direkt betrachten.

Über eine Hauptkomponentenanalyse kann man diese 38 Dimensionen allerdings auf 2 reduzieren und dann darstellen. Im folgenden Plot sind die Parteien anhand der zwei Komponenten dargestellt. Der Plot ist interaktiv, man kann durch Ziehen den Ausschnitt verschieben und mit dem Mausrad zoomen.

Mir ist nicht so ganz klar, was diese zwei Achsen genau aussagen. Die erste Achse scheint irgendwie so grob das klassische links/rechts zu sein, die zweite Achse vielleicht liberal/autoritär.

Achsen

Man kann sich die Gewichtung der Fragen geben lassen, aus denen die beiden Hauptachsen bestehen. Dadurch erhalten wir für beide Achsen nochmal einen weiteren Plot. Im Tooltip über den Balken ist der komplette Fragetext sichtbar. Eine starke positive Gewichtung zeigt an, dass diese Frage zu großen positiven Ausschlägen in der Komponente führt. Eine starke negative Gewichtung lässt die Frage zu einem starken negativen Ausschlag führen. Kleine Gewichte zeigen an, dass die Frage eher bedeutungslos für diese Hauptachse ist.

Für die erste Hauptachse haben wir diese Fragengewichte:

Und für die zweite Hauptachse haben wir diese Gewichte:

So richtig schlau bin ich daraus bisher aber nicht geworden. Falls jemand das Muster sieht, würde ich mich über einen Tipp freuen.

Korrespondenzanalyse

Die oben genutzte Hauptkomponentenanalyse ist eigentlich für kontinuierliche Größen gedacht. Da die Antworten aber auf einer Ordinalskala sind, ist die Korrespondenzanalyse wohl die bessere Wahl. Damit bekomme ich jedoch nur eine Dimension richtig raus, der Rest scheint nicht signifikant genug zu sein. Das Ergebnis ist dieses:

Das sieht nach dem ganz klassischen links/rechts aus.

Cluster

Wir können auch direkt in dem Raum mit 38 Dimensionen nach Clustern suchen. Da mir das Abstandsmaß in diesem Raum nicht ganz klar ist, werde ich hier erstmal mit k-Means anfangen. Der Algorithmus versucht eine feste Anzahl Cluster zu finden. Je nach Anzahl kommen da komplett andere Dinge raus.

Zwei Cluster

Zwingt man eine Einteilung in zwei Cluster, so sind das die beiden Ergebnisse:

  • Demokratie in Bewegung, Deutsche Kommunistische Partei, Die Humanisten, Die PARTEI, Die Urbane, GRÜNE, LINKE, Lobbyisten für Kinder, Marxistisch-Leninistische Partei Deutschlands, Partei für Veränderung, Vegetarier und Veganer, PIRATEN, Sozialistische Gleichheitspartei, SPD, Südschleswiger Wählerverband, Tierschutzallianz, Tierschutzpartei, Volt, Ökologisch-Demokratische Partei
  • AfD, Bayernpartei, Bündnis 21, Bündnis C - Christen für Deutschland, Bürgerbewegung für Fortschritt und Wandel, Bürgerrechtsbewegung Solidarität, CDU/CSU, Der 3. Weg, Die Grauen, dieBasis, Europäische Partei LIEBE, FDP, FREIE WÄHLER, Gesundheitsforschung, Liberal-Konservative Reformer, Menschliche Welt, NPD, Partei des Fortschritts, Team Todenhöfer, Unabhängige für bürgernahe Demokratie

Das sind so aus, als wäre der erste der links-grüne Cluster, der zweite enthält die konservativen Parteien.

Drei Cluster

Bei einem Cluster mehr ist es dann schon interessant, wie sich das fügt:

  • Demokratie in Bewegung, Deutsche Kommunistische Partei, Die Humanisten, Die PARTEI, Die Urbane, GRÜNE, LINKE, Lobbyisten für Kinder, Marxistisch-Leninistische Partei Deutschlands, Partei des Fortschritts, Partei für Veränderung, Vegetarier und Veganer, PIRATEN, Sozialistische Gleichheitspartei, SPD, Südschleswiger Wählerverband, Team Todenhöfer, Tierschutzallianz, Tierschutzpartei, Volt, Ökologisch-Demokratische Partei
  • Bürgerbewegung für Fortschritt und Wandel, Bürgerrechtsbewegung Solidarität, Der 3. Weg, Die Grauen, dieBasis, Europäische Partei LIEBE, Gesundheitsforschung, Menschliche Welt, NPD, Unabhängige für bürgernahe Demokratie
  • AfD, Bayernpartei, Bündnis 21, Bündnis C - Christen für Deutschland, CDU/CSU, FDP, FREIE WÄHLER, Liberal-Konservative Reformer

Das erste würde ich wieder als erweitertes links-grün sehen. Der zweite scheinen die wirklich rechten Parteien zu sein, der dritte dann die mäßig bis extrem Konservativen. Interessant ist, dass die AfD mit ihren Antworten im dritten und nicht im zweiten Cluster ist.

Vier Cluster

Bei vier Clustern verändert sich nicht so viel, es gibt nur noch einen neuen ersten Cluster, dem ich nicht so recht einen Namen geben kann.

  • Die Humanisten, FREIE WÄHLER, Partei des Fortschritts, Team Todenhöfer
  • Demokratie in Bewegung, Deutsche Kommunistische Partei, Die PARTEI, Die Urbane, GRÜNE, LINKE, Lobbyisten für Kinder, Marxistisch-Leninistische Partei Deutschlands, Partei für Veränderung, Vegetarier und Veganer, PIRATEN, Sozialistische Gleichheitspartei, SPD, Südschleswiger Wählerverband, Tierschutzallianz, Tierschutzpartei, Volt, Ökologisch-Demokratische Partei
  • AfD, Bayernpartei, Bündnis C - Christen für Deutschland, CDU/CSU, FDP, Liberal-Konservative Reformer
  • Bündnis 21, Bürgerbewegung für Fortschritt und Wandel, Bürgerrechtsbewegung Solidarität, Der 3. Weg, Die Grauen, dieBasis, Europäische Partei LIEBE, Gesundheitsforschung, Menschliche Welt, NPD, Unabhängige für bürgernahe Demokratie

Fünf Cluster

Mit einem weiteren Cluster scheint sich nur Bündnis 21 und BüSo abzuspalten.

  • Die Humanisten, Partei des Fortschritts, PIRATEN, Team Todenhöfer
  • Demokratie in Bewegung, Deutsche Kommunistische Partei, Die PARTEI, Die Urbane, GRÜNE, LINKE, Lobbyisten für Kinder, Marxistisch-Leninistische Partei Deutschlands, Partei für Veränderung, Vegetarier und Veganer, Sozialistische Gleichheitspartei, SPD, Südschleswiger Wählerverband, Tierschutzallianz, Tierschutzpartei, Volt, Ökologisch-Demokratische Partei
  • Bündnis 21, Bürgerrechtsbewegung Solidarität
  • AfD, Bayernpartei, Bündnis C - Christen für Deutschland, CDU/CSU, FDP, FREIE WÄHLER, Liberal-Konservative Reformer
  • Bürgerbewegung für Fortschritt und Wandel, Der 3. Weg, Die Grauen, dieBasis, Europäische Partei LIEBE, Gesundheitsforschung, Menschliche Welt, NPD, Unabhängige für bürgernahe Demokratie

Zehn Cluster

Nimmt man 10 Cluster, so bekommt man es deutlich kleiner differenziert.

  • CDU/CSU, FDP, FREIE WÄHLER
  • Deutsche Kommunistische Partei, Die Humanisten, PIRATEN, Sozialistische Gleichheitspartei, Team Todenhöfer, Tierschutzallianz
  • Bürgerbewegung für Fortschritt und Wandel, Der 3. Weg, Die Grauen, dieBasis, Gesundheitsforschung, Menschliche Welt, NPD, Unabhängige für bürgernahe Demokratie
  • Südschleswiger Wählerverband, Volt
  • Partei des Fortschritts, SPD
  • Bündnis 21
  • Demokratie in Bewegung, Die PARTEI, Die Urbane, GRÜNE, LINKE, Lobbyisten für Kinder, Marxistisch-Leninistische Partei Deutschlands, Partei für Veränderung, Vegetarier und Veganer, Tierschutzpartei, Ökologisch-Demokratische Partei
  • Bürgerrechtsbewegung Solidarität
  • Europäische Partei LIEBE
  • AfD, Bayernpartei, Bündnis C - Christen für Deutschland, Liberal-Konservative Reformer

Interessant ist, dass sich nun CDU, FDP, Freie Wähler von AfD und LKR abspalten. Bei den links-grünen Parteien ist allerdings noch fast alles innerhalb von einem Cluster.

Analyse der Fragen

Wir können uns auch die Fragen einmal anschauen.

Korrelation

Welche Fragen sind stark korreliert mit anderen Fragen?

Man kann ein paar Dinge sehen:

  • Die Frage nach Tempolimit und Zukunft nach Verbrennungsmotor sind sehr korreliert und damit fast redundant. Das überrascht nicht
  • Früherer Kohleausstieg und Wahlrecht ab 16 ist ebenfalls stark korreliert, Parteien sind also eher für die Jugend oder nicht.
  • Doppelte Staatsbürgerschaft und Förderung von Windenergie hängen auch stark zusammen. Das ist unerwartet.
  • Verbrennungsmotor und Wahlrecht ab 16 ist auch korreliert, das überrascht mit den anderen Korrelationen wenig.
  • Ökologische Landwirtschaft und gesetzliche Rente ist ebenfalls korreliert. Das scheint dann wieder ein gesamtgesellschaftliches Denken zu sein, das sich da präsentiert.
  • Asyl nur für politisch Verfolgte und die Erhöhung von Verteidigungsausgaben ist auch korreliert. Das überrascht wenig.
  • Mindestlohnanhebung und Vermögenssteuer ist auch korreliert, wenig überraschend.

Hauptkomponentenanalyse

Auch mit den Fragen können wir eine Hauptkomponentenanalyse machen. Das ist dabei allerdings etwas schwerer, weil gewisse Fragen positiv und negativ formuliert werden können. Dadurch ergibt sich ein eher gespiegeltes Spektrum.

Die Gewichtung der Parteien für die Fragen können wir ebenfalls für die beiden Hauptachsen darstellen. Daraus können wir dann ableiten, welche der Hauptachse welche Parteien besonders unterscheiden kann.

So richtig schlau bin ich daraus aber auch noch nicht geworden.

Korrespondenzanalyse

Auch hier kann man eine Korrespondenzanalyse machen und erhält das recht offensichtliche links/rechts Spektrum der Parteien.

Cluster

Bei den Fragen kann man auch Cluster bilden. Diesmal ist jede Frage ein Vektor im Raum der Parteien. Ich habe einmal fünf Cluster mit k-Means ausprobiert. Das hier kommt dabei raus:

Erster Cluster, geht anscheinend um finanzielle Vorteile für Privatpersonen und Unternehmen.

  • Auch Ehepaare ohne Kinder sollen weiterhin steuerlich begünstigt werden.
  • Der Staat soll weiterhin für Religionsgemeinschaften die Kirchensteuer einziehen.
  • Impfstoffe gegen Covid-19 sollen weiterhin durch Patente geschützt sein.
  • Spenden von Unternehmen an Parteien sollen weiterhin erlaubt sein.

Der zweite Cluster bezieht sich auf Fragen bezüglich Toleranz, Rücksicht auf die Umwelt, mehr Rechte für Jugendliche.

  • Auf allen Autobahnen soll ein generelles Tempolimit gelten.
  • Bei Bundestagswahlen sollen auch Jugendliche ab 16 Jahren wählen dürfen.
  • Bundesbehörden sollen in ihren Veröffentlichungen unterschiedliche Ge schlechtsidentitäten sprachlich berücksichtigen.
  • Das Tragen eines Kopftuchs soll Beamtinnen im Dienst generell erlaubt sein.
  • Der Bund soll Projekte zur Bekämpfung des Antisemitismus stärker finanziell unterstützen.
  • Der für das Jahr 2038 geplante Ausstieg aus der Kohleverstromung soll vorgezogen werden.
  • Der kontrollierte Verkauf von Cannabis soll generell erlaubt sein.
  • Der staatlich festgelegte Preis für den Ausstoß von CO2 beim Heizen und Autofahren soll stärker steigen als geplant.
  • Die Landeslisten der Parteien für die Wahlen zum Deutschen Bundestag sollen abwechselnd mit Frauen und Männern besetzt werden müssen.
  • In Deutschland soll es generell möglich sein, neben der deutschen eine zweite Staatsbürgerschaft zu haben.
  • Islamische Verbände sollen als Religionsgemeinschaften staatlich anerkannt werden können.
  • Studentinnen und Studenten sollen BAföG unabhängig vom Einkommen ihrer Eltern erhalten.

Der dritte Cluster enthält sehr konservative Fragen. Interessant finde ich, dass die Fallpauschale auch hier gelandet ist, und nicht im ersten Cluster.

  • Bei der Videoüberwachung öffentlicher Plätze soll Gesichtserkennungssoftware eingesetzt werden dürfen.
  • Das Recht anerkannter Flüchtlinge auf Familiennachzug soll abgeschafft werden.
  • Deutschland soll aus der Europäischen Union austreten.
  • Die Förderung von Windenergie soll beendet werden.
  • Die traditionelle Familie aus Vater, Mutter und Kindern soll stärker als andere Lebensgemeinschaften gefördert werden.
  • Stationäre Behandlungen im Krankenhaus sollen weiterhin über eine Fallpauschale abgerechnet werden.

Im vierten Cluster sind die Fragen gelandet, in denen es um höhere Steuern und bessere soziale Absicherung geht, also linke Haushaltsfragen.

  • Alle Erwerbstätigen sollen in der gesetzlichen Rentenversicherung versichert sein müssen.
  • Auf den Umsatz, der in Deutschland mit digitalen Dienstleistungen erzielt wird, soll eine nationale Steuer erhoben werden.
  • Auf hohe Vermögen soll wieder eine Steuer erhoben werden.
  • Der Bund soll mehr Zuständigkeiten in der Schulpolitik erhalten.
  • Der Flugverkehr soll höher besteuert werden.
  • Der gesetzliche Mindestlohn soll spätestens im Jahr 2022 auf mindestens 12 Euro erhöht werden.
  • Die Möglichkeiten der Vermieterinnen und Vermieter, Wohnungsmieten zu erhöhen, sollen gesetzlich stärker begrenzt werden.
  • Ökologische Landwirtschaft soll stärker gefördert werden als konventionelle Landwirtschaft.

Im fünften Cluster sind Fragen, die gegen Globalisierung gehen. Witzigerweise ist auch der Verbrennungsmotor und die Arbeitgeberseite beim Homeoffice dabei.

  • Asyl soll weiterhin nur politisch Verfolgten gewährt werden.
  • Chinesische Firmen sollen keine Aufträge für den dürfen. Ausbau der Kommunikationsinfrastruktur in Deutschland erhalten
  • Der Solidaritätszuschlag soll vollständig abgeschafft werden.
  • Deutschland soll seine Verteidigungsausgaben erhöhen.
  • Die Ostsee-Pipeline „Nord Stream2“, die Gas von Russland nach Deutschland transportiert, soll wie geplant in Betrieb gehen dürfen.
  • Die Schuldenbremse im Grundgesetz soll beibehalten werden.
  • Die Zulassung von neuen Autos mit Verbrennungsmotor soll auch langfristig möglich sein.
  • Unternehmen sollen selbst entscheiden, ob sie ihren Beschäftigten das Arbeiten im Homeoffice erlauben.

Die Trennung zwischen dem dritten und fünften Cluster ist mir nicht so ganz klar, aber anscheinend steckt da etwas in den Daten drin.

Fazit

Es ist schon ganz lustig, dass man klassische Achsen wie rechts/links und liberal/autoritär auch in den Daten selbst finden kann. Viele kleinere Parteien scheinen, nur anhand ihrer Antworten gemessen, recht redundant zu sein. Bei über 90 % Korrelation in den Antworten findet man nur diese Redundanz:

  • LINKE und Urbane

Bei über 85 % jene:

  • DiB und Die Partei
  • DiB und LINKE
  • DiB und Urbane
  • LINKE und Urbane
  • Tierschutz und Vegan

Bei über 80 % Korrelation hat man diese Parteien:

  • DiB und Die Partei
  • DiB und LINKE
  • DiB und Tierschutz
  • DiB und Urbane
  • DiB und Vegan
  • Die Partei und Tierschutz
  • Die Partei und Vegan
  • Grüne und LINKE
  • Grüne und Urbane
  • LINKE und MLPD
  • LINKE und Tierschutz
  • LINKE und Urbane
  • Tierschutz und Vegan

Wo man diese Schwelle jetzt setzt, um von »redundanten Parteien« zu sprechen, ist subjektiv. Bei 80 % wären Grüne und LINKE schon gleichzusetzen, das entspricht angesichts der großen Wählerzahlen dann wohl doch nicht dem Empfinden. Interessant ist aber, dass die LINKE mehr mit den Grünen als der SPD (aus der sie ja stammt) gemeinsam hat.

Angesichts der 5-%-Hürde ist scheint es sinnvoll eine der größeren Parteien zu wählen, die stark mit der Wunschpartei korreliert ist.

Lustig ist auch noch zu schauen, wie es bei negativer Korrelation aussieht. Bei unter -70 % Korrelation findet man diese Gegensätze:

  • AfD und Grüne
  • AfD und LINKE

Bei unter -60 % findet man dann noch diese hier:

  • AfD und DiB
  • AfD und Grüne
  • AfD und Kinder
  • AfD und LINKE
  • AfD und Tierschutz
  • AfD und Urbane

Es scheint, als sei die AfD hauptsächlich einfach der Gegenpol zu vielen anderen Parteien. Es ist schon sehr interessant, dass andere rechte Parteien gar nicht so starke Gegenpole zu anderen Parteien sind. Es wirkt so, als wollte die AfD hauptsächlich die Wähler von anderen Parteien abgreifen, und weniger eigene Richtungen aufzeigen.

Making Of

Die Antworten der Parteien habe ich vom Wahl-o-Mat als PDF heruntergeladen und in eine Tabellendatei übertragen. Die Auswertung habe ich mit NumPy, Pandas gemacht, die Hauptkomponentenanalyse und Cluster mit Scikit-Learn, die Korrespondenzanalyse mit mca. Die Grafiken sind mit Altair erstellt. Der ganze Python-Code ist in einem Notebook verfügbar.