Morgen ist es wieder soweit. Wie alle 3,8 Jahre wird beim Volk, also auch bei mir, nachgefragt, welche Person und welche Partei ich am liebsten in Regierungsverantwortung sehen würde. Wenn das nur so einfach zu beantworten wäre! Kann mir da vielleicht mein Computer helfen? Ich werfe ihm die Wahlprogramme hin und er sagt mir etwas über die Möglichkeiten – klingt doch gut. Also los!

Wahlprogramme zu mir!

Um die Auswahl ein wenig einzuschränken, schaue ich mir nur die Programme der Parteien an, die nach der letzten Sonntagsfrage auch in den Bundestag einziehen würden, sortiert nach den dortigen Ergebnissen: CDU, SPD, AFD, FDP, Linke und Grüne. Die Wahlprogramme liegen zwar teils in Formaten wie epub und mobi vor, ich sammle aber nur die PDFs ein.

Eine der Lieblingstätigkeiten von Computern ist es bekanntlich, Zahlen zu produzieren. Also schauen wir mal, was für Zahlen aus jenen Dokumenten herauszuholen sind, zunächst nur ganz grob und mit zugekniffenen Augen.

Scheint so, als wären die Parteien beliebter, die sich kürzer fassen. Natürlich sagt alleine die Seitenzahl noch nicht sehr viel über die tatsächliche Textmenge aus, aber wenn man das Programm dann doch in gedruckter Form in die Hände nehmen sollte, gibt es doch subjektive Unterschiede zwischen einem dünnen und dicken Werk.

Da ich gerade schon die PDFs in der virtuellen Hand habe, schaue ich sie mir doch genauer an:

  • Das Wahlprogramm der CDU umfasst 74 DIN-A4-Seiten, in denen Spiegelstrichlisten dominieren. Der Text ist im Unions-Haus-Font Kievit gesetzt, wieso aber auch Arial und Calibri eingebettet sind, weiß nur Adenauer selbst.
  • Das SPD Wahlprogramm besteht eigentlich nur aus Text, in dem regelmäßig Schlagworte fett gedruckt werden. Das Dokument liegt im Format DIN-A5 vor und umfasst 116 Seiten, die mit Helvetica befüllt sind.
  • Als einziges ist das Programm der AFD im Querformat gehalten. Die 76 Seiten sind zweispaltig mit Georgia-Text gefüllt, der mit Futura Überschriften gegliedert ist.
  • Die FDP füllt 158 Seiten DIN-A5 mit Calibri-Fließtext, ist aber auch die einzige Partei, die ihr Wahlprogramm mit einigen wenigen Grafiken auffrischt.
  • Die Linke setzt zweispaltig auf 144 Seiten Paiper im Format 17 × 24 Zentimeter (das liegt größentechnisch zwischen A5 und A4), wobei die Schriftart CorporateS für das Gros des Textes zuständig ist. Hier halten sich Fließtext in Absätzen und in Spiegelstrichen die Waage.
  • Bei den Grünen findet man ein DIN-A4-Dokument, das stolze 248 Seiten umfasst. Das aus Fließtext bestehende Programm ist in PT Sans gesetzt und wird mit Arvo-Überschriften dekoriert. Jeder Abschnitt endet mit einer hervorgehobenen Infobox überschrieben mit “Wer GRÜN wählt, stimmt für diese drei Projekte”.

Die Linke, Grüne und FDP schließen ihre Publikation mit einem ausführlichen Stichwortverzeichnis ab, die Linken verteilen auch gleich einen Mitgliedsantrag und ein SEPA-Lastschrift-Formular für Spenden.

Soweit sind das zwar Informationen, die ich mit dem Computer erlangt habe, aber mit den gedruckten Versionen wäre dies auch gegangen (und realistisch wohl nie passiert). Aber die reinen Seitenzahlen sind ein schlechter Indikator für Inhalt, gerade wenn man bedenkt, dass hier unterschiedliche Papiergrößen und Schriftarten untergebracht sind. Weiterhin kann ich mit dem Herausgefundenen noch keine Präferenz für eine der Parteien herausfinden. Die Programme haben alle ihren eigenen Stil, allerdings spricht mich keiner sonderlich an und gewinnt gegen die anderen.

PDF nach Text

Um mehr mit dem reinen Text zu arbeiten, muss dieser aus dem PDF extrahiert werden. Dafür gibt es dedizierte Programme wie pdftotext, man kann die “Speichern als Plaintext”-Funktion in Adobe Acrobat benutzen oder sich einer Bibliothek bedienen. Wer länger recherchiert, findet sicher auch noch andere Möglichkeiten.

Im Großen und Ganzen erzeugen die drei Ansätze sehr ähnliche Ausgaben, allerdings mit einigem Rauschen. Dieses Rauschen rührt von Elementen im PDF, die zwar Text sind, aber kein Inhalt des Wahlprogramms sind, unter Anderem Seitenzahlen, Titel in der Kopfzeile, Aufzählungszeichen, oder von anderen Zeichen, die zwar im PDF stehen, aber nichts mit dem interessanten Text zu tun haben. Zum Beispiel wird aus diesem Teil des Inhaltsverzeichnisses bei den Linken

Linke Inhaltsverzeichnis

je nach verwendetem Konverter dies

Inhalt 
EinfŸhrung .................................... 7 
I. Gute Arbeit fŸr alle statt Niedriglohn, Dauerstress und Abstiegsangst ........................ 13

oder gar jenes

Inhalt
Einführung������������������������������������ 7 I. Gute Arbeit für alle statt Niedriglohn, Dauerstress und Abstiegsangst ������������������������ 13 

Die einzelnen Bearbeitungsschritte sind technisch aber meiner Meinung nach nicht so spannend. Wen es interessiert, hier liegt ein Jupyter Notebook.

Wichtig ist, dass ich jetzt aus den PDFs den reinen Text herausgeholt habe, der auf den einzelnen Seiten zu finden ist. In diesem Text kann man jetzt auch die Worte zählen, und da sieht der Vergleich schon ein wenig anders aus:

Hier scheinen die Linken und die Grünen ungefähr gleich auf zu sein, bedingt durch das zweispaltige Design mit etwas kleinerer Schriftart. Bringt mir das jetzt was? Eher nicht. Wie schon bei den Seitenzahlen ist dies höchstens ein Indikator, wie umfangreich die Parteien sich und ihre Pläne vorstellen. Trotzdem ist es interessant zu sehen, dass die Parteien mit den schlechtesten Umfragewerten mit so viel Text wie möglich versuchen, die Wähler zu überzeugen, während die wahrscheinlich weiterregierende Union sich sehr kurz fasst.

Ein bisschen mehr Inhalt?

Das waren soweit Zahlen und Fakten, die die Form beschreiben. Aber ich will meine Wahlentscheidung natürlich nicht auf Ausdauer beim Texten basieren. Vielleicht lässt sich ja herausfinden, welche Worte in den Programmen besonders wichtig sind! Nachdem ich einigermaßen willkürlich Stoppworte entfernt habe, sind das die jeweils zehn häufigsten Worte in den Wahlprogrammen (aus Gründen sind die Texte durchgehend kleingeschrieben):

CDU SPD AFD FDP Linke Grüne
deutschland (153) menschen (128) afd (109) freie (271) menschen (293) menschen (271)
menschen (84) deutschland (99) deutschland (89) demokraten (259) linke (213) deutschland (150)
land (47) arbeit (79) deutschen (46) deutschland (123) arbeit (137) grüne (145)
europa (40) unterstützen (77) deutsche (31) menschen (94) soziale (110) leben (121)
cdu (39) stärken (71) bürger (31) unternehmen (76) euro (99) stärken (107)
csu (39) europa (69) erhalten (30) fordern (71) beschäftigten (93) setzen (107)
stärken (37) brauchen (66) fordert (29) europäischen (70) öffentliche (92) frauen (96)
jahren (37) setzen (65) kinder (27) bildung (66) unternehmen (89) immer (95)
sicherheit (33) leben (63) euro (24) bürger (51) sozialen (88) gesellschaft (94)
leben (32) unternehmen (62) wirtschaft (22) staat (49) leben (86) welt (91)

Was lässt sich daraus lernen? Zunächst einmal: Es gibt kein Wort, dass in all diesen Listen vorkommt! Das höchste der Gefühle sind fünf von sechs: So steht “Deutschland” in allen Programmen außer dem der Linken ganz oben und “Menschen” fehlen nur bei der AFD. Bei allen außer den Sozialdemokraten deutlich ein Ich-Bezug zu erkennen, da der Parteiname in diesen Listen auftaucht. Die AFD hat gleich drei Worte aus der Wortfamilie “Deutsch-“ unter ihren meistbenutzten.

Dass bei der FDP “freie” und “demokraten” nicht nur die Liste anführt, sondern auch ähnlich viele Vorkommen hat, lässt erahnen, dass auch gewisse Wortfolgen häufiger vorkommen. Auf gut Glück suche ich nach den häufigsten Wortfolgen mit fünf Worten (auch 5-Gramm) und siehe da, die CDU hat vier Wiederholungen von “in den vergangenen vier jahren” und “wir werden dafür sorgen dass” und demonstriert sowohl einen Blick zurück als auch nach vorne. Die FDP wiederholt sehr gerne die Anfangsfloskeln “wir freie demokraten wollen die” ganze 37-mal und “wir freie demokraten setzen uns” 35-mal. So ähnlich sieht es bei den Linken aus, die jeweils 16-mal “die linke setzt sich für” und “wir setzen uns für” schreiben, und auch die Grüne erklären ihre Absichten mit 24 Vorkommen von “wer grün wählt stimmt für”. Bei SPD und AFD kann ich nichts sinnvolles berichten, da die häufigen Wiederholungen wie “Es ist Zeit für …” in der Kopfzeile jeder Seite die Zählung zu stark verfälschen.

Ich finde es sehr löblich, dass anscheinend drei Parteien ihre Programmpunkte markieren, das gibt beim Lesen der Texte Orientierung. Leider bleiben tiefere Erkenntnisse bei dieser Analyse aus.

Wenn man nach mehr als 5-Grammen sucht (7-, 9- oder 44-Gramme), findet man sogar ganze Sätze wieder, die anscheinend sehr wichtig sind. Ich drehe also die Länge der Wortfolge so hoch wie möglich und finde die folgenden Sätze, die jeweils die längsten sich wiederholenden N-Gramme der Wahlprogramme sind:

CDU: “wir werden die finanzielle situation junger familien spürbar verbessern indem wir den kinderfreibetrag in zwei schritten auf das niveau des erwachsenenfreibetrags anheben und das kindergeld entsprechend erhöhen in einem ersten schritt werden wir das kindergeld um 25 euro je kind erhöhen 300 euro mehr pro kind und jahr sind ein starkes signal gleichzeitig wird der kinderfreibetrag entsprechend erhöht den zweiten schritt werden wir abhängig von der wirtschaftlichen lage verwirklichen aber spätestens in der darauffolgenden legislaturperiode” (2 mal)

SPD: “75 prozent bis 90 prozent der jeweiligen regulären vollzeit arbeiten das entspricht je nach betrieblicher bzw tarifvertraglich geltender vollzeit 26 bis 36 wochenstunden” (zweimal)

AFD: “der euro ist gescheitert währung und finanzpolitik die weitere mitgliedschaft in der eurozone ist für deutschland unbezahlbar” (zweimal)

FDP: “ausrüstung und technik auf dem neuesten stand für justiz und polizei” und “insbesondere zwischen und entwicklungspolitik sowie in abstimmung mit der europäischen entwicklungszusammenarbeit” (je zweimal)

Linke: “die angaben werden von der partei die linke in ihrer bundesgeschäftsstelle und den gliederungen entsprechend den bestimmungen des bundesdatenschutzgesetzes bdsg” (zweimal)

Grüne: “um das international zugesagte deutsche klimaziel für das jahr 2020 überhaupt noch schaffen zu können werden wir unverzüglich die 20 dreckigsten kohlekraftwerke vom netz nehmen und den der verbleibenden kohlekraftwerke analog zu den klimazielen deckeln wir werden den kohleausstieg im einklang zu unserem ziel 100 prozent erneuerbare energien im strombereich bis 2030 gestalten” (zweimal)

Das fand ich so interessant, dass ich dann doch nochmal in den Orginalprogrammen nachgelesen habe. Im Unionsprogramm ist dieser Satz als Bulletpoint auf Seiten 26 unter der Überschrift “Bildung und Betreuung stärken” und 34, wenn es um Steuersenkungen geht, zu finden. Die SPD bringt die Wiederholung unter den Punkten “Gut leben im Alter” und “Familienarbeitszeit und Familiengeld”. Einmal ist da der erklärende Nachsatz (“das entspricht … wochenstunden”) in Klammern geschrieben, einmal durch ein Semikolon abgetrennt – ein Unterschied, der bei der Verarbeitung verloren gegangen ist. Bei der AFD entstammt die Wortfolge keinem Absatz, wie man vielleicht erwarten würde, sondern ist eine Kombination aus zwei Überschriften, die vom Computer so zu sagen ausversehen gefunden wurden, so ähnlich bei der FDP. Das Fundstück bei den Linken amüsiert mich doch am meisten, es kommt nämlich von den angehängten Formularen für Wahlkampfhelfer und Parteieintritt. Bei den Grünen ist die Wiederholung dafür angebracht, da die Sätze zum ersten Mal im längeren Abschnitt über den Kohleausstieg auftauchen und dann nochmal am Ende des Kapitels in der zusammenfassenden Infobox.

Fazit

Mein Computer kann mir zwar helfen, ein paar triviale Unterschiede herauszuarbeiten, etwa den Umfang der Arbeiten (was auch händisch ginge), und er kann mir Fleißarbeit wie das Zählen von Wörtern abnehmen (was technisch gesehen auch ohne elektronische Unterstützung funktioniert, jedoch viel zu zeitaufwendig wäre). Aber die Wahlentscheidung abnehmen kann er mir nicht.

Ich hätte natürlich noch mehr machen können, etwa nicht nur die Wörter zählen lassen, sondern auch mit dem Korpus deutscher Sprache vergleichen, um besonders hervorstechende Worte zu finden. Oder die aktuellen mit den Wahlprogrammen von vor vier Jahren vergleichen, um zu schauen, was sich an den Häufigkeiten verändert hat oder gar gleich geblieben ist. Ich vermute allerdings, dass das nicht sonderlich viel bringt.

Eine bessere Idee wäre, wenn ich selbst mein privates Wunschprogramm schreibe und das mit denen der Parteien vergleiche, so ähnlich wie es auch beim Wahlomat passiert. Aber das ist mir dann doch zu viel Aufwand für so kurz vor knapp. Vielleicht in erwartet 3,8 Jahren.