Themenmodellierung

Wir analysieren große Mengen an Wahlprogrammen, um herauszufinden, welche Themen darin vorkommen. Dazu werden die Texte bereinigt, vereinfacht und in kleine Abschnitte unterteilt. Anschließend nutzen wir Machine Learning, um ähnliche Wörter zu gruppieren und daraus Themen zu bilden. So können wir erkennen, welche Themen in politischen Texten besonders wichtig sind.

Datenvorverarbeitung und Bereinigung

Die Textanalyse beginnt mit einer standardisierten Vorverarbeitung, um die Qualität der nachfolgenden Modellierung zu maximieren. Dazu gehören:

  • Textnormalisierung: Einheitliche Kodierung und Transformation in ein standardisiertes Format zur Vermeidung von Verzerrungen durch Sonderzeichen oder Umlaute.
  • Entfernung von Platzhaltern und Steuerzeichen: Artefakte aus verschiedenen Dateiformaten, insbesondere nicht druckbare Zeichen oder Formatierungsreste, werden eliminiert.
  • Tokenisierung und Lemmatisierung: Zerlegung in diskrete Token sowie Rückführung auf die lexikalische Grundform mittels spaCy. Dies reduziert die Dimensionalität und verbessert die semantische Konsistenz.
  • Stoppwort-Filterung: Entfernen frequenter, semantisch irrelevanter Tokens, sowohl allgemeiner Natur (z. B. „und“, „oder“) als auch domänenspezifisch (z. B. „Deutschland“ in politischen Kontexten).
  • n-Gramm-Generierung: Identifikation signifikanter Wortkombinationen, insbesondere bei Fachtermini oder idiomatischen Ausdrücken.

Semantische Vektorisierung mit Sentence Transformers

Zur semantischen Repräsentation der Textdaten wird ein Sentence-BERT (SBERT)-Modell genutzt, das hochdimensionale Embeddings generiert.

  • Das Modell basiert auf bidirektionalen Transformer-Netzwerken, die durch Kontrastives Lernen optimiert wurden.
  • Die erzeugten Embeddings repräsentieren Texte als dichte Vektoren, die im latenten Bedeutungsraum Ähnlichkeiten abbilden.
  • Die Distanzmetriken zwischen diesen Vektoren ermöglichen eine kontextuelle Gruppierung unabhängig von lexikalischer Ähnlichkeit.

Clustering mittels HDBSCAN

Für die unüberwachte Clusteranalyse der Embeddings wird Hierarchical Density-Based Spatial Clustering of Applications with Noise (HDBSCAN) eingesetzt.

  • HDBSCAN identifiziert Cluster variabler Dichte und entfernt semantisches Rauschen, indem unstrukturierte Datenpunkte als Ausreißer klassifiziert werden.
  • Die Methode adaptiviert die Anzahl der Cluster und eliminiert die Notwendigkeit einer apriorischen Festlegung der Themenanzahl (im Gegensatz zu LDA oder k-Means).
  • Dies gewährleistet eine flexible Modellierung thematischer Strukturen in hochdimensionalen Textkorpora.

Clusterinterpretation mit c-TF-IDF

Zur Identifikation distinktiver Schlüsselbegriffe innerhalb der Cluster wird eine modifizierte TF-IDF-Technik (c-TF-IDF) angewandt.

  • Statt individueller Dokumente werden gesamte Cluster als Analysebasis genutzt, um domänenspezifische Termgewichte zu extrahieren.
  • Die Gewichtung reflektiert nicht nur lokale Frequenzen, sondern berücksichtigt auch inter-cluster-differenzierende Merkmale.

Themenvisualisierung und Hierarchien

Die extrahierten Cluster werden mittels Uniform Manifold Approximation and Projection (UMAP) in eine zweidimensionale Repräsentation transformiert. Dies ermöglicht eine interaktive Exploration der semantischen Raumstruktur.

  • Hierarchische Clusterdarstellung: Identifikation übergeordneter Themenstrukturen mittels Dendrogrammen.
  • Dynamische Themenverläufe: Veränderungen der Cluster über verschiedene Zeiträume hinweg.

Prozessablauf

1
Textbereinigung

Normalisierung und Standardisierung der Texte

2
KI-Analyse

Gruppierung ähnlicher Wörter durch BERTopic

3
Themenbildung

Erstellung von Themenclustern und Visualisierung

Google Trends Analyse

Google Trends zeigt uns, welche Begriffe Menschen online am häufigsten suchen. Wir analysieren diese Daten, um zu verstehen, welche politischen Themen gerade im Trend liegen und wie sich das Interesse über die Zeit verändert. Dadurch können wir sehen, welche Politiker oder Parteien besonders im Fokus stehen.

Methodische Grundlagen von Google Trends

Google Trends stellt relative Suchvolumina über verschiedene Zeiträume und Regionen hinweg bereit.

  • Die Daten sind normierte Skalenwerte (0–100), die das maximale Suchaufkommen eines Begriffs im gewählten Zeitraum reflektieren.
  • Zeitliche Aggregation: Abhängig von der Untersuchungsperiode können Daten in Tages-, Wochen- oder Monatsintervallen abgerufen werden.
  • Regionale Granularität: Suchvolumina sind auf globaler, nationaler und subnationaler Ebene verfügbar.

Datenquellen und Kategorisierung

Die Analyse erfolgt auf Basis mehrerer inhaltlicher Kategorien:

  • Politische Entitäten: Vergleich der Suchpopularität von Parteien und Kandidaten.
  • Themenbasierte Trends: Identifikation von inhaltlichen Suchmustern zu politisch relevanten Keywords.

Die Daten sind in zwei zentrale Kategorien unterteilt:

  1. Steigende Trends (Rising Queries): Suchanfragen mit überproportionalem Anstieg in einem definierten Zeitraum.
  2. Konstante Trends (Top Queries): Begriffe mit dauerhaft hoher Suchfrequenz.

Metriken zur Trendanalyse

  • Absolute Suchvolumina: Aggregierte Werte zur Identifikation makroskopischer Entwicklungen.
  • Temporale Spitzenwerte: Zeitpunkte maximaler Suchintensität zur Bestimmung von Diskursmomenten.
  • Exponentielle Zunahmen: Relative Differenzen, insbesondere bei stark ansteigenden Suchtrends

Analyseprozess

1
Datensammlung

Erfassung von Suchvolumina und Trends

2
Trendanalyse

Identifikation relevanter Suchmuster

3
Interpretation

Ableitung politischer Relevanz und Bedeutung

KI-Chatbot

Unser Chatbot hilft, politische Fragen schnell und verständlich zu beantworten. Dafür nutzt er eine Datenbank mit offiziellen Parteiprogrammen. Sobald eine Frage gestellt wird, sucht er nach passenden Antworten und liefert eine präzise Erklärung basierend auf den vorhandenen Informationen

Datenaufbereitung und Chunking

Parteiprogramme werden segmentiert und strukturiert, um eine effiziente Informationsretrieval-Architektur zu ermöglichen.

  • Segmentierung in Textblöcke: Größe der Chunks optimiert, um inhaltliche Kohärenz zu bewahren.
  • Metadatenanreicherung: Speicherung zusätzlicher Kontexte wie Partei, Quelle und Themenspektrum.
  • Preprocessing: Reduktion redundanter Zeichen, Homogenisierung von Formatierungen.

Semantische Vektorisierung und Vektordatenbank

Zur Repräsentation der Textdaten wird ein dichtes Vektor-Embedding mittels Transformermodelle generiert.

  • Die Embeddings werden in einer Vektordatenbank gespeichert, die effiziente k-nearest neighbor (k-NN) Retrieval-Operationen ermöglicht.
  • Die semantische Distanz wird über cosine similarity oder dot-product similarity berechnet.

Retrieval-Augmented Generation (RAG) Pipeline

Die Antwortgenerierung erfolgt in zwei Schritten:

  1. Retrieval-Schritt:
    • Die Nutzeranfrage wird als Vektor repräsentiert.
    • Ein k-NN Retrieval aus der Vektordatenbank liefert die semantisch relevantesten Textblöcke.
    • Die Top-N Blöcke werden für die nächste Phase selektiert.
  2. Generierungsschritt:
    • Die extrahierten Chunks werden als Kontext in ein Sprachmodell eingespeist.
    • Das Modell generiert eine Antwort unter Berücksichtigung des abgerufenen Kontextes.

Chatbot-Prozess

1
Fragen-Analyse

Verständnis der Nutzeranfrage

2
Informationssuche

Durchsuchen der Parteiprogramm-Datenbank

3
Antwortgenerierung

Erstellung präziser und verständlicher Antworten

Wahllokal App

Wahllokal App

Kostenlos für iOS und Android