Research
Themenmodellierung
Datenvorverarbeitung und Bereinigung
Die Textanalyse beginnt mit einer standardisierten Vorverarbeitung, um die Qualität der nachfolgenden Modellierung zu maximieren. Dazu gehören:
- Textnormalisierung: Einheitliche Kodierung und Transformation in ein standardisiertes Format zur Vermeidung von Verzerrungen durch Sonderzeichen oder Umlaute.
- Entfernung von Platzhaltern und Steuerzeichen: Artefakte aus verschiedenen Dateiformaten, insbesondere nicht druckbare Zeichen oder Formatierungsreste, werden eliminiert.
- Tokenisierung und Lemmatisierung: Zerlegung in diskrete Token sowie Rückführung auf die lexikalische Grundform mittels spaCy. Dies reduziert die Dimensionalität und verbessert die semantische Konsistenz.
- Stoppwort-Filterung: Entfernen frequenter, semantisch irrelevanter Tokens, sowohl allgemeiner Natur (z. B. „und“, „oder“) als auch domänenspezifisch (z. B. „Deutschland“ in politischen Kontexten).
- n-Gramm-Generierung: Identifikation signifikanter Wortkombinationen, insbesondere bei Fachtermini oder idiomatischen Ausdrücken.
Semantische Vektorisierung mit Sentence Transformers
Zur semantischen Repräsentation der Textdaten wird ein Sentence-BERT (SBERT)-Modell genutzt, das hochdimensionale Embeddings generiert.
- Das Modell basiert auf bidirektionalen Transformer-Netzwerken, die durch Kontrastives Lernen optimiert wurden.
- Die erzeugten Embeddings repräsentieren Texte als dichte Vektoren, die im latenten Bedeutungsraum Ähnlichkeiten abbilden.
- Die Distanzmetriken zwischen diesen Vektoren ermöglichen eine kontextuelle Gruppierung unabhängig von lexikalischer Ähnlichkeit.
Clustering mittels HDBSCAN
Für die unüberwachte Clusteranalyse der Embeddings wird Hierarchical Density-Based Spatial Clustering of Applications with Noise (HDBSCAN) eingesetzt.
- HDBSCAN identifiziert Cluster variabler Dichte und entfernt semantisches Rauschen, indem unstrukturierte Datenpunkte als Ausreißer klassifiziert werden.
- Die Methode adaptiviert die Anzahl der Cluster und eliminiert die Notwendigkeit einer apriorischen Festlegung der Themenanzahl (im Gegensatz zu LDA oder k-Means).
- Dies gewährleistet eine flexible Modellierung thematischer Strukturen in hochdimensionalen Textkorpora.
Clusterinterpretation mit c-TF-IDF
Zur Identifikation distinktiver Schlüsselbegriffe innerhalb der Cluster wird eine modifizierte TF-IDF-Technik (c-TF-IDF) angewandt.
- Statt individueller Dokumente werden gesamte Cluster als Analysebasis genutzt, um domänenspezifische Termgewichte zu extrahieren.
- Die Gewichtung reflektiert nicht nur lokale Frequenzen, sondern berücksichtigt auch inter-cluster-differenzierende Merkmale.
Themenvisualisierung und Hierarchien
Die extrahierten Cluster werden mittels Uniform Manifold Approximation and Projection (UMAP) in eine zweidimensionale Repräsentation transformiert. Dies ermöglicht eine interaktive Exploration der semantischen Raumstruktur.
- Hierarchische Clusterdarstellung: Identifikation übergeordneter Themenstrukturen mittels Dendrogrammen.
- Dynamische Themenverläufe: Veränderungen der Cluster über verschiedene Zeiträume hinweg.
Prozessablauf
Textbereinigung
Normalisierung und Standardisierung der Texte
KI-Analyse
Gruppierung ähnlicher Wörter durch BERTopic
Themenbildung
Erstellung von Themenclustern und Visualisierung
Google Trends Analyse
Methodische Grundlagen von Google Trends
Google Trends stellt relative Suchvolumina über verschiedene Zeiträume und Regionen hinweg bereit.
- Die Daten sind normierte Skalenwerte (0–100), die das maximale Suchaufkommen eines Begriffs im gewählten Zeitraum reflektieren.
- Zeitliche Aggregation: Abhängig von der Untersuchungsperiode können Daten in Tages-, Wochen- oder Monatsintervallen abgerufen werden.
- Regionale Granularität: Suchvolumina sind auf globaler, nationaler und subnationaler Ebene verfügbar.
Datenquellen und Kategorisierung
Die Analyse erfolgt auf Basis mehrerer inhaltlicher Kategorien:
- Politische Entitäten: Vergleich der Suchpopularität von Parteien und Kandidaten.
- Themenbasierte Trends: Identifikation von inhaltlichen Suchmustern zu politisch relevanten Keywords.
Die Daten sind in zwei zentrale Kategorien unterteilt:
- Steigende Trends (Rising Queries): Suchanfragen mit überproportionalem Anstieg in einem definierten Zeitraum.
- Konstante Trends (Top Queries): Begriffe mit dauerhaft hoher Suchfrequenz.
Metriken zur Trendanalyse
- Absolute Suchvolumina: Aggregierte Werte zur Identifikation makroskopischer Entwicklungen.
- Temporale Spitzenwerte: Zeitpunkte maximaler Suchintensität zur Bestimmung von Diskursmomenten.
- Exponentielle Zunahmen: Relative Differenzen, insbesondere bei stark ansteigenden Suchtrends
Analyseprozess
Datensammlung
Erfassung von Suchvolumina und Trends
Trendanalyse
Identifikation relevanter Suchmuster
Interpretation
Ableitung politischer Relevanz und Bedeutung
KI-Chatbot
Datenaufbereitung und Chunking
Parteiprogramme werden segmentiert und strukturiert, um eine effiziente Informationsretrieval-Architektur zu ermöglichen.
- Segmentierung in Textblöcke: Größe der Chunks optimiert, um inhaltliche Kohärenz zu bewahren.
- Metadatenanreicherung: Speicherung zusätzlicher Kontexte wie Partei, Quelle und Themenspektrum.
- Preprocessing: Reduktion redundanter Zeichen, Homogenisierung von Formatierungen.
Semantische Vektorisierung und Vektordatenbank
Zur Repräsentation der Textdaten wird ein dichtes Vektor-Embedding mittels Transformermodelle generiert.
- Die Embeddings werden in einer Vektordatenbank gespeichert, die effiziente k-nearest neighbor (k-NN) Retrieval-Operationen ermöglicht.
- Die semantische Distanz wird über cosine similarity oder dot-product similarity berechnet.
Retrieval-Augmented Generation (RAG) Pipeline
Die Antwortgenerierung erfolgt in zwei Schritten:
- Retrieval-Schritt:
- Die Nutzeranfrage wird als Vektor repräsentiert.
- Ein k-NN Retrieval aus der Vektordatenbank liefert die semantisch relevantesten Textblöcke.
- Die Top-N Blöcke werden für die nächste Phase selektiert.
- Generierungsschritt:
- Die extrahierten Chunks werden als Kontext in ein Sprachmodell eingespeist.
- Das Modell generiert eine Antwort unter Berücksichtigung des abgerufenen Kontextes.
Chatbot-Prozess
Fragen-Analyse
Verständnis der Nutzeranfrage
Informationssuche
Durchsuchen der Parteiprogramm-Datenbank
Antwortgenerierung
Erstellung präziser und verständlicher Antworten