13 // Gruppen und Sequenzen als Daten

Trockenübungen

Gruppen lassen sich als abhängige und als unabhängige Größe verstehen. Was bedeutet das?
Wie lassen sich die zahlreichen Verfahren der Clusteranalyse einteilen?
Was ist ein “lag”?
Zeitreihen lassen sich additiv oder multiplikativ in drei Bestandteile zerlegen - welche sind das?
Bei der Mehrebenenmodellierung wird von klassischen Regressionsverfahren ausgegangen, die dann über Gruppeneinflüsse ergänzt werden. Nach welchen drei Grundprinzipien lassen sich diese Gruppeneinflüsse dabei modellieren?
Was sind Markow-Ketten?

Praxisübungen

Clustering, Mehrebenenmodellierung, Zeitreihen und selbst Markow-Ketten gibt es in zahlreichen Verfahren und Herangehensweisen. Entsprechend vielfältig sind die einzelnen Zugänge, sodass wir auch hier von einzelnen Übungen absehen und stattdessen Empfehlungen für gute umfangreichere Anleitungen geben.

Clusteranalyse

Für R gibt Zhenning Xu einen Einblick in das k-means-Clustering.
Neben k-means geht Roger Peng außerdem und sehr umfangreich auf Verfahren des hierarchischen Clusterings und, genereller, der Dimensionsreduktion von Daten ein. Die Beispiele sind allesamt in R gehalten. Dazu gibt es jeweils auch Video-Einführungen (in englischer Sprache), also zu k-means, zu hierarchischen Verfahren und zur generellen Dimensionsreduktion.
Ebenfalls für R gibt auch Brit Davidson einen umfangreichen Einblick in zahlreiche verschiedene Clusterverfahren, auch in das hierarchische Clustering, insbesondere unter Zuhilfenahme der Pakete factoextra, cluster, dendextend und fpc.
van Atteveldt, Trilling und Arcila setzen ebenfalls auf das factoextra-Paket, wenn sie auf k-means, hierarchische und sogar latente Clusterverfahren (insbes. die Principal Component Analysis, PCA) mit R eingehen. Wie immer, bieten die Autoren ihren Code dabei auch für Python an, für das neben den schon kennengelernten Bibliotheken scikit-learn, pandas und matplotlib außerdem seaborn, numpy und scipy zum Einsatz kommen.
Zu guter Letzt bietet (wie immer) auch scikit-learn selbst eine gute Einführung in seine Cluster-Algorithmen und -Verfahren, natürlich ausschließlich mit Python-Beispielen.

Mehrebenenmodellierung

Paul Roback und Julie Legler haben ein Buch über generelle lineare Modelle und die Mehrebenenmodellierung geschrieben. Neben einer erwerbbaren gedruckten Version ist das Buch und hier vor allem das Mehrebenenkapitel samt vielen Übungen (ausschließlich in R) auch online verfügbar. Das Buch lässt nahezu keine Wünsche (für R) offen, wirkt dabei aber mitunter etwas erschlagend.
Eine deutliche knappere Einführung, ebenfalls für R, bieten Mark Lai, der dabei auch uns insbesondere auf Arten der Visualisierung eingeht, oder Harrer und Kollegen, die sich verstärkt den statistischen Grundlagen verschrieben haben.
Immer wieder stößt man bei derart fortgeschrittenen statistischen Verfahren im Internet auf Quellen, die sich sehr explizit einer bayesianischen (nach Bayes, den wir im Buch schon kennengelernt haben) Denkweise verschrieben haben. Eine hervorragende Einführung dazu geben sowohl das Buch als auch die Online-Vorlesungen von Richard McElreath Das gilt auch für die Mehrebenenmodellierung. Darauf aufbauend gibt Solomon Kurz eine Einführung in die bayesianische Mehrebenenmodellierung mit R.

Unter all den kennengelernten Verfahren ist die Mehrebenenmodellierung wahrscheinlich diejenige, die sich am wenigsten mit Python (auf Einstiegsniveau) eignet. Möglich ist (natürlich) dennoch alles, aber die Auswahl an Anleitungen und die online verfügbare Unterstützung sind hier im Vergleich zu R deutlich eingeschränkt.

Eine grundsätzliche Einführung in die Mehrebenenmodellierung ist auf der Seite Python for Data Science, die von verschiedenen Autor:innen in unregelmäßigen Abständen befüllt wird, zu finden. Sie arbeiten mit der statsmodels-Bibliothek.
Bei der statsmodels-Bibliothek findet sich ebenfalls eine knappe Einführung. Dabei wird erneut deutlich, dass R hier möglicherweise die verbreitetere Wahl darstellt.
Die bayesianische Community gibt es auch bei Python, dabei vor allem im Umfeld der PyMC-Bibliothek.

Zeitreihenmodellierung

Für R gibt Michael Foley einen sehr umfangreichen Einblick in die Grundlagen, Darstellungsformen und unterschiedlichen Modellierungen.
Ganz ähnlich gibt auch Avril Coghlan einen Überblick über Grundlagen, Visualisierung und Modellierung für R. Etwas knapper findet sich ähnliches bei Ko Chiu Yu.
Für Python hat Tarek Atwan ein (nicht kostenfreies) Buch mit vielen Übungen geschrieben. Auch von Jake VanderPlas gibt es ein Buch voller Übungen zum Umgang mit Python (ebenfalls nicht kostenfrei).
Kostenfrei sind hingegen die Python-Einführungen zu Zeitreihen der statsmodels-Bibliothek sowie, mit starkem Fokus auf maschinelles Lernen, von TensorFlow.

Markow-Ketten

Eine sehr umfangreiche Einstiegsquelle für R mit Übungen (und Lösungen) stellt das Probability-Online-Buch von Matt DiSorbo dar.
Auch Roger Peng, Daniel Barch und Mark Lai gehen auf Markow-Ketten und dabei auch auf die Monte-Carlo-Simulation ein.
Der schon kennengelernte Solomon Kurz gibt einen Einblick in Markow-Ketten mit R mit spezieller Rücksichtnahme auf bayesianische Prinzipien.
Für Python gibt etwa Cyrille Rossant in ihrem Buch und als Auszug daraus auch online einen ersten Einstieg in den Umgang mit Markow-Ketten.
Adrian Dolinay erklärt das Prinzip von Markow-Ketten und den Umgang mit Python in einem etwa halbstündigen Video.
Und Cliburn Chan geht im Rahmen seiner Kursmaterialien ebenfalls auf Python und Markow-Ketten ein.

Lösungsansätze

Ab hier folgen nun verschiedene Lösungswege zu den oben vorgestellten Übungen. Damit Sie die nicht “versehentlich” überscrollen und so Ihrer Übungsmöglichkeiten beraubt werden, folgt hier zunächst ein visueller Bruch.

Winkende weiße Katze als GIF

Trockenübungen

Als unabhängige Größe liegen Daten gruppiert vor, um als Prediktor in weitere Analysen einzufließen. Ein typischer Anwendungsfall sind verschachtelte oder hierarchische Dtaen, die als Mehrebenenmodelle verstanden werden müssen (z.B. Artikel in Redaktionen in Ländern). Als abhängige Größe stellt die Gruppierung das angepeilte Ergebnis einer Analyse dar. Ein typisches Anwendungsfeld davon ist die Clusteranalyse.
In hierarchische und nicht-hierarchische Verfahren. Hierarchische Clusternalaysen können weiter unterteilt werden in divisive (top-down) und agglomerative (bottom-up) Verfahren. Als dritte Verfahrensfamilie haben sich in den letzten Jahren außerdem die latenten Clusteranalysen gesellt.
Im Rahmen der Zeitreihenmodellierung wird als “lag” (Verzögerung) die Einheit der betrachteten zeitlichen Wiederholung und des statistisch dabei verschobenen zeitlichen Verzugs bezeichnet.
Die Saisonalität beschreibt regelmäßig wiederkehrende Elemente, der Trend einen der gesamten Zeitreihe zugrundeliegende Veränderung und das Rauschen den verbleibenden Rest.
Danach, welche Konstanten der Regressionsverfahren dynamisch modelliert werden. Das können der Achsenabschnitt a (Random-Intercept-Modelle), die Steigung b (Random-Slope-Modelle) oder beides (Random-Intercept-and-Slope-Modelle) sein.
Markow-Ketten stellen ein statistisches Verfahren dar, das Übergangswahrscheinlichkeiten zwischen möglichen Zustandsänderungen in Form einer Übergangsmatrix (transition matrix) abbildet.