00 // Eine Einführung

Herzlich Willkommen bei den Begleitmaterialien zum Lehrbuch Computational Communication Science. Das Lehrbuch ist 2023 erstmals bei Springer VS erschienen und kann sowohl dort im Online-Shop als auch bei allen gängigen Buchhandlungen erworben werden. Eine Online-Version ist über Springer Link verfügbar.

Cover Lehrbuch Computational Communication Science

Die Begleitmaterialien sind entlang der 14 Kapitel des Buchs strukturiert:

Was ist Computational Communication Science? (zum Kapitel)
Computational Communication Science (CCS) beschreibt Kommunikationswissenschaft, die sich digital veränderten Forschungsgegenständen widmet, denen klassische Methoden nicht ausreichend gewachsen sind. Dieses Kapitel definiert zentrale Begriffe (Daten, Software, Algorithmen, Modellierung), reflektiert gängige Modewörter (big data, data science, Datafizierung) und verortet relevante Konzepte, die in der CCS von zentraler Bedeutung sind (Deskription, Exploration, Determination, Probabilistik, Ethik, Proprietär).
Daten sichten (zum Kapitel)
Um Daten als zentralen Bestandteil der Computational Communication Science (CCS) angemessen einordnen zu können, vermittelt dieses Kapitel vier zentrale Perspektiven auf Daten: Eine empirische Perspektive zur Einordnung von Merkmalen und ihrer Operationalisierung (2.1), eine technische Perspektive zum Aufbau von Datensätzen und passenden Datenformaten (2.2), eine informatische Perspektive zu den Grundlagen der Speicherung und Verarbeitung verschiedener Datentypen (2.3) sowie eine statistische Perspektive zur deskriptiven Beschreibung von Daten mithilfe passender Kennzahlen, Maße und Visualisierungen (2.4).
Daten bewerten (zum Kapitel)
Daten richtig bewerten zu können, gehört zu den grundlegenden Kompetenzen der Computational Communication Science (CCS). Eine angemessene Bewertung lässt sich dabei anhand zahlreicher Kriterien vornehmen, von denen dieses Kapitel fünf in den Blick nimmt: Aussagekraft (3.1), Darstellungsweise (3.2), rechtliche Grundlagen (3.3), ethische Prinzipien (3.4) und Datengenese (3.5). Die Kriterien werden hier grundlegend eingeführt und in den späteren Abschnitten immer wieder aufgegriffen.
Forschungssoftware entwickeln (zum Kapitel)
Computational Communication Science (CCS) ist nicht zwangsläufig mit der Entwicklung von Forschungssoftware verbunden, doch zumindest Grundkenntnisse der Programmierung sind von großem Vorteil. Diese Grundkenntnisse werden in diesem Kapitel mit Python und R vermittelt. Dabei unterscheidet sich die Programmierung – das Schreiben von Anweisungen für den Computer zur Bewältigung bestimmter Aufgaben in einer Programmiersprache – von der Entwicklung, die neben der Programmierung das Testen, Dokumentieren und Organisieren von Forschungssoftware umfasst.
Daten beziehen (zum Kapitel)
In der Computational Communication Science (CCS) lassen sich Daten, die Forschende selbst sammeln oder generieren (Kapitel 7), von Daten unterscheiden, die bereits bei anderen vorliegen (Abschnitte 5 und 6). Dieses Kapitel widmet sich Daten von anderen, die der Forschung zur Verfügung stehen. Dabei gilt es, Einschränkungen zu reflektieren und mit teils eigenwilligen Datenstrukturen umzugehen. Entsprechend geht es hier um Verzerrungen in Daten (5.1), um Datenbanken als zugrunde liegende Struktur (5.2) und um APIs, sowohl aus Anwendungs- (5.3) wie auch aus Forschungsperspektive (5.4).
Fremde Daten sammeln (zum Kapitel)
Liegen Daten bei anderen vor, werden aber Forschenden nicht zur Verfügung gestellt, ist das strukturierte Sammeln fremder Daten nötig. Zum Kanon entsprechender Methoden gehören in der Computational Communication Science (CCS) Web Scraping (6.1) und agentenbasierte Tests (6.2). Dabei greift Forschungssoftware auf unterschiedliche Art auf Webseiten zu und extrahiert Daten. Weitere Verfahren bilden das Web Tracking (6.3), bei dem Verhalten von Nutzenden beobachtet wird, und die Datenspenden (6.4), bei denen Nutzende über sie gespeicherte Daten von Intermediären erfragen und an Forschende spenden.
Eigene Daten generieren (zum Kapitel)
Bestehen in Daten Lücken oder sprechen ethische Prinzipien gegen die Verwendung bestehender Daten, bieten sich für verschiedene Anwendungsfälle der Computational Communication Science (CCS) Verfahren zur künstlichen Generierung von Daten an. Diese Verfahren erlauben das Simulieren fehlender Werte (Monte-Carlo-Simulationen, 7.3), zusätzlicher Stichproben (Bootstrapping, 7.4) oder sozialer Zusammenhänge (Agentenbasierte Modellierung, 7.5). Dabei stellen sich sowohl rechtliche (7.1) als auch ethische (7.2) Grundsatzfragen, nicht zuletzt zum damit einhergehenden Ressourcenverbrauch der CCS.
Texte als Daten I (zum Kapitel)
Texte und ihre Inhaltsanalyse sind essenzieller Teil der Kommunikationswissenschaft. Entsprechend relevant ist der (teil-)automatisierte Umgang mit großen Textmengen auch für die Computational Communication Science (CCS). Dieses erste von zwei Kapiteln dazu bildet die Grundlage für die am CCS-Forschungsprozess ausgerichtete Arbeit mit Texten als Daten (Kapitel 9) und widmet sich dem einfachen Zählen schriftlicher Konstrukte (8.1), der Relevanz von sprachlichem Kontext (8.2) und der computerlinguistisch sowie informatisch geprägten Forschung zum Erschließen von Sinnzusammenhängen (8.3).
Texte als Daten II (zum Kapitel)
Dieses zweite von zwei Kapiteln richtet die Arbeit mit Texten als Daten am Forschungsprozess der Computational Communication Science (CCS) aus. Dazu zählen zunächst rechtliche Grundlagen (9.1) und ethische Prinzipien (9.2). Anschließend wird die bei der Arbeit mit Texten notwendige Datenaufbereitung (“Pre-Processing”, 9.3) strukturiert aufgearbeitet, Texte und Textstellen annotiert (9.4), in Document-Feature-Matrizen als zentrales Instrument überführt (9.5) und schließlich beschrieben und visualisiert (9.6).
Maschinelles Lernen mit Goldstandard (“überwachtes Lernen”) (zum Kapitel)
Künstliche Intelligenz – oder: maschinelles Lernen – spielt in der Computational Communication Science (CCS) an zahlreichen Stellen eine maßgebliche Rolle. Hier am Beispiel von Textdaten aufgezeigt, beruht das in diesem Kapitel vorgestellte überwachte Lernen auf einer Auswahl reliabel manuell codierter Daten (10.1), sorgfältig ausgewählter Eigenschaften (“features”; 10.2) und effizienter Algorithmen (10.3). Das resultierende Modell gehört schließlich umfassend validiert (10.4), bevor es für die Klassifizierung weiterer Daten eingesetzt werden kann (10.5).
Maschinelles Lernen ohne Goldstandard (“unüberwachtes Lernen”) (zum Kapitel)
Maschinelles Lernen ohne Goldstandard – unüberwachtes Lernen – spielt in seiner modernen Ausprägung nur bedingt eine Rolle in der Computational Communication Science (CCS). Gleichzeitig sind die im Kern ebenfalls darauf aufbauenden Verfahren der Themenmodellierung seit geraumer Zeit Teil des kommunikationswissenschaftlichen Methodenkanons. Dieses Kapitel geht auf die rechtlichen Grundlagen (11.1) und ethischen Prinzipien (11.2) von künstlicher Intelligenz insgesamt ein und betrachtet dann die zentralen Spezifika von unüberwachtem Lernen für die CCS.
Netzwerke als Daten (zum Kapitel)
Netzwerkdaten und die soziale Netzwerkanalyse genießen – wohl aufgrund ihres Alters – große Bekanntheit innerhalb der Computational Communication Science (CCS). Diese Forschungstradition baut auf der Prämisse auf, wonach soziale Konstrukte nicht unabhängig voneinander sind. An die Stelle einzelner Merkmalsträger rücken Beziehungen zwischen Entitäten, etwa bei Webseiten oder in sozialen Netzwerken. Dieses Kapitel stellt die Forschungstradition samt ihrem recht eigenen Vokabular vor und gibt einen Überblick über Möglichkeiten der Analyse, der Darstellung und der Interpretation.
Gruppen und Sequenzen als Daten (zum Kapitel)
Die Computational Communication Science (CCS) ist von einer Vielfalt an Datenarten geprägt, die jeweils eigene Handhabungen und Analysestrategien erfordern. Das Kapitel widmet sich vier bislang unberücksichtigter solcher Datenarten: Gruppen tragen als abhängige Größe zur Komplexitätsreduktion bei (13.1), als unabhängige Größen ermöglichen sie die Betrachtung des Einflusses auf unterschiedlichen Analyseebenen (13.2). Zeitliche (13.3) und bedingte (13.4) Sequenzen erlauben, die Logik, die sich aus Zeitreihen oder der Verkettung von Ereignissen ergibt, analytisch in den Blick zu nehmen.
Bilder und multimodale Daten (zum Kapitel)
Bilder und multimodale Daten gewinnen für die Computational Communication Science (CCS) zunehmend an Bedeutung, obwohl die Methodenentwicklung in der Vergangenheit nur begrenzt Teil der Kommunikationswissenschaft war. Entsprechend viele Dienstleistende bieten sich an, die in diesem Kapitel vorgestellten Daten – Bilder (14.1), Sounds (14.2), Videos (14.3) und Geo-Daten (14.4) – für die CCS zu bearbeiten. Mit dem Einbezug von Dienstleistenden gehen allerdings umfangreiche Einschränkungen einher, zumal die rechtlichen (14.5) und ethischen (14.6) Prämissen dadurch maßgeblich an Bedeutung gewinnen.