14 // Netzwerke als Daten

Trockenübungen

  1. Sind Bilder und multimodale Inhalte ethisch anders zu bewerten? Weshalb (nicht)?
  2. Welche beiden Formate von Bildern sind gängig?
  3. Nach welchen vier grundsätzlichen Schritten erfolgt üblicherweise die Spracherkennung?
  4. Die Erkennung von Videos kann nach drei unterschiedlichen Analyseverfahren erfolgen. Nach welchen?

Praxisübungen

Visuelle Daten

Um selbst mit visuellen Daten aktiv zu werden, bietet sich etwa der MNIST-Datensatz an. Einen Einstieg etwa mit Random-Forest-Algorithmen für Python und R bieten van Atteveldt, Trilling und Arcila.

Um auf Dienstleistende zurückzugreifen, bieten sich folgende Einstiege an:

Audio-Daten

Um selbst aktiv zu werden, geben frei verfügbare Lösungen wie Kaldi Speech Recognition, Mozilla Deepspeech oder Mycroft (das kostenfrei als Software ist, aber kostenpflichtige Assistenzsysteme bietet) gute Anhaltspunkte. Als Datensätze bieten sich für den Einstieg LibriSpeech und Mozilla Common Voice an.

Als Dienstleistende bieten sich etwa an:

Audiovisuelle Daten

Selbst Modelle für die Klassifizierung von Videos zu trainieren, ist gerade im Einstiegsniveau der CCS nicht empfehlenswert. Wer es unbedingt versuchen will, findet mit torchvision als Teil der PyTorch-Bibliothek für Python einen Startpunkt.

Stattdessen bieten sich einige Dienstleistende auch dafür an:

Geo-Daten

Mit Geo-Daten zu arbeiten, ist vor allem eine manuelle Aufgabe der Datenzusammenführung und des Datenmanagements. Dafür gibt es zahlreiche Quellen, die es zu kennen gilt. Sie listen wir hier zunächst auf.

Darüber hinaus bieten sich einige Einführungen an, ein technisches Verständnis von den Herausforderungen zu vermitteln:

Lösungsansätze

Ab hier folgen nun verschiedene Lösungswege zu den oben vorgestellten Übungen. Damit Sie die nicht “versehentlich” überscrollen und so Ihrer Übungsmöglichkeiten beraubt werden, folgt hier zunächst ein visueller Bruch.

Winkende weiße Katze als GIF

Trockenübungen

  1. In der Regel ja, weil sie näher an menschlichen Kommunikationsmodi liegen und mehr(ere) Sinne ansprechen. Menschen bringen solchen Inhalten deshalb typischerweise mehr Aufmerksamkeit und auch mehr Glaubwürdigkeit entgegen und sind entsprechend anfälliger für derart gestaltete Persuasionsversuche. Verfahren des maschinellen Lernens sind im Umgang mit Bildern und multimodalen Inhalte darüber hinaus aktuell noch etwas fehleranfälliger und bedürfen eines höheren Rechenaufwands.
  2. Raster- (speichern je Pixel einen Farbwert; zB jpg, png) und Vektor-Format (speichern Formen und Koordinaten, zB svg).
  3. (1) Schallwellen digitalisieren und in Oszillogramm überführen, (2) Signal in Bestandteile (zB Wörter) zerteilen, (3) Bestandteile abstrahieren und in eine Art Vektor-Abbildung überführen, (4) Vektor-Abbildung mit Referenzdatenbank abgleichen.
  4. Bei der (1) Standbildanalyse werden einzelne Standbilder analysiert. Bei der (2) Objektanalyse werden spezifische Objekte (Menschen, Tiere …) erkannt und über die Zeit verfolgt. Bei der (3) Bild-Ton-Analyse werden, über die Zeitachse gekoppelt, auditive Signale als Hilfssignal für visuelle Signale zusätzlich eingebaut.