10 // Maschinelles Lernen I (überwachtes Lernen)

Trockenübungen

  1. Was ist “KI”?
  2. Warum stellt “KI” ein Buzzword dar und was ist der Unterschied zu “maschinellem Lernen”?
  3. Welche sechs Schritte gehören üblicherweise zum überwachten Lernen?
  4. Worauf ist bei Training-Test-Split zu achten?
  5. Nennen Sie drei algorithmische Verfahrensfamilien des überwachten Lernens.
  6. In welchem Verhältnis stehen P(recision) und R(ecall)?

Praxisübungen

Maschinelles Lernen mit Python und R befindet sich derzeit in ständigem Umbruch. Während viele jüngste Entwicklungen, etwa im Bereich der Transformer-Modelle, zunächst mit Python Verbreitung finden, sind die Anwendungen in R zunehmend einfacher und direkter in sozialwissenschaftliche Arbeitsprozesse integrierbar. Wir sehen hier deshalb von Schritt-für-Schritt-Anleitungen ab, weil sich diese Anleitungen ständig selbst überleben würden; stattdessen werden hier einige Begrifflichkeiten vermittelt, die “im Internet” Verwendung finden, und zahlreiche Links zu Lernumgebungen und Anleitungen gesammelt.

Begriffsübersicht

Begriff aus dem Lehrbuch informatische Synonyme statistische Synonyme (weitere) englische Synonyme
Goldstandard ground truth abhängige Variable label, outcome
Codierung Annotation Codierung code, rate, annotate
Feature Feature unabhängige Variable term, word, uni/bi-/tri-/n-gram
Trainings-/Testpaket Trainings-/Testdaten Kalibrierung/Validierung split
Lernprozess trainieren schätzen train, estimate
Validierung Inspektion Güte validation, verification
Anwendung Klassifizierung Prognose classifier, prediction, deployment

Lösungsansätze

Ab hier folgen nun verschiedene Lösungswege zu den oben vorgestellten Übungen. Damit Sie die nicht “versehentlich” überscrollen und so Ihrer Übungsmöglichkeiten beraubt werden, folgt hier zunächst ein visueller Bruch.

Winkende weiße Katze als GIF

Trockenübungen

  1. Teilgebiet der Informatik zur Lösung Menschen vorbehaltener Probleme
  2. keine spezifische Definition (auch nicht von “Intelligenz”), ML ist das informatische Prinzip “hinter” KI
  3. (1) Goldstandard erstellen, (2) Pre-Processing und Feature Engineering, (3) Training-Test-Split, (4) Lernprozess mit ausgewähltem Algorithmus, (5) Validierung, (6) Anwendung/Deployment
  4. Verzerrungsfreiheit (zufallsbasiert bei gleichzeitiger Repräsentation des Ursprungsverhältnisses)
  5. (1) probabilistische Verfahren (zB Naive Bayes), (2) Entscheidungsbaumverfahren (zB Decision Tree), (3) Vektorverfahren (zB Support Vector Machine SVM), (4) neuronale Netze
  6. P beschreibt die Genauigkeit, also wie viele der vom Modell für richtig gehaltenen Fälle sind wirklich richtig; R beschreibt die Trefferquote, also wie viele der richtigen Fälle vom Modell für richtig gehalten wurden