Berechnung effizienter Datenzusammenfassungen

Mair, SebastianHölldobler, Steffen2022-12-022022-12-022022978-3-88579-980-1https://dl.gi.de/handle/20.500.12116/39841Das Extrahieren sinnvoller Repräsentationen von Daten ist ein grundlegendes Problem im maschinellen Lernen und kann aus zwei unterschiedlichen Perspektiven betrachtet werden: (i) im Bezug auf die Anzahl der Datenpunkte und (ii) hinsichtlich der Repräsentation eines jeden einzelnen Datenpunktes in Bezug auf seine Dimensionen. Diese Arbeit beschäftigt sich mit diesen Perspektiven zur Datenrepräsen- tation und leistet dazu verschiedene Beiträge. Der erste Teil behandelt die Berechnung repräsentativer Teilmengen für die Archetypenanalyse und die Problemstellung der optimalen Versuchsplanung. Dafür motivieren und untersuchen wir die Brauchbarkeit der Punkte am Rand der Daten als neuartige repräsentative Teilmenge. Basierend auf dem Coreset-Prinzip leiten wir eine weitere repräsentative Teilmenge für die Archetypenanalyse her, welche zusätzliche theoretische Garantien bietet. Der zweite Teil der Arbeit handelt von effizienten Datenrepräsentationen für Dichteschätzungsprobleme. Wir analysieren raum-zeitliche Probleme, die z.B. in der Analyse von Mannschaftssportarten auftreten, und zeigen, wie sich statistische Bewegungsmodelle anhand von Trajektoriendaten lernen lassen. Darüber hinaus untersuchen wir Probleme hinsichtlich der Interpolation von Daten mittels generativer Modelle.deBerechnung effizienter DatenzusammenfassungenText/Conference Paper