Laina, IroHölldobler, Steffen2022-01-142022-01-142021978-3-88579-775-3https://dl.gi.de/handle/20.500.12116/37907Die Dissertation befasst sich mit grundlegenden Problemen auf dem Gebiet des Szenenverständnisses und bietet eine abgerundete Sicht auf das Thema. Szenenverständnis ist der Prozess der Wahrnehmung einer komplexen Umgebung durch sensorische Eingaben, der das Verständnis der Struktur, der darin liegenden Objekte und deren Interaktion untereinander und mit der Umgebung beinhaltet (aber nicht darauf beschränkt ist). In der Praxis umfasst das Szenenverständnis eine Vielzahl von Aufgaben, die darauf abzielen, detaillierte Informationen über die Szene zu extrahieren, und wurde in den letzten Jahren durch Deep-Learning-Techniken revolutioniert. Dieser Bericht bietet eine Zusammenfassung der Dissertation und ihrer Beiträge, die in zwei größere Kategorien — Wahrnehmung und Sprache — gegliedert sind. Maschinelle Wahrnehmung befasst sich speziell mit dem Verständnis von Geometrie und Semantik. In dieser Hinsicht bringt der erste Teil der Dissertation den Stand der Technik bei Problemen wie Tiefenschätzung, Lokalisierung, semantische Segmentierung und Szenenrekonstruktion voran. Der zweite Teil definiert die wichtige Rolle der natürlichen Sprache beim Verstehen von Szenen, durch die intelligente Systeme in der Lage sind, ihr Verständnis zu kommunizieren oder mit menschlichen Benutzern zu interagieren.deSemantik, Sprache und Geometrie: Szenenverständnis lernenText/Conference Paper