Mahajan, ShwetaReischuk, Rüdiger2023-11-092023-11-092023978-3-88579-981-8https://dl.gi.de/handle/20.500.12116/42594Die Herausforderungen beim Erlernen multimodaler Repräsentationen ergeben sich aus der Heterogenität der verfügbaren Datensätze, bei denen die Informationen aus verschiedenen Modalitäten oder Bereichen stammen, z. B. aus visuellen oder textuellen Signalen. In dieser Arbeit entwickeln wir das Feld des multimodalen Repräsentationslernens für eine diversifizierte Synthese mit Anwendungen in den Domänen Sehen und Sprache sowie komplexer Bildverarbeitung weiter [Ma22]. Wir verfolgen einen probabilistischen Ansatz und nutzen tiefe generative Modelle, um die Multimodalität der zugrundeliegenden wahren Datenverteilung zu erfassen, was einen großen Vorteil beim Lernen aus nicht annotierten Daten bietet. Wir entwickeln ein gemeinsames tiefes generatives Framework, um die gemeinsamen Repräsentationen der beiden Verteilungen entsprechend der unterschiedlichen generativen Prozesse zu kodieren. Obwohl populäre tiefe generative Modelle wie GANs und VAEs für Bildverteilungen große Fortschritte gemacht haben, gibt es immer noch Lücken bei der Erfassung der zugrunde liegenden wahren Datenverteilung. Um die Einschränkungen zu beheben, konstruieren wir im zweiten Teil der Arbeit leistungsstarke so genannte “normalizing flows” und autoregressive Ansätze für Bildverteilungen.deMultimodales Repräsentationslernen für diversifizierte SyntheseText/Conference Paper