Logo des Repositoriums
 
Konferenzbeitrag

Multimodales Repräsentationslernen für diversifizierte Synthese

Lade...
Vorschaubild

Volltext URI

Dokumententyp

Text/Conference Paper

Zusatzinformation

Datum

2023

Zeitschriftentitel

ISSN der Zeitschrift

Bandtitel

Verlag

Gesellschaft für Informatik e.V.

Zusammenfassung

Die Herausforderungen beim Erlernen multimodaler Repräsentationen ergeben sich aus der Heterogenität der verfügbaren Datensätze, bei denen die Informationen aus verschiedenen Modalitäten oder Bereichen stammen, z. B. aus visuellen oder textuellen Signalen. In dieser Arbeit entwickeln wir das Feld des multimodalen Repräsentationslernens für eine diversifizierte Synthese mit Anwendungen in den Domänen Sehen und Sprache sowie komplexer Bildverarbeitung weiter [Ma22]. Wir verfolgen einen probabilistischen Ansatz und nutzen tiefe generative Modelle, um die Multimodalität der zugrundeliegenden wahren Datenverteilung zu erfassen, was einen großen Vorteil beim Lernen aus nicht annotierten Daten bietet. Wir entwickeln ein gemeinsames tiefes generatives Framework, um die gemeinsamen Repräsentationen der beiden Verteilungen entsprechend der unterschiedlichen generativen Prozesse zu kodieren. Obwohl populäre tiefe generative Modelle wie GANs und VAEs für Bildverteilungen große Fortschritte gemacht haben, gibt es immer noch Lücken bei der Erfassung der zugrunde liegenden wahren Datenverteilung. Um die Einschränkungen zu beheben, konstruieren wir im zweiten Teil der Arbeit leistungsstarke so genannte “normalizing flows” und autoregressive Ansätze für Bildverteilungen.

Beschreibung

Mahajan, Shweta (2023): Multimodales Repräsentationslernen für diversifizierte Synthese. Ausgezeichnete Informatikdissertationen 2022 (Band D23). Bonn: Gesellschaft für Informatik e.V.. ISBN: 978-3-88579-981-8. pp. 181-190. Schloss Dagstuhl, Deutschland. 14.-17.05.2023

Schlagwörter

Zitierform

DOI

Tags