Multimodales Repräsentationslernen für diversifizierte Synthese

Mahajan, Shweta

Konferenzbeitrag

Multimodales Repräsentationslernen für diversifizierte Synthese

Dokumententyp

Text/Conference Paper

Dateien

Mahajan-Shweta.pdf (7.66 MB)

Datum

2023

Autor:innen

Mahajan, Shweta

Quelle

Ausgezeichnete Informatikdissertationen 2022 (Band D23)

Verlag

Gesellschaft für Informatik e.V.

Zusammenfassung

Die Herausforderungen beim Erlernen multimodaler Repräsentationen ergeben sich aus der Heterogenität der verfügbaren Datensätze, bei denen die Informationen aus verschiedenen Modalitäten oder Bereichen stammen, z. B. aus visuellen oder textuellen Signalen. In dieser Arbeit entwickeln wir das Feld des multimodalen Repräsentationslernens für eine diversifizierte Synthese mit Anwendungen in den Domänen Sehen und Sprache sowie komplexer Bildverarbeitung weiter [Ma22]. Wir verfolgen einen probabilistischen Ansatz und nutzen tiefe generative Modelle, um die Multimodalität der zugrundeliegenden wahren Datenverteilung zu erfassen, was einen großen Vorteil beim Lernen aus nicht annotierten Daten bietet. Wir entwickeln ein gemeinsames tiefes generatives Framework, um die gemeinsamen Repräsentationen der beiden Verteilungen entsprechend der unterschiedlichen generativen Prozesse zu kodieren. Obwohl populäre tiefe generative Modelle wie GANs und VAEs für Bildverteilungen große Fortschritte gemacht haben, gibt es immer noch Lücken bei der Erfassung der zugrunde liegenden wahren Datenverteilung. Um die Einschränkungen zu beheben, konstruieren wir im zweiten Teil der Arbeit leistungsstarke so genannte “normalizing flows” und autoregressive Ansätze für Bildverteilungen.

Mahajan, Shweta (2023): Multimodales Repräsentationslernen für diversifizierte Synthese. Ausgezeichnete Informatikdissertationen 2022 (Band D23). Bonn: Gesellschaft für Informatik e.V.. ISBN: 978-3-88579-981-8. pp. 181-190. Schloss Dagstuhl, Deutschland. 14.-17.05.2023

Sammlungen

D23 (2022) - Ausgezeichnete Informatikdissertationen

Komplettanzeige

Multimodales Repräsentationslernen für diversifizierte Synthese

Volltext URI

Dokumententyp

Dateien

Zusatzinformation

Datum

Autor:innen

Zeitschriftentitel

ISSN der Zeitschrift

Bandtitel

Quelle

Verlag

Zusammenfassung

Beschreibung

Schlagwörter

Zitierform

DOI

Tags

Sammlungen