Logo des Repositoriums
 

Multimodales Repräsentationslernen für diversifizierte Synthese

dc.contributor.authorMahajan, Shweta
dc.contributor.editorReischuk, Rüdiger
dc.date.accessioned2023-11-09T13:38:07Z
dc.date.available2023-11-09T13:38:07Z
dc.date.issued2023
dc.description.abstractDie Herausforderungen beim Erlernen multimodaler Repräsentationen ergeben sich aus der Heterogenität der verfügbaren Datensätze, bei denen die Informationen aus verschiedenen Modalitäten oder Bereichen stammen, z. B. aus visuellen oder textuellen Signalen. In dieser Arbeit entwickeln wir das Feld des multimodalen Repräsentationslernens für eine diversifizierte Synthese mit Anwendungen in den Domänen Sehen und Sprache sowie komplexer Bildverarbeitung weiter [Ma22]. Wir verfolgen einen probabilistischen Ansatz und nutzen tiefe generative Modelle, um die Multimodalität der zugrundeliegenden wahren Datenverteilung zu erfassen, was einen großen Vorteil beim Lernen aus nicht annotierten Daten bietet. Wir entwickeln ein gemeinsames tiefes generatives Framework, um die gemeinsamen Repräsentationen der beiden Verteilungen entsprechend der unterschiedlichen generativen Prozesse zu kodieren. Obwohl populäre tiefe generative Modelle wie GANs und VAEs für Bildverteilungen große Fortschritte gemacht haben, gibt es immer noch Lücken bei der Erfassung der zugrunde liegenden wahren Datenverteilung. Um die Einschränkungen zu beheben, konstruieren wir im zweiten Teil der Arbeit leistungsstarke so genannte “normalizing flows” und autoregressive Ansätze für Bildverteilungen.de
dc.identifier.isbn978-3-88579-981-8
dc.identifier.urihttps://dl.gi.de/handle/20.500.12116/42594
dc.language.isode
dc.publisherGesellschaft für Informatik e.V.
dc.relation.ispartofAusgezeichnete Informatikdissertationen 2022 (Band D23)
dc.titleMultimodales Repräsentationslernen für diversifizierte Synthesede
dc.typeText/Conference Paper
gi.citation.endPage190
gi.citation.publisherPlaceBonn
gi.citation.startPage181
gi.conference.date14.-17.05.2023
gi.conference.locationSchloss Dagstuhl, Deutschland

Dateien

Originalbündel
1 - 1 von 1
Lade...
Vorschaubild
Name:
Mahajan-Shweta.pdf
Größe:
7.66 MB
Format:
Adobe Portable Document Format