Auflistung nach Autor:in "Esmailoghli, Mahdi"
1 - 5 von 5
Treffer pro Seite
Sortieroptionen
- TextdokumentCombining Programming-by-Example with Transformation Discovery from large Databases(BTW 2021, 2021) özmen, Aslihan; Esmailoghli, Mahdi; Abedjan, ZiawaschData transformation discovery is one of the most tedious tasks in data preparation. In particular, the generation of transformation programs for semantic transformations is tricky because additional sources for look-up operations are necessary. Current systems for semantic transformation discovery face two major problems: either they follow a program synthesis approach that only scales to a small set of input tables, or they rely on extraction of transformation functions from large corpora, which requires the identification of exact transformations in those resources and is prone to noisy data. In this paper, we try to combine approaches to benefit from large corpora and the sophistication of program synthesis. To do so, we devise a retrieval and pruning strategy ensemble that extracts the most relevant tables for a given transformation task. The extracted resources can then be processed by a program synthesis engine to generate more accurate transformation results than state-of-the-art.
- ZeitschriftenartikelData Science für alle: Grundlagen der Datenprogrammierung(Informatik Spektrum: Vol. 43, No. 2, 2020) Abedjan, Ziawasch; Anuth, Hagen; Esmailoghli, Mahdi; Mahdavi, Mohammad; Neutatz, Felix; Chen, BingerDie Nachfrage nach Data Scientists in den verschiedensten Bereichen der Industrie, Gesellschaft und Forschung stellt Universitäten vor die Frage, in welcher Form eine Data-Science-Ausbildung ermöglicht werden soll. Neben dem traditionellen Ansatz, Data Science als Studienfach anzubieten, gibt es auch Forderungen nach Einbettung von Data-Science-Veranstaltungen in informatik- und mathematikfremden Fächern, um die gesteigerte Nachfrage nach Datenkompetenzen in diesen Bereichen abzudecken. Dies wird auch durch die erst kürzlich von der GI geförderten Initiative für „Data Literacy“ unterstützt. Vor diesem Hintergrund haben wir an der TU Berlin einen Data-Science-Kurs auf Bachelorniveau nach dem Vorbild des Data8-Kurses an der Berkeley-Universität in Kalifornien konzipiert und erfolgreich durchgeführt. In dem Kurs „Data Science 1: Essentials of Data Programming“ werden Grundlagen der Programmierung, statistische Datenanalyse, maschinelles Lernen und ethische Fragen bei der Anwendung dieser Methoden vermittelt. Das Angebot stieß auf ein sehr starkes Interesse seitens der Studierenden verschiedenster Studiengänge der TU Berlin einschließlich Kunstgeschichte und Philosophie. Zur erfolgreichen Durchführung des Kurses gehörte nicht nur die entsprechend entworfene integrierte Synopsis, die orientiert an Fallbeispielen mathematische Konzepte und Programmiertechniken vermittelt, sondern auch regelmäßige Übungsstunden und Hausaufgaben sowie eine zentralverwaltete JupyterHub-Infrastruktur, die sowohl die Nicht-Informatikstudierenden vor jeglicher Installation von unbekannter Software behütete als auch die Automatisierung der Korrektur der Programmierhausaufgaben ermöglichte. In diesem Beitrag möchten wir über unsere Erkenntnisse berichten, wie es uns gelungen ist, Studierende mit sehr unterschiedlichen Informatikkenntnissen für Data Science zu begeistern. Dabei gehen wir auf die praktische Durchführung des Kurses und der abschließenden Leistungsüberprüfung ein. Zuletzt zeigen wir die Vorteile eines solchen Kurses auf. Dazu zählt die skalierbare Möglichkeit, weiten Teilen der Studierenden Datenkompetenzen zu vermitteln und den Quereinstieg in die Informatik zu verschaffen.
- KonferenzbeitragDuplicate Table Discovery with Xash(BTW 2023, 2023) Koch, Maximilian; Esmailoghli, Mahdi; Auer, Sören; Abedjan, ZiawaschData lakes are typically lightly curated and as such prone to data quality problems and inconsistencies. In particular, duplicate tables are common in most repositories. The goal of duplicate table detection is to identify those tables that display the same data.Comparing tables is generally quite expensive as the order of rows and columns might differ for otherwise identical tables. In this paper, we explore the application of Xash, a hash function previously proposed for the discovery of multi-column join candidates, for the use case of duplicate table detection. With Xash, it is possible to generate a so-called super key, which serves like a bloom filter and instantly identifies the existence of particular cell values. We show that using Xash it is possible to speed up the duplicate table detection process significantly. In comparison to other hash functions, such as SimHash and other competitors, Xash results in fewer false positive candidates.
- TextdokumentExplanation of Air Pollution Using External Data Sources(BTW 2019 – Workshopband, 2019) Esmailoghli, Mahdi; Redyuk, Sergey; Martinez, Ricardo; Abedjan, Ziawasch; Rabl, Tilmann; Markl, Volker
- ZeitschriftenartikelParticulate Matter Matters—The Data Science Challenge @ BTW 2019(Datenbank-Spektrum: Vol. 19, No. 3, 2019) Meyer, Holger J.; Grunert, Hannes; Waizenegger, Tim; Woltmann, Lucas; Hartmann, Claudio; Lehner, Wolfgang; Esmailoghli, Mahdi; Redyuk, Sergey; Martinez, Ricardo; Abedjan, Ziawasch; Ziehn, Ariane; Rabl, Tilmann; Markl, Volker; Schmitz, Christian; Serai, Dhiren Devinder; Gava, Tatiane EscobarFor the second time, the Data Science Challenge took place as part of the 18th symposium “Database Systems for Business, Technology and Web” (BTW) of the Gesellschaft für Informatik (GI). The Challenge was organized by the University of Rostock and sponsored by IBM and SAP. This year, the integration, analysis and visualization around the topic of particulate matter pollution was the focus of the challenge. After a preselection round, the accepted participants had one month to adapt their developed approach to a substantiated problem, the real challenge. The final presentation took place at BTW 2019 in front of the prize jury and the attending audience. In this article, we give a brief overview of the schedule and the organization of the Data Science Challenge. In addition, the problem to be solved and its solution will be presented by the participants.