Auflistung nach Autor:in "Abedjan, Ziawasch"
1 - 10 von 12
Treffer pro Seite
Sortieroptionen
- ZeitschriftenartikelAlgorithms for Big Data(it - Information Technology: Vol. 62, No. 3-4, 2020) Meyer, Ulrich; Abedjan, ZiawaschArticle Algorithms for Big Data was published on June 1, 2020 in the journal it - Information Technology (volume 62, issue 3-4).
- TextdokumentArbeitspapier Data Science: Lern- und Ausbildungsinhalte(2019) Abedjan, Ziawasch; Brefeld, Ulf; Bürkle, Joachim; Desel, Jörg; Edlich, Stefan; Eppler, Thomas; Goedicke, Michael; Heidrich, Jens; Höppner, Stephan; Kast, Stefan M.; Krupka, Daniel; Lang, Klaus; Liggesmeyer, Peter; Tropmann-Frick, Marina
- ZeitschriftenartikelBig Data - Ergebnisse und Herausforderungen im Jahr 2020(LOG IN: Vol. 41, No. 1, 2021) Abedjan, ZiawaschIn den letzten Jahren wurde eine Fülle neuer Ansätze zur Automatisierung wissensbasierter, künstlicher Intelligenz erarbeitet. Beschränkte sich die Entwicklung künstlicher Intelligenz in den Anfängen des Computereinsatzes nur auf das Sammeln von Daten und das Erstellen von Datenbanken, die als sogenannte Expertensysteme zum Einsatz kamen, so wurden mittlerweile neue Programmstrukturen ausgearbeitet und erprobt, mit denen die mehrschichtige Vernetzung von Hirnneuronen simuliert und dadurch eine selbsttätige Lernfähigkeit erreicht werden soll. Eigentlich verdient ein solches kognitives „Eigenleben“ erst jetzt den „Ehrentitel“ künstliche Intelligenz. Ein Überblick über die Geschichte soll im Folgenden die wesentlichen Meilensteine von den ersten Ideen bis heute aufzeigen.
- TextdokumentCombining Programming-by-Example with Transformation Discovery from large Databases(BTW 2021, 2021) özmen, Aslihan; Esmailoghli, Mahdi; Abedjan, ZiawaschData transformation discovery is one of the most tedious tasks in data preparation. In particular, the generation of transformation programs for semantic transformations is tricky because additional sources for look-up operations are necessary. Current systems for semantic transformation discovery face two major problems: either they follow a program synthesis approach that only scales to a small set of input tables, or they rely on extraction of transformation functions from large corpora, which requires the identification of exact transformations in those resources and is prone to noisy data. In this paper, we try to combine approaches to benefit from large corpora and the sophistication of program synthesis. To do so, we devise a retrieval and pruning strategy ensemble that extracts the most relevant tables for a given transformation task. The extracted resources can then be processed by a program synthesis engine to generate more accurate transformation results than state-of-the-art.
- ZeitschriftenartikelData Science für alle: Grundlagen der Datenprogrammierung(Informatik Spektrum: Vol. 43, No. 2, 2020) Abedjan, Ziawasch; Anuth, Hagen; Esmailoghli, Mahdi; Mahdavi, Mohammad; Neutatz, Felix; Chen, BingerDie Nachfrage nach Data Scientists in den verschiedensten Bereichen der Industrie, Gesellschaft und Forschung stellt Universitäten vor die Frage, in welcher Form eine Data-Science-Ausbildung ermöglicht werden soll. Neben dem traditionellen Ansatz, Data Science als Studienfach anzubieten, gibt es auch Forderungen nach Einbettung von Data-Science-Veranstaltungen in informatik- und mathematikfremden Fächern, um die gesteigerte Nachfrage nach Datenkompetenzen in diesen Bereichen abzudecken. Dies wird auch durch die erst kürzlich von der GI geförderten Initiative für „Data Literacy“ unterstützt. Vor diesem Hintergrund haben wir an der TU Berlin einen Data-Science-Kurs auf Bachelorniveau nach dem Vorbild des Data8-Kurses an der Berkeley-Universität in Kalifornien konzipiert und erfolgreich durchgeführt. In dem Kurs „Data Science 1: Essentials of Data Programming“ werden Grundlagen der Programmierung, statistische Datenanalyse, maschinelles Lernen und ethische Fragen bei der Anwendung dieser Methoden vermittelt. Das Angebot stieß auf ein sehr starkes Interesse seitens der Studierenden verschiedenster Studiengänge der TU Berlin einschließlich Kunstgeschichte und Philosophie. Zur erfolgreichen Durchführung des Kurses gehörte nicht nur die entsprechend entworfene integrierte Synopsis, die orientiert an Fallbeispielen mathematische Konzepte und Programmiertechniken vermittelt, sondern auch regelmäßige Übungsstunden und Hausaufgaben sowie eine zentralverwaltete JupyterHub-Infrastruktur, die sowohl die Nicht-Informatikstudierenden vor jeglicher Installation von unbekannter Software behütete als auch die Automatisierung der Korrektur der Programmierhausaufgaben ermöglichte. In diesem Beitrag möchten wir über unsere Erkenntnisse berichten, wie es uns gelungen ist, Studierende mit sehr unterschiedlichen Informatikkenntnissen für Data Science zu begeistern. Dabei gehen wir auf die praktische Durchführung des Kurses und der abschließenden Leistungsüberprüfung ein. Zuletzt zeigen wir die Vorteile eines solchen Kurses auf. Dazu zählt die skalierbare Möglichkeit, weiten Teilen der Studierenden Datenkompetenzen zu vermitteln und den Quereinstieg in die Informatik zu verschaffen.
- KonferenzbeitragDuplicate Table Discovery with Xash(BTW 2023, 2023) Koch, Maximilian; Esmailoghli, Mahdi; Auer, Sören; Abedjan, ZiawaschData lakes are typically lightly curated and as such prone to data quality problems and inconsistencies. In particular, duplicate tables are common in most repositories. The goal of duplicate table detection is to identify those tables that display the same data.Comparing tables is generally quite expensive as the order of rows and columns might differ for otherwise identical tables. In this paper, we explore the application of Xash, a hash function previously proposed for the discovery of multi-column join candidates, for the use case of duplicate table detection. With Xash, it is possible to generate a so-called super key, which serves like a bloom filter and instantly identifies the existence of particular cell values. We show that using Xash it is possible to speed up the duplicate table detection process significantly. In comparison to other hash functions, such as SimHash and other competitors, Xash results in fewer false positive candidates.
- ReportEmpfehlungen für Masterstudiengänge „Data Science“ – auf Basis eines Bachelors in (Wirtschafts-)Informatik oder Mathematik(2021) Abedjan, Ziawasch; Bendig, Thomas; Brefeld, Ulf; Bürkle, Joachim; Desel, Jörg; Edlich, Stefan; Eppler, Thomas; Goedicke, Michael; Hachmeister, Nils; Heidrich, Jens; Höppner, Stephan; Kast, Stefan M.; Krupka, Daniel; Lang, Klaus; Liggesmeyer, Peter; Meisner, Julia; Scholtes, Ingo; Tropmann-Frick, Marina
- ZeitschriftenartikelEnabling data-centric AI through data quality management and data literacy(it - Information Technology: Vol. 64, No. 1-2, 2022) Abedjan, ZiawaschData is being produced at an intractable pace. At the same time, there is an insatiable interest in using such data for use cases that span all imaginable domains, including health, climate, business, and gaming. Beyond the novel socio-technical challenges that surround data-driven innovations, there are still open data processing challenges that impede the usability of data-driven techniques. It is commonly acknowledged that overcoming heterogeneity of data with regard to syntax and semantics to combine various sources for a common goal is a major bottleneck. Furthermore, the quality of such data is always under question as the data science pipelines today are highly ad-hoc and without the necessary care for provenance. Finally, quality criteria that go beyond the syntactical and semantic correctness of individual values but also incorporate population-level constraints, such as equal parity and opportunity with regard to protected groups, play a more and more important role in this process. Traditional research on data integration was focused on post-merger integration of companies, where customer or product databases had to be integrated. While this is often hard enough, today the challenges aggravate because of the fact that more stakeholders are using data analytics tools to derive domain-specific insights. I call this phenomenon the democratization of data science, a process, which is both challenging and necessary. Novel systems need to be user-friendly in a way that not only trained database admins can handle them but also less computer science savvy stakeholders. Thus, our research focuses on scalable example-driven techniques for data preparation and curation. Furthermore, we believe that it is important to educate the breadth of society on implications of a data-driven world and actively promote the concept of data literacy as a fundamental competence.
- TextdokumentExplanation of Air Pollution Using External Data Sources(BTW 2019 – Workshopband, 2019) Esmailoghli, Mahdi; Redyuk, Sergey; Martinez, Ricardo; Abedjan, Ziawasch; Rabl, Tilmann; Markl, Volker
- ZeitschriftenartikelImproving RDF Data Through Association Rule Mining(Datenbank-Spektrum: Vol. 13, No. 2, 2013) Abedjan, Ziawasch; Naumann, FelixLinked Open Data comprises very many and often large public data sets, which are mostly presented in the Rdf triple structure of subject, predicate, and object. However, the heterogeneity of available open data requires significant integration steps before it can be used in applications. A promising and novel technique to explore such data is the use of association rule mining. We introduce “mining configurations”, which allow us to mine Rdf data sets in various ways. Different configurations enable us to identify schema and value dependencies that in combination result in interesting use cases. We present rule-based approaches for predicate suggestion, data enrichment, ontology improvement, and query relaxation. On the one hand we prevent inconsistencies in the data through predicate suggestion, enrichment with missing facts, and alignment of the corresponding ontology. On the other hand we support users to handle inconsistencies during query formulation through predicate expansion techniques. Based on these approaches, we show that association rule mining benefits the integration and usability of Rdf data.