Autor*innen mit den meisten Dokumenten
Neueste Veröffentlichungen
- ZeitschriftenartikelKurz erklärt: Objekt-NoSQL-Mapping(Datenbank-Spektrum: Vol. 16, No. 1, 2016) Störl, Uta; Klettke, Meike; Scherzinger, Stefanie
- ZeitschriftenartikelMoSt – Modellbasierte Generierung synthetischer Datenbankstatistiken(Datenbank-Spektrum: Vol. 16, No. 1, 2016) Koch, ChristophIm Zeitalter von Cloud, Mobility und BigData sehen sich moderne (Datenbank-)Anwendungen mit immer höheren Anforderungen konfrontiert. Dabei reicht das Spektrum von funktionalen Aspekten bis hin zu nicht-funktionalen Anforderungen, zu denen vor allem eine hohe Performance zählt. Kontinuierliche Qualitätssicherungsmaßnahmen zur Einhaltung dieser Anforderungen sind unabdingbar und ein zentraler Bestandteil agiler Software- und Datenbankentwicklung. Dazu zählen auch zur Ausführungsplan-Analyse von SQL-Statements etablierte Explain-Mechanismen relationaler Datenbankmanagementsysteme. Diese können anhand von Statistiken zu den datenbankseitig gespeicherten Daten Abschätzungen und Vorhersagen zur erwarteten Performance bei der Abarbeitung von SQL-Statements geben.Speziell für neue Datenbankanwendungen bzw. Anwendungsmodule ohne vorhandene repräsentative Datenbestände existieren damit standardmäßig keine Statistiken. Der vorliegende Beitrag adressiert dieses Problem und stellt einen Ansatz vor, um auch ohne aufwändige Datengenerierung trotzdem die Explain-Mechanismen zur Qualitätssicherung nutzen zu können. Dabei werden die benötigten Statistiken auf Basis von strukturiert im Datenmodell erfassten Performance-Indikatoren künstlich erzeugt. Durch erste Untersuchungen am praktischen Beispiel konnte die Tragfähigkeit dieses Ansatzes bereits bestätigt werden.
- ZeitschriftenartikelHeterogenität überwinden mit der Datentransformationssprache NotaQL(Datenbank-Spektrum: Vol. 16, No. 1, 2016) Schildgen, Johannes; Deßloch, StefanBei der Informationsintegration, also dem Zusammenführen verschiedener Daten aus zwei oder mehr Datenquellen, gilt es die Heterogenität der Quellen aufzulösen und die gegebenen Schemata ineinander abzubilden. Besonders bei der Verarbeitung von Big Data in schemalosen NoSQL-Systemen, in denen heterogene Datensätze gespeichert sind, und die sich zusätzlich untereinander stark im Datenmodell und in ihren Zugriffsmethoden unterscheiden, scheitern meist klassische SQL-basierte Techniken. In diesem Artikel stellen wir vor, wie mit der Datentransformationssprache NotaQL die verschiedenen Arten von Heterogenität überwunden werden können. Die meist wenige Zeilen kurzen NotaQL-Skripte beschreiben eine Transformation zwischen unterschiedlichen Systemen und bieten einen flexiblen Zugriff auf Daten und Metadaten.
- ZeitschriftenartikelDissertationen(Datenbank-Spektrum: Vol. 16, No. 1, 2016)
- ZeitschriftenartikelScalable DB+IR Technology: Processing Probabilistic Datalog with HySpirit(Datenbank-Spektrum: Vol. 16, No. 1, 2016) Frommholz, Ingo; Roelleke, ThomasProbabilistic Datalog (PDatalog, proposed in 1995) is a probabilistic variant of Datalog and a nice conceptual idea to model Information Retrieval in a logical, rule-based programming paradigm. Making PDatalog work in real-world applications requires more than probabilistic facts and rules, and the semantics associated with the evaluation of the programs. We report in this paper some of the key features of the HySpirit system required to scale the execution of PDatalog programs.Firstly, there is the requirement to express probability estimation in PDatalog. Secondly, fuzzy-like predicates are required to model vague predicates (e.g. vague match of attributes such as age or price). Thirdly, to handle large data sets there are scalability issues to be addressed, and therefore, HySpirit provides probabilistic relational indexes and parallel and distributed processing. The main contribution of this paper is a consolidated view on the methods of the HySpirit system to make PDatalog applicable in real-scale applications that involve a wide range of requirements typical for data (information) management and analysis.
- ZeitschriftenartikelEditorial(Datenbank-Spektrum: Vol. 16, No. 1, 2016) Hagen, Matthias; Stein, Benno; Härder, Theo
- ZeitschriftenartikelDie Abteilung Datenbanken und Informationssysteme am Max-Planck-Institut für Informatik(Datenbank-Spektrum: Vol. 16, No. 1, 2016) Weikum, GerhardDieser Artikel stellt die wissenschaftliche Vision und aktuellen Forschungsrichtungen der Abteilung Datenbanken und Informationssysteme des Max-Planck-Instituts für Informatik vor.
- ZeitschriftenartikelMining Entity Rankings(Datenbank-Spektrum: Vol. 16, No. 1, 2016) Pal, K.; Reinartz, F.; Michel, S.In this paper, we propose models, algorithms, and implementation details of an approach that extract the most relevant entity rankings from large datasets. This is done in a fully automated way, as with large amounts of structured data, beyond well understood databases (schemas), manual solutions do not scale. The core task of our approach is to decide which categorical constraints, ranking order (descending or ascending), and length form together an interesting ranking. We make use of a model based on information entropy to find interesting/relevant categorical constraints and devise pruning conditions to avoid generating too many irrelevant rankings. We further investigate the skewness of the value distributions of ranking criteria to find suitable ranking dimensions and ranking order, and present an overall scoring model to assess the meaningfulness of a ranking. For each individual step of our approach, we discuss iterative MapReduce-based algorithms. Finally, the experimental evaluation on real-world data is reported where the users manually evaluate our approach of generating most relevant rankings.
- ZeitschriftenartikelUsing Summaries to Search and Visualize Distributed Resources Addressing Spatial and Multimedia Features(Datenbank-Spektrum: Vol. 16, No. 1, 2016) Blank, Daniel; Henrich, Andreas; Kufer, StefanSummarization is an important means to cope with the challenges of big data. Summaries can help to achieve a first overview, they can be used to characterize subsets, they allow for the targeted access to data, and they build the basis for visualization techniques. In the present article, we point out the role of summaries as well as potential application scenarios. As examples, summarization techniques for spatial data (as an example for specific low dimensional techniques) and for general metric spaces (as a generic example with a broad spectrum of applications) are described. Furthermore, their use for resource selection and resource visualization in large distributed scenarios is outlined.
- ZeitschriftenartikelADAMpro: Database Support for Big Multimedia Retrieval(Datenbank-Spektrum: Vol. 16, No. 1, 2016) Giangreco, Ivan; Schuldt, HeikoFor supporting retrieval tasks within large multimedia collections, not only the sheer size of data but also the complexity of data and their associated metadata pose a challenge. Applications that have to deal with big multimedia collections need to manage the volume of data and to effectively and efficiently search within these data. When providing similarity search, a multimedia retrieval system has to consider the actual multimedia content, the corresponding structured metadata (e.g., content author, creation date, etc.) and—for providing similarity queries—the extracted low-level features stored as densely populated high-dimensional feature vectors. In this paper, we present ADAMpro, a combined database and information retrieval system that is particularly tailored to big multimedia collections. ADAMpro follows a modular architecture for storing structured metadata, as well as the extracted feature vectors and it provides various index structures, i.e., Locality-Sensitive Hashing, Spectral Hashing, and the VA-File, for a fast retrieval in the context of a similarity search. Since similarity queries are often long-running, ADAMpro supports progressive queries that provide the user with streaming result lists by returning (possibly imprecise) results as soon as they become available. We provide the results of an evaluation of ADAMpro on the basis of several collection sizes up to 50 million entries and feature vectors with different numbers of dimensions.