Logo des Repositoriums
 

Datenbank Spektrum 11(1) - März 2011

Autor*innen mit den meisten Dokumenten  

Auflistung nach:

Neueste Veröffentlichungen

1 - 10 von 13
  • Zeitschriftenartikel
    An Efficient Blocking Technique for Reference Matching using MapReduce
    (Datenbank-Spektrum: Vol. 11, No. 1, 2011) Paradies, Marcus
    Document Clustering has become an increasingly important task in the area of data mining and information retrieval. With growing data volumes, CPU—and memory-efficient techniques for clustering algorithms are receiving considerable attention in the research community. To deal with huge amounts of data (e.g., documents from Wikipedia or CiteSeerX which are several GB in size), distributed clustering techniques have been designed to provide scalable and flexible approaches. We study the problem of document clustering in the area of Entity Matching, where documents from various data sources are matched together. More specifically, we focus on a common optimization technique called blocking which reduces the enormous search space by clustering the data sources into smaller groups and processes comparisons only within a group. In this article, we describe our experiences and findings in applying the MapReduce framework to deal with huge bibliographic data sets and to provide a flexible, scalable and easy-to-use blocking technique to reduce the search space for Entity Matching.
  • Zeitschriftenartikel
    AnduIN: Anwendungsentwicklung für drahtlose Sensornetzwerke
    (Datenbank-Spektrum: Vol. 11, No. 1, 2011) Klan, Daniel; Sattler, Kai-Uwe
    Eine der größten Herausforderung bei der Anwendungsentwicklung für drahtlose Sensornetzwerke ist der effiziente Umgang mit den oftmals stark beschränkten Ressourcen. Die Entwicklung neuer Systeme gestaltet sich entsprechend aufwendig und teuer. In der vorliegenden Arbeit soll mit AnduIN ein Ansatz gezeigt werden, welcher die Entwicklung entsprechender Lösungen dahingehend vereinfacht, dass lediglich die Zielstellung beschrieben werden muss. Das System analysiert diese und entscheidet selbstständig, welche Funktionen in welcher Form zu realisieren sind.
  • Zeitschriftenartikel
    Das Sombi-Framework zum Ermitteln geeigneter Suchfunktionen für biologische Modelldatenbasen
    (Datenbank-Spektrum: Vol. 11, No. 1, 2011) Waltemath, Dagmar; Henkel, Ron; Meyer, Holger; Heuer, Andreas
    Die Wiederverwendung von Simulationsmodellen biologischer Systeme ist mit der ansteigenden Zahl der in Modelldatenbanken gespeicherten Modelle zu einem wichtigen Forschungsproblem geworden. Ein Teilproblem ist die effiziente Suche nach relevanten Modellen in einer Datenbasis. Als Lösungsansatz wurde kürzlich die Nutzung von Information-Retrieval-Techniken für das bewertete Finden von Modellen vorgestellt.Die im Folgenden beschriebene Software stellt Anwendungsentwicklern ein Framework zur Evaluation verschiedener Retrieval- und Rankingfunktionen unter Nutzung unterschiedlicher Datenbasen zur Verfügung. Der modulare Aufbau des Frameworks ermöglicht die Unterstützung weiterer XML-basierter Beschreibungsformate sowie das Einbinden zusätzlicher Funktionen. Voraussetzungen für die Verwendung des Frameworks sind die Kodierung der Simulationsmodelle in einem XML-basierten Standard-Repräsentationsformat sowie die Verfügbarkeit von semantischen Modellinformationen, z.B. in Form von in Ontologien kodierten Meta-Informationen. Sombi wurde als Evaluationswerkzeug für Datenbankentwickler im Bereich der Modellspeicherung in der Systembiologie entwickelt. Eine Verwendung des Frameworks auf anderen Anwendungsgebieten ist jedoch vorstellbar.
  • Zeitschriftenartikel
    Editorial
    (Datenbank-Spektrum: Vol. 11, No. 1, 2011) Härder, Theo; Schenkel, Ralf
  • Zeitschriftenartikel
    News
    (Datenbank-Spektrum: Vol. 11, No. 1, 2011)
  • Zeitschriftenartikel
    Generierung des Datenzugriffs in Anwendungsprogrammen
    (Datenbank-Spektrum: Vol. 11, No. 1, 2011) Schwarz, Holger
    Datenzugriffe auf externe und heterogene Datenbestände sind ein grundlegender Bestandteil von Anwendungsprogrammen in ganz unterschiedlichen Anwendungsbereichen. Vielfach können diese Datenzugriffe nicht über statisch eingebettete Anweisungen realisiert werden, sondern müssen dynamisch generiert werden. In diesem Beitrag wird das Spektrum relevanter Anwendungsbereiche vorgestellt. Ausgehend von einzelnen Systembeispielen werden wichtige Aspekte anfragegenerierender Systeme verallgemeinert. Hierzu wird eine Systemklassifikation vorgestellt und die Bedeutung der Klassifikation insbesondere für Optimierungsaspekte erläutert. Ferner werden drei grundlegende Implementierungskonzepte für anfragegenerierende Systeme vorgestellt und deren Eignung für einzelne Anwendungsklassen diskutiert.
  • Zeitschriftenartikel
    Bericht zur Herbstschule Information Retrieval 2010
    (Datenbank-Spektrum: Vol. 11, No. 1, 2011) Metzger, Steffen; Hose, Katja; Broschart, Andreas
  • Zeitschriftenartikel
    RDF-Stores und RDF-Query-Engines
    (Datenbank-Spektrum: Vol. 11, No. 1, 2011) Neumann, Thomas; Weikum, Gerhard
    RDF ist das Datenmodell der Semantic-Web- und Linked-Data-Initiativen, das zunehmend Verbreitung findet. Es zeichnet sich durch feinkörnige Strukturierungsmöglichkeiten in Form binärer Relationen und durch flexible Typisierung ohne die Notwendigkeit eines präskriptiven Schemas aus.Aus diesen Gründen sind die effiziente Speicherung und Anfrageauswertung auf RDF-Datenkollektionen schwierige Forschungsthemen. Dieser Artikel gibt einen Überblick über verschiedene Alternativen zur Speicherung von RDF-Daten und diskutiert kurz die Probleme, die sich für die Indexierung sowie Anfrageoptimmierung und -ausführung ergeben.
  • Zeitschriftenartikel
    Projektseminar „Similarity Search Algorithms“
    (Datenbank-Spektrum: Vol. 11, No. 1, 2011) Lange, Dustin; Vogel, Tobias; Draisbach, Uwe; Naumann, Felix
    Mithilfe von Verfahren aus dem Bereich Ähnlichkeitssuche können zu einer Anfrage an einen Datenbestand nicht nur exakte, sondern auch ähnliche Objekte gefunden werden, z. B. Bilder mit ähnlichen Motiven wie auf dem Anfragebild. Mit aktuellen Forschungsansätzen aus diesem Bereich befasste sich das Seminar „Similarity Search Algorithms“, welches wir in diesem Bericht vorstellen.Das Ziel des Seminars war ein breiter Vergleich bekannter Indexierungsalgorithmen mit Datensätzen aus verschiedenen Bereichen. Die Studenten befassten sich mit je zwei Ähnlichkeitsmaßen für Datensätze aus fünf verschiedenen Domänen und mit je einem von sechs verschiedenen Indexstrukturen zur Ähnlichkeitssuche in metrischen Räumen. In diesem Bericht evaluieren wir die Kombination der Ähnlichkeitsmaße mit den Indexstrukturen bzgl. Indexaufbau und knn-Anfragen. Außerdem beschreiben wir die Durchführung des Seminars und werfen einen Blick auf lessons learned.
  • Zeitschriftenartikel
    Kurz erklärt: Datenfusion
    (Datenbank-Spektrum: Vol. 11, No. 1, 2011) Bleiholder, Jens; Naumann, Felix