P180 - BTW2011 - Datenbanksysteme für Business, Technologie und Web
Autor*innen mit den meisten Dokumenten
Neueste Veröffentlichungen
- KonferenzbeitragFlexible and efficient sensor data processing – A hybrid approach(Datenbanksysteme für Business, Technologie und Web (BTW), 2011) Busemann, Claas; Kuka, Christian; Nicklas, Daniela; Boll, SusanneThe integration of various sensor data into existing software systems is becoming increasingly important for companies and even private users. As the number of embedded devices of all sorts (sensors, mobile phones, cameras etc.) also constantly increases, the development of flexible sensor applications gets more and more difficult. These applications have to handle a large number of sensors transmitting their data in various formats using different protocols. Middleware technologies are a good way to hide the complexity of communication protocols and data processing from the application. However, integrating efficient sensor data processing into a middleware requires several design choices which depend on the planned applications. Usually such systems are either efficient, allowing the processing of large numbers of data streams, or flexible, allowing the easy modification of the processing during runtime. In this paper a hybrid approach is introduced combining the benefits of two popular processing technologies, Service Oriented Architectures (SOA) and Data Stream Management Systems (DSMS), and by that enable the processing of large numbers of data streams while at the same time the system can be flexibly modified. Therefore these two technologies are analyzed to identify the benefits and disadvantages depending on their flexibility and efficiency.
- KonferenzbeitragPigSPARQL: Übersetzung von SPARQL nach Pig Latin(Datenbanksysteme für Business, Technologie und Web (BTW), 2011) Schätzle, Alexander; Przyjaciel-Zablocki, Martin; Hornung, Thomas; Lausen, GeorgDieser Beitrag untersucht die effiziente Auswertung von SPARQL- Anfragen auf großen RDF-Datensätzen. Zum Einsatz kommt hierfür das Apache Hadoop Framework, eine bekannte Open-Source Implementierung von Google's MapReduce, das massiv parallelisierte Berechnungen auf einem verteilten System ermöglicht. Zur Auswertung von SPARQL-Anfragen mit Hadoop wird in diesem Beitrag PigSPARQL, eine Übersetzung von SPARQL nach Pig Latin, vorgestellt. Pig Latin ist eine von Yahoo! Research entworfene Sprache zur verteilten Analyse von großen Datensätzen. Pig, die Implementierung von Pig Latin für Hadoop, übersetzt ein Pig Latin-Programm in eine Folge von MapReduce-Jobs, die anschließend auf einem Hadoop-Cluster ausgeführt werden. Die Evaluation von PigSPARQL anhand eines SPARQL spezifischen Benchmarks zeigt, dass der gewählte Ansatz eine effiziente Auswertung von SPARQL-Anfragen mit Hadoop ermöglicht.
- KonferenzbeitragTracking hot-k items over web 2.0 streams(Datenbanksysteme für Business, Technologie und Web (BTW), 2011) Haghani, Parisa; Michel, Sebastian; Aberer, KarlThe rise of the Web 2.0 has made content publishing easier than ever. Yesterday's passive consumers are now active users who generate and contribute new data to the web at an immense rate. We consider evaluating data driven aggregation queries which arise in Web 2.0 applications. In this context, each user action is interpreted as an event in a corresponding stream e.g., a particular weblog feed, or a photo stream. The presented approach continuously tracks the most popular tags attached to the incoming items and based on this, constructs a dynamic top-k query. By continuous evaluation of this query on the incoming stream, we are able to retrieve the currently hottest items. To limit the query processing cost, we propose to pre-aggregate index lists for parts of the query which are later on used to construct the full query result. As it is prohibitively expensive to materialize lists for all possible combinations, we select those tag sets that are most beneficial for the expected performance gain, based on predictions leveraging traditional FM sketches. To demonstrate the suitability of our approach, we perform a performance evaluation using a real-world dataset obtained from a weblog crawl.
- Editiertes Buch
- KonferenzbeitragKoordinierte zyklische Kontext-Aktualisierungen in Datenströmen(Datenbanksysteme für Business, Technologie und Web (BTW), 2011) Geesen, Dennis; Bolles, André; Grawunder, Marco; Jacobi, Jonas; Nicklas, Daniela; Appelrath H., JürgenKontextsensitive Anwendungen benötigen ein möglichst exaktes Modell der Umgebung. Zur Ermittlung und regelmäßigen Aktualisierung dieses Kontextmodells werden typischerweise Sensordaten verwendet. Datenstrommanagementsysteme (DSMS) bilden die ideale Basis, um mit den durch die Sensoren generierten, potentiell unendlichen Datenströmen umzugehen. Leider bieten bisherige DSMS keine native Unterstützung für dynamische Kontextmodelle. Insbesondere die bei der Aktualisierung entstehenden Zyklen im Anfrageplan bedürfen einer besonderen Koordination, um Aktualität und Konsistenz des Kontextmodells zu gewährleisten. Diese Arbeit präsentiert eine Lösung, die einen Broker zur Koordination der verschiedenen Zugriffe auf das Kontextmodell als neuen Operator im DSMS einführt. Wir zeigen dazu eine semantische Beschreibung und eine abstrakte Implementierung des Brokers.
- KonferenzbeitragDemonstration des Parallel Data Generation Framework(Datenbanksysteme für Business, Technologie und Web (BTW), 2011) Rabl, Tilmann; Sergieh, Hatem Mousselly; Frank, Michael; Kosch, HaraldIn vielen akademischen und wirtschaftlichen Anwendungen durchbrechen die Datenmengen die Petabytegrenze. Dies stellt die Datenbankforschung vor neue Aufgaben und Forschungsfelder. Petabytes an Daten werden gewöhnlich in großen Clustern oder Clouds gespeichert. Auch wenn Clouds in den letzten Jahren sehr populär geworden sind, gibt es dennoch wenige Arbeiten zum Benchmarking von An- wendungen in Clouds. In diesem Beitrag stellen wir einen Datengenerator vor, der für die Generierung von Daten in Clouds entworfen wurde. Die Architektur des Generators ist auf einfache Erweiterbarkeit und Konfigurierbarkeit ausgelegt. Die wichtigste Eigenschaft ist die vollständige Parallelverarbeitung, die einen optimalen Speedup auf einer beliebigen Anzahl an Rechnerknoten erlaubt. Die Demonstration umfasst sowohl die Erstellung eines Schemas, als auch die Generierung mit verschiedenen Parallelisierungsgraden. Um Interessenten die Definition eigener Datenbanken zu ermöglichen, ist das Framework auch online verfügbar.
- KonferenzbeitragTouch it, mine it, view it, shape it(Datenbanksysteme für Business, Technologie und Web (BTW), 2011) Hahmann, Martin; Habich, Dirk; Lehner, WolfgangTo benefit from the large amounts of data, gathered in more and more application domains, analysis techniques like clustering have become a necessity. As their application expands, a lot of unacquainted users come into contact with these techniques. Unfortunately, most clustering approaches are complex and/or scenario specific, which makes clustering a challenging domain to access. In this demonstration, we want to present a clustering process, that can be used in a hands-on way.
- KonferenzbeitragSnowfall: hardware stream analysis made easy(Datenbanksysteme für Business, Technologie und Web (BTW), 2011) Teubner, Jens; Woods, Louis
- KonferenzbeitragMeasuring energy consumption of a database cluster(Datenbanksysteme für Business, Technologie und Web (BTW), 2011) Hudlet, Volker; Schall, DanielEnergy consumption of database servers is a growing concern for companies as it is a critical part of a data center's cost. To address the rising cost and the waste of energy, a new paradigm called GreenIT arose. Hardware and software developers are aiming at more energy-efficient systems. To improve the energy footprint of database servers, we developed a cluster of small-scale nodes, that can be dynamically powered dependent on the workload. This demo shows the measurement framework we set up to measure hardware components as well as an entire cluster of nodes. We'll exhibit the measurement devices for components and servers and show the system's behavior under varying workloads. Attendees will be able to adjust workloads and experience their impact on energy consumption.
- KonferenzbeitragMetadata-driven data migration for SAP projects(Datenbanksysteme für Business, Technologie und Web (BTW), 2011) Oberhofer, Martin; Maier, Albert; Schwarz, Thomas; Vodegel, ManfredSAP applications are mission-critical for many enterprises today. However, projects to introduce a new SAP solution or consolidate existing SAP solutions often fail respectively overrun budget and time. A common root cause is the underestimation of data migration work. Data quality in legacy systems is often not sufficient for SAP, and specifications of the target data model often change very late in the project lifecycle, e.g. due to new business requirements or new insights about legacy systems and legacy business processes. This can cause significant re-work in the ETL jobs that extract data from source systems, cleanse that data and load it into the target SAP system(s). We apply a model-driven architecture (MDA) approach [MP10] to such data migration projects. We generate ETL infrastructure from SAP metadata. This novel approach (known as the IBM Ready-To-Launch (RTL) for SAP solution [Ibm10]) significantly reduces project risk and cost. In addition, data quality is addressed and improved. Our demo will show programmatic access to SAP metadata and its systematic exploitation throughout the data migration project, including the generation of logical and physical data models from this metadata, and the generation of ETL jobs.