Auflistung nach Schlagwort "Hadoop"
1 - 8 von 8
Treffer pro Seite
Sortieroptionen
- ZeitschriftenartikelBig Data – Eine Einführung(HMD Praxis der Wirtschaftsinformatik: Vol. 51, No. 4, 2014) Fasel, DanielVerfolgt man die Diskussionen in der europäischen Wirtschaft, erkennt man, dass der Begriff Big Data in der Praxis nicht klar definiert ist. Er ist zwar in aller Munde, doch nur wenige haben eine klare Antwort auf die Frage, was Big Data ist und wo es sich von klassischen Daten einer Unternehmung unterscheidet. Dieser Beitrag gibt eine Einführung in Big Data. Anhand von Volume, Velocity und Variety werden grundlegende Merkmale von Big Data erläutert. Um Big Data wertschöpfend in einer Firma einzusetzen braucht es neue Technologien und neue Fähigkeiten, damit mit solchen Daten besser umgegangen werden kann. In diesem Beitrag werden die Hauptgruppen und einige Vertreter von solchen neuen Technologien kurz erläutert. Letztlich werden die Chancen und Risiken von Big Data in Unternehmen betrachtet.
- ZeitschriftenartikelDie neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co(HMD Praxis der Wirtschaftsinformatik: Vol. 51, No. 4, 2014) Müller, StefanDurch die immer starker wachsenden Datenberge stößt der klassische Data Warehouse-Ansatz an seine Grenzen, weil er in Punkto Schnelligkeit, Datenvolumen und Auswertungsmöglichkeiten nicht mehr mithalten kann. Neue Big Data-Technologien wie analytische Datenbanken, NoSQL-Datenbanken oder Hadoop versprechen Abhilfe, haben aber einige Nachteile: Während sich analytische Datenbanken nur unzureichend mit anderen Datenquellen integrieren lassen, reichen die Abfragesprachen von NoSQL-Datenbanken nicht an die Möglichkeiten von SQL heran. Die Einführung von Hadoop erfordert wiederum den aufwändigen Aufbau von Knowhow im Unternehmen. Durch eine geschickte Kombination des Data Warehouse-Konzepts mit modernen Big Data-Technologien lassen sich diese Schwierigkeiten überwinden: Die Data Marts, auf die analytische Datenbanken zugreifen, können aus dem Data Warehouse gespeist werden. Die Vorteile von NoSQL lassen sich in den Applikationsdatenbanken nutzen, während die Daten für die Analysen in das Data Warehouse geladen werden, wo die relationalen Datenbanken ihre Stärken ausspielen. Die Ergebnisse von Hadoop-Transaktionen schließlich lassen sich sehr gut in einem Data Warehouse oder in Data Marts ablegen, wo sie einfach über eine Data-Warehouse-Plattform ausgewertet werden können, während die Rohdaten weiterhin bei Hadoop verbleiben. Zudem unterstützt Hadoop auch Werkzeuge fur einen performanten SQL-Zugriff. Der Artikel beschreibt, wie aus altem Data Warehouse-Konzept und modernen Technologien die „neue Realität“ entsteht und illustriert dies an verschiedenen Einsatzszenarien.
- ZeitschriftenartikelEfficient OR Hadoop: Why Not Both?(Datenbank-Spektrum: Vol. 13, No. 1, 2013) Dittrich, Jens; Richter, Stefan; Schuh, StefanIn this article, we give an overview of research related to Big Data processing in Hadoop going on at the Information Systems Group at Saarland University. We discuss how to make Hadoop efficient. We briefly survey three of our projects in this context: Hadoop++, Trojan Layouts, and HAIL.
- ZeitschriftenartikelEmpirische Ergebnisse zu Big Data(HMD Praxis der Wirtschaftsinformatik: Vol. 51, No. 4, 2014) Gluchowski, PeterDer vorliegende Beitrag nähert sich dem Themenkreis Big Data auf der Basis unterschiedlicher empirischer Untersuchungen, die das Ziel verfolgen, das Themenfeld weiter auszuleuchten. Entsprechende Umfrageergebnisse liegen inzwischen in großer Vielfalt vor, was sicherlich durch dem immer noch existierenden Aufklärungsbedarf geschuldet ist, und wurden vor allem von Analysten und Produktherstellern publiziert. Die vorliegende Untersuchung konzentriert sich auf unterschiedliche unabhängige Studien zum Thema Big Data und hebt zentrale gleichartige sowie abweichende Ergebnisse in kondensierter Form hervor.
- ZeitschriftenartikelIterative Computation of Connected Graph Components with MapReduce(Datenbank-Spektrum: Vol. 14, No. 2, 2014) Kolb, Lars; Sehili, Ziad; Rahm, ErhardThe use of the MapReduce framework for iterative graph algorithms is challenging. To achieve high performance it is critical to limit the amount of intermediate results as well as the number of necessary iterations. We address these issues for the important problem of finding connected components in large graphs. We analyze an existing MapReduce algorithm, CC-MR, and present techniques to improve its performance including a memory-based connection of subgraphs in the map phase. Our evaluation with several large graph datasets shows that the improvements can substantially reduce the amount of generated data by up to a factor of 8.8 and runtime by up to factor of 3.5.
- KonferenzbeitragKnowledge Graph Processing Made (more) Simple(40 Years EMISA 2019, 2020) Lausen, GeorgKnowledge graphs based on RDF and SPARQL are gaining popularity for integrated semantic representation of structured and unstructured data. As knowledge graphs in practical applications tend to become huge, distributed processing using Apache Spark SQL and Hadoop on top of a compute cluster is attractive. For the corresponding relational representation of a knowledge graph, a simple relational design using only one single table is proposed. Consequently no time consuming relational design considerations are required and newly discovered RDF data can be integrated with nearly no extra additional relational design effort.
- ZeitschriftenartikelParallel Entity Resolution with Dedoop(Datenbank-Spektrum: Vol. 13, No. 1, 2013) Kolb, Lars; Rahm, ErhardWe provide an overview of Dedoop (Deduplication with Hadoop), a new tool for parallel entity resolution (ER) on cloud infrastructures. Dedoop supports a browser-based specification of complex ER strategies and provides a large library of blocking and matching approaches. To simplify the configuration of ER strategies with several similarity metrics, training-based machine learning approaches can be employed with Dedoop. Specified ER strategies are automatically translated into MapReduce jobs for parallel execution on different Hadoop clusters. For improved performance, Dedoop supports redundancy-free multi-pass blocking as well as advanced load balancing approaches. To illustrate the usefulness of Dedoop, we present the results of a comparative evaluation of different ER strategies on a challenging real-world dataset.
- ZeitschriftenartikelSocial Media Monitoring mit Big Data Technologien(HMD Praxis der Wirtschaftsinformatik: Vol. 51, No. 4, 2014) König, Gerd; Gügi, ChristianDer Artikel beschreibt, wie mit Hilfe der Big Data Technologien Hadoop, HBase und Solr eine skalierbare Architektur zur Online Medienüberwachung definiert und realisiert wird. Ausgangspunkt ist das bereits vorhandene Medienüberwachungstool eines Kunden. Dessen Analyse und dabei entdeckte Schwachstellen führen zu einem Re-Design des kompletten Systems. Sowohl dieser Design-, als auch der darauf folgende Entwicklungsprozess werden durchgängig erläutert. Das Hadoop Framework, das den Kern der Lösung bildet, wird zusammen mit weiteren Werkzeugen aus dem Hadoop Ökosystem vorgestellt und die Implementierungen zur Erfüllung der einzelnen Teilanforderungen werden detailliert aufgezeigt. Die Systemarchitektur, technologische Innovationen, sowie die wichtigsten Softwareprodukte werden genannt. Das abschliessende Kapitel beschreibt die aus diesen Prozessen gewonnenen Learnings.