Auflistung nach Autor:in "Theobald, Martin"
1 - 3 von 3
Treffer pro Seite
Sortieroptionen
- KonferenzbeitragBINGO! Ein thematisch fokussierender Crawler zur Generierung personalisierter Ontologien(Informatik bewegt: Informatik 2002 - 32. Jahrestagung der Gesellschaft für Informatik e.v. (GI), 2002) Theobald, Martin; Siersdorfer, Stefan; Sizov, SergejFokussierendes Crawling ist ein viel versprechender Ansatz zur Verbesserung der Ausbeute einer Expertensuche über einem spezifischen Themenbereich des Webs. Dieses Verfahren beinhaltet die automatische Klassifikation von Dokumenten in eine benutzerspezifische Hierarchie von Themen, die wir auch als Ontologie bezeichnen. Die Qualität der Trainingsdaten des Klassifikators ist der kritischste Punkt für die Effektivität eines fokussierenden Crawlers. Der BINGO!-Ansatz versucht die Grenzen einer Trainingsbasis mit nur wenigen intellektuell kategorisierten Dokumenten zu überwinden und in einer automatisierten Wachstumsphase selbständig eine breite Trainingsbasis durch die Identifikation themenspezifischer "Archetypen" zu generieren. Die anschließende Erntephase vervollständigt dann die Ontologie nach iterativem Neutrainieren des Klassifikators mit einer verbesserten Ausbeute und Präzision.
- KonferenzbeitragResolving temporal conflicts in inconsistent RDF knowledge bases(Datenbanksysteme für Business, Technologie und Web (BTW), 2011) Dylla, Maximilian; Sozio, Mauro; Theobald, MartinRecent trends in information extraction have allowed us to not only extract large semantic knowledge bases from structured or loosely structured Web sources, but to also extract additional annotations along with the RDF facts these knowledge bases contain. Among the most important types of annotations are spatial and temporal annotations. In particular the latter temporal annotations help us to reflect that a majority of facts is not static but highly ephemeral in the real world, i.e., facts are valid for only a limited amount of time, or multiple facts stand in temporal dependencies with each other. In this paper, we present a declarative reasoning framework to express and process temporal consistency constraints and queries via first-order logical predicates. We define a subclass of first-order constraints with temporal predicates for which the knowledge base is guaranteed to be satisfiable. Moreover, we devise efficient grounding and approximation algorithms for this class of first order constraints, which can be solved within our framework. Specifically, we reduce the problem of finding a consistent subset of time-annotated facts to a scheduling problem and give an approximation algorithm for it. Experiments over a large temporal knowledge base (T-YAGO) demonstrate the scalability and excellent approximation performance of our framework.
- KonferenzbeitragTopX – Efficient and Versatile Top-k Query Processing for Text, Semistructured, and Structured Data(Datenbanksysteme in Business, Technologie und Web (BTW 2007) – 12. Fachtagung des GI-Fachbereichs "Datenbanken und Informationssysteme" (DBIS), 2007) Theobald, Martin; Schenkel, Ralf; Weikum, GerhardThis paper presents a comprehensive overview of the TopX search engine, an extensive framework for unified indexing and querying large collections of unstructured, semistructured, and structured data. Residing at the very synapse of database (DB) engineering and information retrieval (IR), it integrates efficient scheduling algorithms for top-k-style ranked retrieval with powerful scoring models, as well as dynamic and self-throttling query expansion facilities.