Textdokument
Pipelines für effiziente und robuste Ad-hoc-Textanalyse
Lade...
Volltext URI
Dokumententyp
Dateien
Zusatzinformation
Datum
2015
Autor:innen
Zeitschriftentitel
ISSN der Zeitschrift
Bandtitel
Verlag
Gesellschaft für Informatik
Zusammenfassung
Suchmaschinen und Big-Data-Analytics-Anwendungen zielen darauf ab, ad-hoc relevante Informationen zu Anfragen zu finden. Häufig müssen dafür große Mengen natürlichsprachiger Texte verarbeitet werden. Um nicht nur potentiell relevante Texte, sondern direkt relevante Informationen zu ermitteln, werden Texte zunehmend tiefer analysiert. Dafür können theoretisch komplexe Pipelines mit zahlreichen Analysealgorithmen eingesetzt werden. Aufgrund fehlender Effizienz und Robustheit sind die durchgeführten Textanalysen in der Praxis jedoch bislang auf einfache, manuell erstellte Pipelines für antizipierte Anfragen beschränkt. Der vorliegende Beitrag gibt einen Überblick über einen Ansatz zur automatischen Erstellung von Pipelines für beliebige Textanalysen. Die resultierenden Pipelines sind effizienzoptimiert und arbeiten robust auf heterogenen Texten. Der Ansatz kombiniert zu diesem Zweck neuartige Verfahren, die auf Techniken der klassischen künstlichen Intelligenz und des maschinellen Lernens basieren. Formale Untersuchungen wie auch zahlreiche empirische Experimente belegen, dass der Ansatz einen wichtigen Schritt hin zum Ad-hoc-Einsatz von Textanalyse-Pipelines in Suchmaschinen und Big-Data-Analytics-Anwendungen darstellt.