Workshop INF-DH - 2018
GI-Workshop: "Im Spannungsfeld zwischen Tool-Building und Forschung auf Augenhöhe – Informatik und die Digital Humanities" (25.9.2018, Berlin)
Auflistung Workshop INF-DH - 2018 nach Erscheinungsdatum
1 - 10 von 17
Treffer pro Seite
Sortieroptionen
- WorkshopbeitragHandwritten Text Recognition Error Rate Reduction in Historical Documents using Naive Transcribers(INF-DH-2018, 2018) Christlein, Vincent; Nicolaou, Anguelos; Schlauwitz, Thorsten; Späth, Sabrina; Herbers, Klaus; Maier, AndreasHandwritten text recognition (HTR) is a difficult research problem. In particular for historical documents, this task is hard as handwriting style, orthography, and text quality pose significant challenges. Creation of a single multi-purpose HTR system seems to be out of reach for current state-of-the-art systems. Therefore, we are interested in fast creation of specialized HTR systems for a particular set of historical documents. Still manual annotation by historical experts is expensive and can often not be applied at a large scale. Instead, we use the transcripts of naive transcribers that may still contain a significant amount of errors. In this paper, we propose to fuse the recognized word-chain with naive transcribers that can be obtained in a cost-effective way. For the actual fusion, we rely on a word-level approach, the so-called Recognizer Output Voting Error Reduction (ROVER). Results indicate that we are able to reduce the Word Error Rate (WER) of an HTR system trained with only few pages from 2.6 % to 19.2% with two additional transcribers with 25.1% and 27.1% WER each. This performance is already close to current state-of-the-art systems trained with significantly more data.
- WorkshopbeitragCorpus2Wiki: A MediaWiki based Annotation & Visualisation Tool for the Digital Humanities(INF-DH-2018, 2018) Rutherford, Eleanor; Hemati, Wahed; Mehler, AlexanderIn this paper, we present WikiExporter, a tool which automatically creates a MediaWiki site for a given corpus of texts. The texts, along with automatically generated annotations and visualisations associated with them, are displayed on this MediaWiki site, locally hosted on the users’ own machine. Several different software components are used to this end - Docker for ease and consistency of deployment, MediaWiki for the core engine, TextImager Client for the generation of annotations and a number of existing, and as well as extended, MediaWiki extensions for the visualisations. This tool was specifically designed for use within the interdisciplinary field of the Digital Humanities, as it provides a visual analysis and representation of texts via a tool which require no programming or advanced computational knowledge and uses an interface already well-known within the Digital Humanities Community, namely MediaWiki.
- WorkshopbeitragTowards Scientific Workflows and Computer Simulation as a Method in Digital Humanities(INF-DH-2018, 2018) Lebherz, Daniel S.; Zeyen, Christian; Hess, Jan; Bergmann, Ralph; Timm, Ingo J.; Burch, Thomas; Hildenbrandt, Vera; Moulin, ClaudineThis paper presents ongoing work on investigating text mining by scientific workflows and hypotheses testing by computer simulation as new digital methods in the digital humanities and particularly in the literary studies. In the course of the eXplore! project, the methods are developed for analyzing autobiographic texts and particularly for investigating the diaries of Klaus Mann, a famous German writer, with regards to the influences on the writer’s literary productivity. Text mining is used to build up a data basis for an agent-based model that can be used in simulation studies to answer what-if-questions about a writer’s creative writing processes. A further focus is put on the reusability of these methods to facilitate an application beyond the project’s pilot study. For this purpose, we model and apply scientific workflows, populate a repository of proven workflows, and investigate an approach to reuse assistance by case-based reasoning.
- WorkshopbeitragFrom Eye-to-Eye to Hand-in-Hand: Collaborative Solution Building in Interdisciplinary Manuscript Research(INF-DH-2018, 2018) Rajan, Vinodh; Stiehl, H. SiegfriedAmong the various interdisciplinary domains, Digital Humanities is one of the most interesting as it attempts to bring two competing cultures together. But this interestingness eventually comes with its own problems when trying to produce practical solutions. How does one ideally approach to build an Informatics-based solution for a research question in the Humanities? We particularly focus on the field of Interdisciplinary Manuscript Research and propose a methodology inspired by design thinking to collaboratively build solutions through interactive exploration. To this end, we present our laboratory, where this methodology is to be actively put into practice.
- WorkshopbeitragÜbersetzungsprobleme zwischen Kunstgeschichte und Computer Vision(INF-DH-2018, 2018) Heinicker, Paul; Kienbaum, JannaDas Mixed Method-Projekt mit dem Namen anci (analysing networked climate images) widmet sich dem Thema des Klimawandels und dessen visueller Kommunikation. Anhand so genannter Schlagbilder werden evidente Klimabilder, die das gegenwärtige Weltbild zum Klimawandel in ihrer Vielfalt zwischen Politik, Wissenschaft, Kunst und Populärkultur repräsentieren und beeinflussen, miteinander verglichen und mittels qualitativer und quantitativer Methoden auf Ähnlichkeiten hin untersucht.
- WorkshopbeitragHistorische Wetterdaten im Spannungsfeld von OCR und UCD(INF-DH-2018, 2018) Lehenmeier, Constantin; Burghardt, ManuelDieser Beitrag beschreibt informatische Herausforderungen im Kontext eines Digital Humanities-Projekts zur Erschließung und Analyse historischer Wetteraufzeichnungen im Zeitraum 1774 - 1827. Bei der Erschließung der handschriftlichen Aufzeichnungen, die Besonderheiten wie numerische Messwerte in Tabellenstruktur und überlagernde Notizen enthalten, soll langfristig ein entsprechend trainierter OCR-Ansatz (optical character recognition) zum Einsatz kommen. Für die Erstellung entsprechender Trainingsdaten sowie für die manuelle Korrektur der automatisch erkannten Daten ergeben sich zunächst softwareergonomische Herausforderungen aus Perspektive der Medieninformatik. Der Fokus dieses Beitrags liegt daher auf der Erstellung von Tools unter Berücksichtigung von Prinzipien des usability engineering und des user-centered design (UCD) speziell für geisteswissenschaftliche Forschungsvorhaben.
- WorkshopbeitragStadtgeschichtliche Forschung anhand räumlich- und zeitlich verorteter Photographien(INF-DH-2018, 2018) Niebling, Florian; Münster, Sander; Bruschke, Jonas; Maiwald, Ferdinand; Friedrichs, KristinaForschung in den Digital Humanities (DH) erfordert die Zusammenarbeit verschiedener Disziplinen aus Geistes- und Kultur-, Ingenieur- und Informationswissenschaften. Die Fragestellungen die sich dabei aus geisteswissenschaftlicher Perspektive stellen, werfen dabei auch neue Forschungsfragen gerade für die eher angewandten Teilgebiete der Informatik auf. Wir präsentieren Ergebnisse einer interdisziplinären Nachwuchsforschergruppe, die Medienrepositorien historischer Photographien, Zeichnungen und Plänen um räumlich-zeitliche Zugänge erweitert. Es werden Methoden entwickelt um historische Abbildungen von Gebäuden in ein räumliches und zeitliches Modell einzubringen und dieses für architekturwissenschaftliche Forschung zugänglich zu machen. Am Beispiel Dresdner Stadtgeschichte werden Forschungsfragen der Geschichtswissenschaften, Photogrammetrie, Bildungswissenschaften und verschiedenen Bereichen der Informatik bearbeitet.
- WorkshopbeitragIterative Bearbeitung von Forschungsfragen(INF-DH-2018, 2018) Freybe, Konstantin; Hoffman, Tracym Rückgriff auf Erfahrungen aus der Forschungspraxis unseres Teams stellen wir den Aushandlungscharakter interdisziplinärer Zusammenarbeit heraus. Deshalb schenken wir der Kommunikationsstruktur im Projekt besondere Aufmerksamkeit, denn die Zirkulation von Wissen im Team und das Erarbeiten eines wechselseitigen Verständnisses unter den Forschenden hängen stark davon ab. Damit wird das Gewicht von Forschungsergebnissen auf die Prozesse verlagert.
- WorkshopbeitragGenerierung von Trainingsdaten für die Handschrifterkennung aus TEI annotierten Dokumenten – Ein Erfahrungsbericht aus dem EU-Projekt READ(INF-DH-2018, 2018) Bryan, Maximilian; Hodel, Tobias; Philipp, NathanaelZum Trainieren maschineller Lernverfahren zur Erkennung von Handschriften werden Textdaten mit korrespondierenden Bildern benötigt. Die Textdaten liegen häufig im TEI-Format das diverse Möglichkeiten eröffnet, um textuelle und semantische Phänomene auszuzeichnen, weiter können gar eigene Tags oder Auszeichnungsarten eingeführt werden. In diesem Beitrag wird ein im EU-Projekt READ entwickeltes parametrisierbares Tool beschrieben, das mit unterschiedlichen Auszeichnungsstilen in TEI umgehen kann und Textdateien auf Seitenbasis liefert, die zur Zuordnung von Text zu Bilddaten (text-to-image) genutzt werden können und somit zur Aufbereitung von Trainingsdaten für Modelle der Handschriftenerkennung dienen. Die gezeigten Beispiele und Anwendungen stammen alle aus Projekten, die ihre Daten für READ zur Verfügung stellten.
- WorkshopbeitragAnalysis and Classification of Prosodic Styles in Post-modern Spoken Poetry(INF-DH-2018, 2018) Meyer-Sickendiek, Burkhard; Hussein, Hussein; Baumann, TimoWe present our research on computer-supported analysis of prosodic styles in post-modern poetry. Our project is unique in making use of both the written as well as the spoken form of the poem as read by the original author. In particular, we use speech and natural language processing technology to align speech and text and to perform textual analyses. We then explore, based on literary theory, the quantitative value of various types of features in dierentiating various prosodic classes of post-modern poetry using machine-learning techniques. We contrast this feature-driven approach with a theoretically less informed neural networks-based approach and explore the relative strengths of both models, as well as how to integrate higher-level knowledge into the NN. In this paper, we give an overview of our project, our approach, and particularly focus on the challenges encountered and lessons learned in our interdisciplinary endeavour. The classification results of the rhythmical patterns (six classes) using NN-based approaches are better than by feature-based approaches.