Logo des Repositoriums
 
Workshopbeitrag

Konzeption und Erprobung eines Webcrawlers zur Erstellung hierarchischer Indizes

Lade...
Vorschaubild

Volltext URI

Dokumententyp

Text/Workshop Paper

Zusatzinformation

Datum

2019

Zeitschriftentitel

ISSN der Zeitschrift

Bandtitel

Verlag

Gesellschaft für Informatik e.V.

Zusammenfassung

Das Durchsuchen von Webseiten, wie es u.A. von modernen Topical Crawlers betrieben wird, ist technisch äußerst aufwändig, da der Fokus auf Extraktion und Korrelation sämtlicher Informationen einer Webseite liegt. Für die Markierung und computergestützte Erklärung komplexer Ausdrücke in Texten müssen diese zuvor identifiziert und indiziert werden. Um eine Webseite auf Basis eines bestehenden Grundindex zu durchsuchen und einen für die Einzelseite spezifischen Subindex zu erstellen, muss ein alternatives Konzept des Crawlings verfolgt werden, um dieses Verfahren effizient und zielgerichtet nutzen zu können. Anschließend wird die Implementierung des Crawlers skizziert und Testläufe an verschiedenartigen Webseiten getestet. Abschließend wird das erstellte Programm im Vergleich zu Topical Crawlers und der potentiellen Einsetzbarkeit im angedachten Einsatzzweck betrachtet.

Beschreibung

Haimerl, Mathias (2019): Konzeption und Erprobung eines Webcrawlers zur Erstellung hierarchischer Indizes. Mensch und Computer 2019 - Workshopband. DOI: 10.18420/muc2019-ws-550. Bonn: Gesellschaft für Informatik e.V.. MCI-WS01: Teilhabe an der allgegenwärtigen Kommunikation. Hamburg. 8.-11. September 2019

Zitierform

Tags