Workshopbeitrag
Konzeption und Erprobung eines Webcrawlers zur Erstellung hierarchischer Indizes
Lade...
Volltext URI
Dokumententyp
Text/Workshop Paper
Dateien
Zusatzinformation
Datum
2019
Autor:innen
Zeitschriftentitel
ISSN der Zeitschrift
Bandtitel
Verlag
Gesellschaft für Informatik e.V.
Zusammenfassung
Das Durchsuchen von Webseiten, wie es u.A. von modernen Topical Crawlers betrieben wird, ist technisch äußerst aufwändig, da der Fokus auf Extraktion und Korrelation sämtlicher Informationen einer Webseite liegt. Für die Markierung und computergestützte Erklärung komplexer Ausdrücke in Texten müssen diese zuvor identifiziert und indiziert werden. Um eine Webseite auf Basis eines bestehenden Grundindex zu durchsuchen und einen für die Einzelseite spezifischen Subindex zu erstellen, muss ein alternatives Konzept des Crawlings verfolgt werden, um dieses Verfahren effizient und zielgerichtet nutzen zu können. Anschließend wird die Implementierung des Crawlers skizziert und Testläufe an verschiedenartigen Webseiten getestet. Abschließend wird das erstellte Programm im Vergleich zu Topical Crawlers und der potentiellen Einsetzbarkeit im angedachten Einsatzzweck betrachtet.