Content Extraction: Bestimmung des Hauptinhaltes in HTML Dokumenten

Gottron, Thomas

Content Extraction: Bestimmung des Hauptinhaltes in HTML Dokumenten

dc.contributor.author	Gottron, Thomas
dc.contributor.editor	Hölldobler, Steffen
dc.date.accessioned	2020-08-21T08:42:06Z
dc.date.available	2020-08-21T08:42:06Z
dc.date.issued	2009
dc.description.abstract	Außer dem Artikel der den eigentlichen Hauptinhalt darstellt enthalten die meisten HTML Dokumente im WWW zusätzliche Inhalte, wie beispielsweise Navigationsmenüs, gestalterische Elemente oder Werbung. Für verschiedene Anwendungen ist es nötig die Unterscheidung zwischen Haupt- und zusätzlichen Inhalten automatisch vorzunehmen. Content Extraction und Template Detection sind Verfahren, die diese Aufgabe lösen. Während der Forschungsarbeit auf diesem Gebiet sind einige interessante Beiträge entstanden. Drei davon sollen hier kurz vorgestellt werden. Dazu gehört der neu eingeführte Content Code Blurring Algorithmus, derzeit der leistungsfähigste Ansatz zur Inhaltsextraktion. Der zweite Beitrag liegt in der Entwicklung objektiver Maße zur Bewertung der Leistung von Algorithmen zur Inhaltsextraktion. Dadurch ließen sich bestehende Verfahren erstmals überhaupt miteinander vergleichen. Eine Analyse verschiedener Methoden zur Gruppierung von Webdokumenten bezüglich der ihnen unterliegenden Templates stellt den dritten größeren Beitrag dieser Arbeit dar. In Kombination mit einer lokalen Websuche kann dieses Templateclustering für die automatische Erstellung von Trainingsdatensätzen zur Templateerkennung eingesetzt werden. Da das Verfahren vollautomatisch ablaufen kann, ermöglicht es im Prinzip Template Detection auf einzelne Dokumente anzuwenden. Damit lassen sich die Vorteile aus Content Extraction und Template Detection verknüpfen.	de
dc.identifier.isbn	978-3-88579-413-4
dc.identifier.pissn	1617-5468
dc.identifier.uri	https://dl.gi.de/handle/20.500.12116/33589
dc.language.iso	de
dc.publisher	Gesellschaft für Informatik
dc.relation.ispartof	Ausgezeichnete Informatikdissertationen 2008
dc.relation.ispartofseries	Lecture Notes in Informatics (LNI) - Dissertations, Volume D-9
dc.title	Content Extraction: Bestimmung des Hauptinhaltes in HTML Dokumenten	de
gi.citation.endPage	110
gi.citation.publisherPlace	Bonn
gi.citation.startPage	101

Dateien

Originalbündel

1 - 1 von 1

Name:: 101.pdf
Größe:: 171.43 KB
Format:: Adobe Portable Document Format

Herunterladen

Sammlungen

D09 (2010) - Ausgezeichnete Informatikdissertationen