Auflistung nach Autor:in "Heinich, Stephan"
1 - 2 von 2
Treffer pro Seite
Sortieroptionen
- KonferenzbeitragSprechererkennungssystem auf Basis der Vektorquantisierung mit Störgeräuschfilterung(Workshop Audiovisuelle Medien WAM 2009, 2009) Heinich, StephanIn diesem Artikel beschreibe ich die bisherige Arbeit an einen Sprechererkennungssystem. Es wurde Wert auf eine Signalvorverarbeitung gelegt, die überflüssige Anteile aus dem Signal filtert. So werden Hintergrundrauschen und Musik sowie stimmlose Laute gefiltert. Das Sprechererkennungssystem benutzt eine auf dem Mel-Frequenzspektrum basierende Cepstralanalyse als Merkmalsextraktion. Als Erkenner wird die Vektorquantisierung herangezogen. Der SYSDATAAlgorithmus, basierend auf dem k-Means, trainiert den Datensatz. Es ist durch die Filterung möglich stimmhafte Laute von allen anderen zu trennen. Diese Tatsache macht das entstandene Sprechererkennungssystem sehr robust.
- KonferenzbeitragTextdetektion und -extraktion mit gewichteter DCT und mehrwertiger Bildzerlegung(Workshop Audiovisuelle Medien WAM 2009, 2009) Heinich, StephanIn diesem Artikel beschreibe ich die Arbeit an einer Textdetektion in Videos als Vorbereitung für die folgende Texterkennung. Ich benutze das Archiv der lokalen Fernsehsender als Grundlage. Der Inhalt kann meist als Nachrichtensendung kategorisiert werden. Als erstes werden mit einer einfachen aber schnellen Heuristik Textkandidaten selektiert. Die folgenden Schritte verarbeiten und bereiten den Kandidaten vor, damit er mit einer Standard-OCR-API (optical character recognition) verarbeitet werden kann. Der erste Teil der Textverarbeitung ist die Detektion. Dies geschieht zum einen mit einer gewichteten DCT und zum anderen mit einem Verfahren zur mehrwertigen Bildzerlegung. Anschließend werden die Bilder mit verschiedenen Schwellwertverfahren für eine Texterkennung vorbereitet. Im letzten Schritt verarbeitet eine freie OCR-API die aufbereiteten Frames.