Auflistung nach Autor:in "Vary, Peter"
1 - 3 von 3
Treffer pro Seite
Sortieroptionen
- KonferenzbeitragArtificial bandwidth extension of wideband speech by pitch-scaling of higher frequencies(INFORMATIK 2013 – Informatik angepasst an Mensch, Organisation und Umwelt, 2013) Geiser, Bernd; Vary, PeterIn this paper, a simple DFT-domain pitch-scaling technique is used to extend the audio bandwidth of wideband speech (50 Hz - 7 kHz) to the super-wideband range (50 Hz - 12 kHz). Therefore, the higher frequencies of the wideband signal (6 - 7 kHz) are pitch-scaled with a scaling factor of four and the resulting, scaled signal is inserted into the 8 - 12 kHz band. A subjective listening test has been conducted wherein it could be shown that the new proposal clearly outperforms a previous method for artificial bandwidth extension which is based on statistical estimation techniques.
- KonferenzbeitragAudiosignalverarbeitung für Videokonferenzsysteme(INFORMATIK 2013 – Informatik angepasst an Mensch, Organisation und Umwelt, 2013) Schlien, Thomas; Heese, Florian; Schäfer, Magnus; Antweiler, Christiane; Vary, PeterDurch stetig steigende Datenraten sowohl mobiler als auch leitungsgebundener Internetzugänge haben sich die Rahmenbedingungen für Videokonferenzsysteme deutlich verbessert. Auf dieser Grundlage hat es sich das öffentlich geförderte Gemeinschaftsprojekt1 “Connected Visual Reality (CoVR) – Hochqualitative visuelle Kommunikation in heterogenen Netzwerken” zur Aufgabe gemacht, die Medienqualität durch die Integration neuartiger Algorithmen der Videound Audiosignalverarbeitung und -übertragung entscheidend zu verbessern. Zwei Teilaspekte des Systems aus dem Bereich der Audiosignalverarbeitung werden in diesem Beitrag vorgestellt: die künstliche Bandbreitenerweiterung und die Bestimmung der akustischen Sprecheraktivität. Bei der Bandbreitenerweiterung werden Sprecheradaption sowie die Extraktion von aussagekräftigen Signalmerkmalen in gestörter Umgebung behandelt. Die Bestimmung der Sprecheraktivität erfolgt mit einem neuartigen numerisch optimierten Beamforming-Algorithmus, dessen überlegene Leistungsfähigkeit im Vergleich mit dem MVDR-Beamformer durch ein Simulationsbeispiel illustriert wird. Mit diesen Audiosignalverarbeitungsverfahren ergeben sich neue Möglichkeiten für die Anwendung von Videokonferenzsystemen in unterschiedlichen Umgebungen sowie eine deutliche Verbesserung der wahrgenommenen Kommunikationsqualität, die durch ein entsprechendes Echtzeit-Demonstrationssystem erlebbar gemacht wird.
- KonferenzbeitragHD-Voice-3D: Herausforderungen und Lösungen bei der Audiosignalverarbeitung(INFORMATIK 2013 – Informatik angepasst an Mensch, Organisation und Umwelt, 2013) Rüngeler, Matthias; Krüger, Hauke; Behler, Gottfried; Vary, PeterDer Übergang von Schmalband-Sprache zu Breitband-Sprache mit höherer Qualität - auch bezeichnet als HD-Voice - in öffentlichen Telefonnetzen war und ist (immer noch) ein steiniger Weg: Telekommunikationsanbieter fürchten zusätzliche Investitionsund Betriebskosten durch Einführung neuer Technologien mehr, als dass sie einen Vorteil in höherer Kommunikationsqualität im Kundensinne und damit Kundenzufriedenheit suchen. Erst die Einführung von neuartigen Voice-over-Internet-Protocol (VoIP) Anwendun- gen im Zuge der weiten Verbreitung hochratiger Internetanschlüsse, in denen fast ausschliesslich HD-Voice-Technologie zum Einsatz kommt, scheint hier gerade einen Durchbruch zu schaffen, der zu einem Umdenken führt. Aber was kommt nach HD-Voice? Wir denken, dass es HD-Voice-3D ist - auch bezeichnet als Binaurale Telefonie -, die den nächsten evolutionären Schritt darstellen wird. Dabei werden durch die Übertragung von Binauralsignalen anstatt monauraler Signale nicht nur die Inhalte von Sprache an sich, sondern auch die Atmosphäre und die akustische Umgebung realitätsnah vom einen zum anderen Ende transportiert. Das Resultat ist das Gefühl, mit den Ohren des Kommunikationspartners zu hören - so als wäre man wirklich vor Ort. Der Vorteil bei HD-Voice-3D gegenüber einer Ste- reoübertragung liegt darin, dass nicht nur die Unterscheidung zwischen Signalen von links und rechts, sondern auch von oben, unten, hinten und vorne ermöglicht wird. Der Grund liegt in der binauralen Aufnahmetechnik, die durch Abschattungs-, Beugungs- und andere Filtereffekte an Korpus, Kopf und Ohren eine natürliche räumliche Klangwahrnehmung erreicht. In Bezug auf die Sprach/Audiosignalverarbeitung muss bei der Binauralen Telefonie jedoch im Vergleich zur Signalverarbeitung bei der monauralen Telefonie einiges beachtet werden, um die sogenannten „Binauralen Cues“, also bestimmte Eigenschaf- ten des binauralen Audiosignals die zu einem realistischen räumlichen Eindruck bei der Perzeption der übertragenen Signale führen, nicht zu zerstören. In diesem Paper werden typische Funktionalitäten eines binauralen VoIP-Terminals vorgestellt, ihre Auswirkung auf Binauralsignale diskutiert und erste Lösungsansätze präsentiert. Weiter wird die Thematik mittels eines Echzeit-Demonstrators vertieft, der auf dem WASP-Event „HD-Voice-3D zum Anfassen“ vorgestellt werden soll.