Speaker Separation and Tracking - ETH E-Collection

4 downloads 127 Views 176KB Size Report
Dr. Gerhard Tröster, examiner. Prof. ... ing social interactions, oral communication is an important, if not the ... oral communication as part of social interactions.
Diss. ETH No. 16237

Speaker Separation and Tracking

A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of Seiences

presented by Urs Anliker Dipl. El.-Ing. ETH born 3rd November 1974 citizen of Gondiswil BE

accepted on the recommendation of Prof. Dr. Ger hard Tröster, examiner Prof. Dr. Bernt Schiele, co-examiner

2005

Abstract This thesis deals with the development and evaluation of an online speaker separation and tracking system. The main objectives consist of the investigation of the algorithmic trade-offs involved in terms of speaker recognition accuracy and computational load as well as of the benefit of cooperative systems. Today, social interaction analysis is conducted manually by observers, by interviews or is restricted to specially equipped rooms. During social interactions, oral communication is an important, if not the most important communication modality. For example, speech is the main communication modality during discussions, meetings and conferences. In this thesis, a tool is developed which automatically annotated oral communication as part of social interactions. The system design is induced by the vision of a tool which helps to annotate oral communication anytime and anywhere. Therefore, novel design constrains for a speaker separation and tracking (SSaT) system are considered. These constraints imposed by the mobile application are limited number of sensors and mounting positions, limited computation power, dynamic environment and simultaneous speech. To address these constraints, a two-step approach is proposed which combines blind source separation and speaker tracking. The first step estimates speaker locations and separates overlapping speech segments. The speaker location is employed to cluster the audio data to obtain longer speech utterances. The speech utterances are then split into speaker segments. For each speaker segment the speaker identity is determined. To evaluate different configurations, a benchmark methodology for two-step SSaT systems is introduced, which considers speaker recognition and computationalload. To estimate the speaker location and to separate the individual speakers during overlapping speech segments a blind source separation algorithm based on Degenerate Unmixing Estimation Technique (DUET) is employed. The algorithm estimates the time difference of arrival (TDOA) between two recording microphones for each speaker. Deduced from the SSaT blind source separation evaluation the microphone spacing is set to 10cm, the time frame duration to 64ms for a sampling frequency of 8kHz, 16kHz and 32kHz respectively 93ms for a sampling frequency of 22.05kHz and 44.1kHz, and the input band-

VI

pass filter to [500 3400]Hz. Additionally, we show that by reducing the employed signal bandwidth and weighting the signal spectrum the separation accuracy is improved compared to the standard DUET algorithm. The decision concerning sampling frequency and time frame overlap is postponed to the speaker tracking evaluation. This owes to the fact that the separation accuracy is independent of them. The speaker tracking step is split into three tasks. First, the audio stream is split into speech and non-speech segments. The speech segments are analyzed for speaker changes and split into speaker utterances during the second task. The third task identifies the speaker of the utterance. Deduced from the SSaT system evaluation and literature the decision is made to employ a sampling frequency of 16kHz, an overlap between time frames of 50% and a Gaussian Mixture Model of order 16. If several systems record the same oral communication, information between the systems can be shared. Location, classifier and speaker model sharing are evaluated in this thesis. The cooperation of three systems shows an increase in location precision by at least 35% compared to the same system without fusion, while location recall is reduced by up to 6%. Location or speaker fusion improve the speaker tracking false rate compared to the best stand-alone system, while system recall is only slightly reduced.

Zusammenfassung Die vorliegende Arbeit befasst sich mit dem Entwurf und der Evaluation eines onIine Sprecher Trennungs- und Verfolgungssystems. Die Hauptziele dieser Arbeit bestehen in der Untersuchung der Algorithmusabhängigkeit hinsichtlich Erkennungsrate und Rechenleistung. Ausserdem wurden die Vorteile von kooperativen Systemen untersucht. Bis zum jetzigen Zeitpunkt werden Untersuchungen von sozialen Interaktionen mittels Beobachter, Interviews oder innerhalb speziell ausgerüsteter Räume durchgeführt. Während sozialen Interaktionen ist die Sprache ein wichtiger Informationsträger. In dieser Arbeit wurde ein System entwickelt, welches automatisch die mündliche Kommunikation analysiert. Die Entwicklung des Systems wurde durch die Vision geleitet, dass die Analyse der mündlichen Kommunikation überall und jeder Zeit möglich ist. Auf Grund dieser Vision musste beachtet werden, dass eine limitierte Anzahl von Sensoren zur Verfügung steht, dass wenige Platzierungsmöglichkeiten der Sensoren bestehen, dass die Rechenleistung mobiler Systeme beschränkt ist, dass sich die Umgebung verändert und dass mehrere Personen gleichzeitig sprechen. Um diesen Randbedingungen gerecht zu werden, wurde ein Sprecher Trennungs- und Verfolgungs (SSaT) System vorgeschlagen, welches die Daten in zwei Berechnungsschritten verarbeitet. Der erste Schritt schätzt die Sprecherposition und trennt überlappende Gesprächsstücke. Die Sprecherposition wird benutzt um Gesprächsstücke zu längeren Segmenten zusammenzuführen. Die Gesprächssegmente werden im zweiten Schritt in Sprechersegmente aufgeteilt. Für jedes Sprechersegment wird die Identität des Sprechers bestimmt. Um verschiedene Konfigurationen zu beurteilen, wird eine Evaluationsmethode für ein Zwei-Schritt-System vorgestellt. Diese Methode berücksichtigt die Sprechererkennungsrate und die benötigte Rechenleistung. Um die Sprecherposition zu schätzen und die Sprachdaten auf die einzelnen Sprecher aufzuteilen, wenn Überlappungen zwischen mehreren Sprecher bestehen, wird ein Blinder-Quellen-Separierungsalgorithmus verwendet. Dieser Algorithmus arbeitet nach dem Prinzip der degenerierten Entmischungsschätz-Technik (DUET). Der Algorithmus schätzt den Zeitunterschied der Signalankunftszeit zwischen

Vll1

zwei Mikrophonen. Auf Grund der Evaluation der SSaT Quellenseparierung liegen die beiden Mikrophone 10cm auseinander, wird ein Eingangsbandpassfilter von [500 3400]Hz verwendet, und das Zeitfenster dauert 64ms bei einer Abtastrate von 8kHz, 16kHz und 32kHz beziehungsweise 93ms bei einer Abtastrate von 22.05kHz und 44.1kHz. Zusätzlich konnte gezeigt werden, dass durch die Reduktion der Signalbandbreite und einer Gewichtung des Spektrums im Vergleich zum Standard DUET Algorithmus eine Verbesserung der Separierungsqualität erreicht wurde. Die Entscheidung, welche Abtastfrequenz verwendet wird und wie stark die Zeitfenster überlappen, wird bis zur Evaluation des Sprecherverfolgungsschrittes verschoben. Die Sprecherverfolgung wird in drei Arbeitsschritte aufgeteilt. Der erste Schritt trennt die Audiodaten. Die Sprachsegmente werden im zweiten Schritt auf Sprecherwechsel untersucht und entsprechend in Sprechersegmente aufgeteilt. Der dritte Schritt identifiziert den Sprecher des Segmentes. Auf Grund der SSaT System Untersuchungen und Literaturquellen wurde eine Abtastfrequenz von 16kHz, eine Überlappung von 50% zwischen den Zeit fenstern und ein Gauss-Modell der Ordnung 16 gewählt. Wenn mehrere SSaT Systeme gleichzeitig eine mündliche Kommunikation aufzeichnen, können Informationen zwischen den Systemen ausgetauscht werden. Der Austausch der Sprecherposition, der Klassifizierungsresultate und der Sprechermodelle wurden untersucht. Die Untersuchungen zeigen, dass die Positionspräzision im Vergleich zum Einzelsystem um mindestens 35% er höht wird, zugleich ist die Rückrufqualität um bis zu 6% verschlechtert. Das Zusammenführen der Positionen oder der Sprecherklassifikationen der einzelnen Systemen verbessert die Sprecherverfolgungsfehlrate im Vergleich zum besten Einzelsystem, während die Trefferquote nur leicht verringert wird.