Wettbewerbe und Preise

DI Dietmar Schabus mit seiner Urkunde

Der diesjährige OCG Förderpreisträger DI Dietmar Schabus

Am 7. Juli 2010 wurde im Rahmen des Dinner-Empfangs der International Conference on Web Engineering, die zu dieser Zeit an der TU Wien stattfand, der diesjährige OCG Förderpreisträger ausgezeichnet. Den Preis gewann DI Dietmar Schabus mit seiner Diplomarbeit Interpolation of Austrian German and Viennese Dialect/ Sociolect in HMM-based Speech Synthesis, die er an der TU Wien verfasste.

Die Arbeit

Das gängigste Verfahren zur maschinellen Erzeugung von gesprochener Sprache funktioniert nach dem Prinzip der Verkettung: Eine Sammlung von Äußerungen eines menschlichen Sprechers wird aufgenommen und vom Computer in kurze Segmente geteilt. Das so entstehende Inventar an Segmenten dient dann als „Baukasten“ für beliebige neue Äußerungen, die aus den Segmenten zusammengesetzt werden können. Was die Sprachsignalqualität angeht, sind solche Systeme bisher allen anderen Verfahren überlegen. Andererseits beinhaltet ein menschliches „Sprachsignal“ mehr als die reine textuelle Information: Wenn wir sprechen, kommunizieren wir auch Dinge wie unsere emotionale und gesundheitliche Verfassung, unsere Haltung dem Zuhörer gegenüber, unsere regionale und soziale Zugehörigkeit usw. Zur Umsetzung einer Diversifizierung in diesen Bereichen mangelt es dem Verkettungsansatz an Flexibilität. Der in dieser Diplomarbeit verfolgte parametrische Ansatz hingegen bietet diese Flexibilität. Das Sprachsignal kommt hier durch ein Analyse-Resynthese- Verfahren zustande: Mittels   Techniken der Signalverarbeitung werden aus aufgenommener Sprache bestimmte Parameter errechnet (Analyse). Die Zuordnung von den vorkommenden Lauten (und deren Kontext) zu den dazugehörigen Parametern wird dann mit Hidden-Markov-Modellen (HMMs) modelliert – plakativ gesagt: Das Computerprogramm lernt, welche Parameter für einen Laut passend sind, indem es sich (sehr viele)  Beispiele anschaut. Soll nun eine beliebige neue Äußerung erzeugt werden, können die HMMs die entsprechenden Parameter liefern, aus welchen dann durch eine Art Umkehrung der Analyse wieder ein Sprachsignal errechnet werden kann (Resynthese). Dadurch wird unter anderem die Möglichkeit geschaffen, die Parameter bzw. die Parametermodelle zu modifizieren. So kann zum Beispiel Sprecheradaptierung und -interpolation realisiert werden, um verschiedene Sprechercharakteristika, Sprechstile usw. graduell zu verändern, also das Computerprogramm in einer Weise sprechen zu lassen, die so in den ursprünglichenSprachaufnahmen nicht vorhanden ist. Die in dieser Arbeit umgesetzte Interpolation zwischen österreichischem Hochdeutsch und Wiener Dialekt brachte einige neue Herausforderungen mit sich, die auf den Unterschieden in der segmentalen Struktur zwischen diesen beiden Varianten des Deutschen beruhen – Wienerisch ist von Hochdeutsch „weiter entfernt“ als etwa britisches von amerikanischem Englisch. Die entsprechenden Probleme konnten gelöst werden, und eine Studie mit 40 Testhörern hat gezeigt, dass auch tatsächlich eine graduelle Veränderung der Variante wahrgenommen wird. Diese Diplomarbeit entstand an der Fakultät für Informatik der Technischen Universität Wien, in enger Zusammenarbeit mit dem Forschungszentrum Telekommunikation Wien (FTW).

Kontakt:
Elisabeth Maier-Gabriel
Tel.: +43 1 512 02 35-18
gabriel@ocg.at

Page 6 of 6« First...«23456