Die Hochschule Düsseldorf unterstützt ihre Forscher*innen bereits seit vielen Jahren neben einer intensiven Beratung zum Zugang zu nationalen wie internationalen Förderprogrammen darüber hinaus auch mit internen Fördermitteln – der Hochschulinternen Forschungsförderung (HiFF). Diese stellt Mittel bereit, um interne Forschungsprojekte über einen Zeitraum von bis zu anderthalb Jahren zu fördern. Für den Förderzeitraum 2024/2025 wurden sechs innovative Projekte aus verschiedenen Fachbereichen ausgewählt (siehe auch hier), die wir in unregelmäßigen Abständen in den kommenden Wochen vorstellen.
Prof. Dr. Jochen Steffens berichtet über das Projekt "Speech Adaptation in Regional and Mainstream Dialect ASR Systems“.
Können Sie uns kurz erklären, worum es in Ihrem Projekt genau geht?
In diesem Projekt soll untersucht werden, wie Nutzer*innen ihre Sprache anpassen, wenn sie mit verschiedenen Arten von automatischen Spracherkennungssystemen (ASR-Systemen) interagieren. Konkret werden Benutzerinteraktionen mit zwei verschiedenen ASR-Konfigurationen verglichen: ein System, das in einem Mainstream-Dialekt spricht, und ein System, das mit einem regionalen Dialekt spricht. Unser Hauptinteresse gilt der Bestimmung der Anpassungsstrategien der Benutzer*innen in Abhängigkeit von der Versuchsbedingung. Wir wollen herausfinden, ob regionale sprachliche Merkmale in Abhängigkeit von der Ausgabe des Systems und den wahrgenommenen Fähigkeiten beibehalten oder aufgegeben werden.
Wie ist Ihre Herangehensweise an die verschiedenen Arbeitspakete?
In der Studie wird ein sogenanntes Wizard-of-Oz-Setup verwendet, um die Interaktion mit Mainstream- und regionaler ASR zu simulieren. Wizard-of-Oz (WoZ) ist eine Methode, die in der Mensch-Computer-Interaktionsforschung verwendet wird, um ein vollständig funktionierendes System zu simulieren. Experimentatoren oder „Assistenten“ steuern manuell die Reaktionen des Systems auf die Eingaben des Benutzers und lassen es so erscheinen, als ob das System autonom arbeitet. Da es kein aktives dialektsensitives ASR-System auf dem Markt gibt, ist dieser Ansatz für die Beantwortung der Forschungsfragen unerlässlich.
Die Daten werden von englischsprachigen Erwachsenen erhoben und konzentrieren sich auf deren Anpassungsstrategien. Detaillierte qualitative und quantitative Analysen werden durchgeführt, um die Auswirkungen der verschiedenen ASR-Konfigurationen auf die Sprachmuster zu verstehen und das experimentelle Design zu überprüfen. Aufgrund der Vielfalt der englischen Dialekte haben marginalisierte Sprachgemeinschaften oft einen ungleichen Zugang zu ASR. Diese Studie konzentriert sich speziell auf diese Ungleichheiten, indem sie einen Mainstream- und einen regionalen Akzent in Großbritannien untersucht.
Es wird zwei Versuchsbedingungen geben:
Gruppe 1 | ASR-System mit einem neutralen Mainstream-Akzent (Standard Southern British English)
Gruppe 2 | ASR-System mit einem regionalen Akzent (Newcastle English)
Um die Interaktionen mit den ASR-Systemen so natürlich wie möglich zu gestalten, werden die Teilnehmer*innen gebeten, Anfragen zu stellen oder dem System Fragen zu stellen, die auf vorher vorbereiteten Eingabeaufforderungen basieren. Auf diese Weise können wir den allgemeinen Gesprächsfluss kontrollieren und die Antworten des Systems steuern (indem wir unsere zuvor aufgezeichneten Antworten abspielen), ohne dass die Teilnehmer etwas von der Simulation mitbekommen. Die Aufforderungen zielen darauf ab, bestimmte sprachliche Merkmale hervorzurufen, die sich durch regionale Salienz auszeichnen (z. B. Beibehaltung von [h]: „Bitte fragen Sie das ASR-System, ob es Ihnen helfen kann, ein Geschäft zu finden, das Hüte verkauft.“; Realisierungen von [l]: „Bitte fragen Sie das ASR-System, wann der nächste Zug nach Liverpool fährt."). Diese Merkmale werden im Rahmen unseres größeren Projekts von Interesse sein, weshalb es wichtig ist, zu testen, ob diese Aufforderungen bei den Teilnehmer*innen erwünschte Antworten hervorrufen. Darüber hinaus wollen wir untersuchen, ob die Teilnehmer*innen ihre Sprache je nach der wahrgenommenen Formalität der Situation bewusst ändern. Vier Aufforderungskarten sollen längere Interaktionen mit ASR in Kontexten wie medizinischer Notfall, Rechtsberatung, Vorschläge für Urlaubsziele und Hilfe bei der Vorbereitung auf ein Vorstellungsgespräch hervorrufen. Ziel ist es, Erkenntnisse darüber zu gewinnen, wie sich der situative Kontext auf die Kommunikationsstrategien der Teilnehmer*innen mit ASR auswirkt.
Was war der Ausschlag für gerade dieses konkrete Forschungs- / Interessensgebiet?
Vorherige Kooperation und Forschungsartikel mit der Heinrich-Heine-Universität (Prof. Kevin Tang, kennengelernt bei der Nacht der Wissenschaften 2022) zur Semantik des Stimmklangs, konkret „Wie klingt Ironie und wie klingt Glaubwürdigkeit?“
Mit welchen Forschungspartnern arbeiten Sie in dem Projekt zusammen und wie gestaltet sich die Zusammenarbeit konkret?
Leitung: Prof. Dr. Jochen Steffens, HSD, ISAVE
Prof. Dr. Kevin Tang, HHU (https://www.anglistik3.hhu.de/team/detailseite-tang)
Dana Serditova, Albert-Ludwigs-Universität Freiburg, Postdoc (https://www.anglistik.uni-freiburg.de/department/faculty-staff/Serditova)
Durchführung: v.a. zwei SHKs von HSD (Technik, Vincent Reichmann, Bachelor Medientechnik) und HHU (Linguistik, NN)
In welchen Bereichen hätte das Ergebnis besonderen praktischen Nutzen?
Inklusive Weiterentwicklung von Sprachassistenzsystemen in allen Bereichen des Lebens
Gibt es Anknüpfungspunkte an benachbarte Forschungs- oder Entwicklungsfelder?
Linguistik, Erforschung zwischenmenschlicher Interaktion (Anpassungsstrategien)
Entwicklung empathischer KI-gesteuerter Sprachsysteme