Sprachassistenten und die Penny Challenge
Artikelübersicht
Es gab Aufregung darüber, dass ein Sprachassistent einer Zehnjährigen die Penny Challenge als Herausforderung vorgeschlagen hat. Etliche Menschen irritiert es aus mehreren Gründen. Dieser Situation und der Entstehung der Empörung gehe ich in diesem Artikel nach.
Zusammenfassung
Sprachassistenten sind gedacht um technologische Möglichkeiten zu präsentieren. Sie sollen Freude und Leichtigkeit in den Alltag bringen. Es geht über das Konzept der Sprachassistenten hinaus, ihnen ethische oder moralische Absichten unterstellen zu wollen. Weder Spracherkennung noch die Webcrawler differenzieren nach Bedeutung. Das ergibt eine Möglichkeit der Missverständnisse. Sind Sprachassistenten nicht kontextsensitiv oder fehlt der Kontext sind Missverständnisse auf semantischer Ebene nicht auflösbar, sondern erfordern Dialogmanagement.
Wozu sind Sprachassistenten gedacht?
Zu Beginn stelle ich folgende Fragen: Was ist das Konzept für Sprachassistenten? Sind Sprachassistenten gutartig? Sind es Systeme, die stets nur Gutes wollen und gleichzeitig Böses unterlässt und verhindert?
Die Gestaltung von Sprachassistenten ist zurzeit fast ausschließlich technisch getrieben. Die Fragen nach pädagogischen, ethnischen oder moralischen Aspekten wird zur Designzeit deshalb nicht gestellt. Das geht solange gut, wie Sprachassistenten oder Bilderkennung innerhalb einer fest umrissenen Anwendung bleiben. Eine Bilderkennung mit künstlicher Intelligenz beschleunigt im Rahmen der Klassifizierung von radiologischen Aufnahmen die Diagnostizierung. Wenn eine Bilderkennung massenweise die Gesichter an Bahnhöfen einliest und mit Fahndungslisten abgleicht, sind dieselben Algorithmen der Bilderkennung ethisch relevant, weil die Gesichter von unbedarften Menschen erfasst werden. Mit dem Übergang von Maschinen, Menschen und Ethik befasst sich ein Artikel von REGNERI(Regneri, Michaela, Dr.: Maschinen und Moral: Wie sieht Ethik in der KI aus?, abgerufen am 30.12.21).
Wie funktionieren heutige Sprachassistenten?
Hintergrund
Im Dezember 2021 ging eine Meldung viral. Eine Frau hatte mit ihrer Tochter eine Fitnesszeit eingelegt. Die Tochter wollte nun intensiver üben und fragte einen Sprachassistenten:
Tell me a challenge to do.
Here’s something I found on the web. According to […]: The challenge is simple. […]Übersetzung
Sag‘ mir eine Aufgabe zu machen.
Dies hier habe ich im Web gefunden. Nach […]: Die Aufgabe ist einfach. […]
Das Erkennungsprotokoll wurde auf Twitter von @klivdahl (Tell me a challenge to do by @klivdahl, abgerufen am 31.12.21) bereitgestellt und von etlichen Medien aufgenommen (Penny Challenge Alexa – t3n.de, abgerufen am 30.12.2021)
Die beschriebene Aufgabe geht unter Pubertierenden als Mutprobe durch. Gleichwohl ist es nichts, wobei ich meine Kinder erwischen würde und die Besorgnis der Mutter teile ich.
Wie funktioniert lexikalische Suche durch Sprachassistenten?
Die Äußerung "Tell me a challenge …" wird von Spracherkennern so klassifiziert:
- Tell me a: Aufforderungsbeginn
- challenge: Schlüsselwort
- to do: Aufforderungsabschluss
Mit dem Schlüsselwort beginnt nun eine lexikalische Suche einer Suchmaschine. Das ist so, als ob Personen challenge bei Google, Bing oder Yahoo eintragen. Der Sprachassistent findet diese Aufgabe challenge im Netz, weil sie schon länger auf sozialen Netzwerken kursieren und weil bereits Warnungen von Feuerwehren mit Verweisen auf die anderen Plattformen vorliegen. Dadurch bekommt challenge sehr viele Verweise und rückt so in den Ergebnislisten weiter nach oben.
Diese Art von Suche ist buchstabengetreue Suche (lexikalische Suche), weil die Buchstabenfolge als Ergebnis der Spracherkennung an eine Websuche weitergegeben wird. Dies hat das Labor der Speech & Phone GmbH schon in mehreren Tests beobachtet und wird in Kürze hier dokumentiert, wenn Sprachgrenzen dabei überschritten werden.
Wie gehen Sprachassistenten mit Ambiguität um?
Sprachassistenten haben nach unseren Beobachtungen derzeit nur sehr selten eine Vorstellung von Mehrdeutigkeit oder Ambiguität. Eine challenge hat mehrere wesentliche Bedeutungen. Es ist zum einen Aufgabe, aber auch Herausforderung.
Während der heranwachsende junge Mensch nach einer Aufgabe sucht, präsentiert der Sprachassistent eine Herausforderung. Das ist das gravierende Missverständnis. Ein anderes Missverständnis ist nicht auf sprachlicher Ebene zu lösen, sondern erst auf Dialogebene. Das wird später beschrieben.
Erkennen Sprachassistenten das Gegenüber?
Wenn deutlich wird, dass jemand anderes spricht, könnte die Antwort verweigert werden. Das wäre zumindest eine Möglichkeit, Missbrauch zu vermeiden oder Missverständnisse zu vermeiden. Im beschriebenen Ablauf spricht ein heranwachsender junger Mensch mit dem Sprachassistenten. Vermutlich ist diese junge Person nicht der Kontoinhaber. Sprachassistenten sollen aber Freude im Alltag bereiten. Deshalb ist nicht anzunehmen, dass Antwortverweigerung von Fremden eine Option ist.
Für Sprachassistenten ist die Spracherkennung wichtig. Ob die Erkennung auch Daten über Geschlecht, Alter, Bildungsstand usw. mitliefert, ist aus den vorliegenden Fakten nicht erkennbar. Anhand der Stimmhöhe sollte es möglich sein, zu erkennen, ob die registrierte Person interagiert oder eine andere Person.
Zum einen steht es gegen die Leichtigkeit der Bedienung, auf der anderen Seite werden Metainformationen zur Sprache nicht erhoben oder nicht ausgewertet. Das erlaubt nur den Schluss, dass Sprachassistenten ihr Gegenüber nicht kennen. Ihnen fehlt die Mehrbenutzerfähigkeit.
Haben Sprachassistenten ein Gewissen?
Weiter oben wurde beschrieben, wie die Suche funktioniert. Aus dem Schlüsselwort wird eine Websuche erzeugt und deren Ergebnis wird sprachlich präsentiert. Technologisch ist das faszinierend, und es funktioniert hervorragend, solange Menschen davor sitzen, die keine besondere Fürsorge benötigen oder deren Ergebnis eine persönliche oder gesellschaftliche Relevanz haben könnte.
Der Ablauf der Spracherkennung hakt an einer weiteren Stelle. Zwar kann aus der sprachlichen Äußerung die buchstabengetreue Bedeutung ermittelt werden (challenge), aber es wird nicht ermittelt, welches Konzept dahinter steht.
Vor der Präsentation der Ergebnisse der Websuche steht die Datensammlung. Gerade an dieser Phase der Websuche (crawling) findet keinerlei semantische Bewertung statt. Nur aus diesem Grund kann ein Webergebnis mit einer Herausforderung präsentiert werden, weil nach einer Aufgabe gesucht wurde. Der Webcrawler klassifiziert challenge in ein und derselben Klasse und macht keinen Unterschied zwischen den Bedeutungen der Buchstabenfolge.
Um entscheiden zu können, ob Sprachassistenten ein Gewissen haben, müssten sie zunächst einmal wissen, wovon gesprochen wird. Sie müssten wissen, welche Sprache genutzt wird, welche Bedeutung hinter einer Buchstabenfolge steht und sie müssten vom quantitativen Ansatz – weiter oben steht, was viele Verweise hat – zu einem qualitativen Ansatz der Ergebnisbewertung übergehen.
Es reicht weiter nicht aus, das erste Ergebnis einer Websuche sprachlich zu präsentieren. Bei einer sprachlichen Schnittstelle fehlt die Möglichkeit, die Suchergebnisse vorab zu klassifizieren, wie eine grafische Präsentation es anbieten würde. Das Konzept, einfach das erste Ergebnis zu präsentieren, ist eine Designlücke, die dadurch verstärkt wird, dass Angaben über die Bedeutung von Ergebnissen nicht vorhanden sind oder nicht ausgewertet werden.
Wie können Sprachassistenten Dialogstufen erkennen?
Ein anderer Aspekt zur Entstehung von Missverständnissen sind die unterschiedlichen Dialogebenen, in denen sich System und Nutzer befinden. Gesetzt den Fall, dass der Sprachassistent in der vorliegenden Situation schon bei der Auswahl von sportlichen Übungen einbezogen war, hätte es geholfen, diese vorherige Auswahl in die Antwort nach einer challenge in Betracht zu ziehen. Die Antwort auf die Frage nach challenge zeigt eine persönliche Herausforderung. Dies zeigt deutlich, dass der Kontext Sport nicht vorhanden oder nicht bekannt ist.
Eine zusätzliche Rückfrage könnte das Missverständnis auflösen. Da das System aber weder Parameter des Kontexts noch der Bedeutung auswertet, entfällt dieser Schritt. Sprachassistenten fehlt im derzeitigen Entwicklungsstand die Fähigkeit zur Kommunikation Praxistest Sprachassistenten. Deshalb sind sie nicht in der Lage zu erkennen, wann Rückfragen zum Verständnis erforderlich sind und so können sie das Dialogmodell nicht wirksam aktivieren.