Intent UX – Das UX des digitalen Sprachassistenten

Da hat die Digitalbranche über die letzten Dekaden gelernt, meisterhaft mit dem Bildschirm umzugehen und dann ploppen smarte Lautsprecher (Google Home, Amazon Echo) am Gadgethimmel auf, die über einen digitalen Sprachassistenten wie Amazon Alexa oder Google Assistant anfangen, mit dem Menschen zu sprechen. Doch nicht nur das, auch Autos, Türklingeln, Kaffeemaschinen oder Lampen können plötzlich sprechen. Da neigt dann so mancher Designer und Programmierer dazu, lächelnd abzuwinken und zu denken „kann ich“. Dass dies jedoch wenig der Fall ist, zeigen eindrucksvoll fast sämtliche aktuellen Sprachanwendungen (Actions/Skills), es sei denn, sie haben einen sehr einfachen Anwendungsfall wie z.B. die Steuerung von Geräten und erfordern fast keinen Dialog.

Der Grund dafür liegt in der Tatsache, dass Gehör und Stimme komplett gegensätzlich zum Auge funktionieren und das aus den letzten Dekaden Gelernte nun mal dem Auge dient und nicht für Gehör bzw. Stimme übertragbar ist. Es braucht eine neue Lernkurve, um für digitale Sprachassistenten zu gestalten und genau hier stecken auch grandiose Möglichkeiten und Chancen für Designer, Programmierer, Nutzer und erst recht für die Unternehmen und Marken.

Eigenschaften, Wirkungen, Veränderungen von und mit Smart Voice

Das Grundverständnis für die Gestaltung von Inhalten und Prozessen, die über digitale Sprachassistenten abbildbar sein sollen, hat verschiedene Aspekte. Einer der Grundaspekte ist schlicht das Verständnis der Eigenschaft und Wirkung von Sprache, Gehör und Stimme. Als emotionalster und situativster Kommunikationskanal des Menschen braucht dieser Kanal als Arbeitsgrundlage vor allem das Vertrauen des Nutzers. Entsprechend ist die Veränderung der Mediennutzung durch digitale Sprachassistenten (Stimme/Gehör), vor allem „ein Shift des Vertrauens“, so wie der Shift zum Smartphone ein „Shift der Mobilität“ war. Doch nicht nur das, sondern auch ein Shift von Information zu Aktion und von Formalität zu Emotionalität wird durch den „persönlichen virtuellen Assistenten, der sprechen kann“ bewirkt.

Sprache besteht aus den Absichten, die der Mensch formt und zu Aktionen macht, um sich zu jedem Zeitpunkt seines Lebens auszugleichen. Diese Absichten (Intents) sind die Grundlagen für die Arbeits- und damit Gestaltungsweise digitaler Sprachassistenten. Es geht bei Smart Voice nun nicht mehr darum, einfach nur Lösungen oder Informationen zu liefern, sondern darum, die Absicht des Nutzers zu erkennen und diese Absicht zu „erledigen“. Nichts anderes hat der Google CEO Sundar Pinchai auf der Google IO 2019 in den ersten zwei Minuten seiner Ansprache gesagt. Er transformiert sogar den ganzen Konzern in diese Richtung!

Kernmerkmale im und für IUX / VUI

„Aber wir können doch Chatbots“, ja ja… aber niemand schreibt, wie er spricht. Entsprechend haben digitale Sprachassistenten und Chatbots die Sprache zwar als gemeinsame Grundlage, mehr aber auch nicht. Vor allem weil Chatbots einen linearen Gesprächsverlauf haben, im Gegensatz zu einem natürlichen Dialog von Mensch zu Mensch bzw. Mensch zu Digitaler Sprachassistent: „Von Hölzchen auf Stöckchen kommen“, es kann alles passieren und darauf muss auch UX vorbereitet sein.

Mit dem Intent als Basis für jegliche Gestaltung greifen auch herkömmliche Planungselemente nicht mehr so wirklich. Zwar helfen z.B. Ablaufdiagramme bei der Darstellung, um ein besseres Verständnis des Anwendungsfalles zu erreichen, aber diese spiegeln nie den wahren Kommunikations-/Bedienverlauf dar, der bei einem chaotischen Dialog entstehen kann und vor allem auch wird. Ebenso wie komplexe Listen mit mehr als drei Punkten nicht über die Stimme an das Gehör transportierbar sind, können auch auf Stimme/Gehör basierende Nutzerschnittstellen Navigationshierarchien nicht abbilden.

Sämtliche Navigationspunkte liegen auf der gleichen, obersten Ebene, d.h. es gibt keine Ebenen! Daher braucht es statt Hierarchien entsprechend „Filter“, die dem Nutzer im richtigen Kontext die weiteren Navigationspunkte mitteilen. Doch Vorsicht, der Anwendungsfall ist entscheidend. Wenn ein Inhalt oder Prozess multimodal abgebildet werden muss (z.B. mit Bildschirm), stellt sich auch die Frage, ob das Auge die Stimme steuert oder die Stimme das Auge. Denn Gestaltung für digitale Sprachassistenten ist nicht nur extremst vertraulich, situativ und emotional, sondern in der Regel auch multimodal.

Aktuell werden alle möglichen Anwendungsfälle für digitale Sprachassistenten ausgelotet und es deutet sich an, dass die meisten smarten Anwendungsfälle eher multimodal gestaltet sein müssen und weniger „Voice Only“. Alleine aus diesem Grund werden Bildschirme niemals aussterben. Die Tastatur dagegen aber wird mit hoher Sicherheit einstauben. Die primären Kriterien der Gestaltung von Prozessen und Inhalten hin zu Smart Voice sind dabei Umgebung, Sprechbarkeit, Geschwindigkeit, Menge, Komplexität, Format, Kontext und Bedeutung.  

Es gibt im Smart Voice Segment noch viel zu tun und zu lernen, lasst es uns gestalten! Dabei auf Erlerntes und Traditionelles zurückzugreifen, hilft zwar, ist aber nicht die Lösung. Was ist deine Idee dazu?

Robert C. Mendez
Dipl. Inf. FH Robert C. Mendez ist Teil der Ideenfabrik „Internet of Voice“ aus Köln. Seine Schwerpunkte sind die Konzeption und Umsetzung virtueller Assistenz und digitaler Sprachassistenten. Hierzu hat er bereits zahlreiche Fachartikel veröffentlicht, Webinare und Vorträge gehalten. Mit über 30 Jahren Digital-Erfahrung hat er die unterschiedlichste Projekte in den Bereichen Marketing, Design und Technik aus den verschiedensten Marktsegmenten federführend realisiert.
Robert C. Mendez
Dipl. Inf. FH Robert C. Mendez ist Teil der Ideenfabrik „Internet of Voice“ aus Köln. Seine Schwerpunkte sind die Konzeption und Umsetzung virtueller Assistenz und digitaler Sprachassistenten. Hierzu hat er bereits zahlreiche Fachartikel veröffentlicht, Webinare und Vorträge gehalten. Mit über 30 Jahren Digital-Erfahrung hat er die unterschiedlichste Projekte in den Bereichen Marketing, Design und Technik aus den verschiedensten Marktsegmenten federführend realisiert.

Passende Blogbeiträge:

Was ist komplex und was ist kompliziert

Oft bezeichnen wir Produkte, Prozesse und Probleme als kompliziert. Ein unangenehmes Gefühl steigt in uns auf, unser Gehirn ist schnell überfordert und wir wünschen uns, dass Dinge einfach gestaltet sind. Komplizierte Produkte einfach bedienbar zu machen: Das ist eine der Königsdisziplinen im UX Design. Es gibt jedoch Fälle, bei denen diese Einfachheit gar nicht gewollt ist. Manchmal ist Komplexität erwünscht und sogar unausweichlich.

Weiterlesen »
Der UX-DAY
3 Tage User Experience vom Feinsten

Passende Konferenz Vorträge:

Diesen Artikel teilen:

Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on email
Email