3. ChatGPT, Bard, oder Bing Chat? Unterschiede der 3 generativen KI-Bots


Heute eine weitere Zusammenfassung eines Artikels der Nielsen-Normann-Group. Diesmal ein Vergleich der drei getesteten ChatbotsGoogle Bard, Bing Chat und ChatGPT.

3.1 Vertrauenswürdigkeit und Nützlichkeit

Teilnehmer haben Bing Chat als weniger hilfreich und vertrauenswürdig als ChatGPT und Bard bewertet. Diese Ergebnisse können auf die umfangreichere, allerdings unperfekte Benutzeroberfläche von Bing und Bings geringere Zusammenfassung von Information zurückgeführt werden.

Funktionalität und UI-Merkmale von 3 generativen KI-Bots

Bard Bing Chat ChatGPT
Texterstellung Ja Ja Ja
Bilderstellung Nein Ja Nein
Ausgabeformat Bilder, Links, Text Bilder, Links, Text, Videos Text
Internetzugang Ja Ja Nein
Quellen Nein Fußnoten/Links im Text und "Lerne mehr"-Links Nein
Vorgeschlagene Folgefragen Nein Ja Nein
Chatverlauf Nein (Zum Zeitpunkt der Studie) Für manche Nutzer Ja
Werbung Nein Ja Nein
Durchschnittliche Benutzerbewertung von Bard, Bing Chat und ChatGPT in Vertrauenswürdigkeit und Nützlichkeit. In beiden Fällen: Bestes Ergebnis Bard, dann ChatGPT und dann Bing Chat.
Durchschnittliche Benutzerbewertung von Bard, Bing Chat und ChatGPT in Vertrauenswürdigkeit und Nützlichkeit.

Einer der hauptsächlichen Vorteile von KI Bots gegenüber traditionellen Suchmaschinen ist der, dass sie die gesamte Aufgabe des Informationssammeln (auch das Zusammfenassen von Informationen) übernehmen können.
Viele der vergleichsweise schlechten Bewertungen für Bing Chat sind dadurch zu erklären, dass Bing die Information nicht oder nur oberflächlich zusammenfasst.

3.1.1 Nachteile von Bing Chat

3.1.1.1 Verlinkt Webseiten anstatt Informationen zusammenzufassen

Mehrere Nutzer beschwerten sich darüber, dass statt einer zuverlässigen Antwort anzugeben, Bing Chat sie auf eine Webseite verwies, auf der sie die Antwort selber suchen konnten.
So war es immer noch die Aufgabe des Nutzers, die verschiedenen Teilinformationen zusammenzufassen, wie es bei Suchmaschinen ist. Die Teilnehmer der Studie sagten, die Antwort war nicht besser als die Antwort einer Suchmaschine.

  • Ich glaube es hat ein wenig Starthilfe gebraucht. Als ich sagte, ich wolle eine Kettensäge kaufen, war die erste Antwort: "Hier sind vier Kettensägen von Kundenempfehlungen" ohne weitere Informationen. Ich glaube Bing Chat hätte mehr Informationen sammeln können, wie den Preis oder Eigenschaften nach denen ich gesucht habe.

Zu einer weiteren Frage wie man ein Steak kocht.

  • Ich verstehe, dass das eine subjektive Frage ist. Aber Bing Chat gab einfach vier Antworten zurück, ohne Vor- und Nachteile von diesen. Es hat auch nicht erklärt, wie man das macht. Es hat nur Links zu verschiedenen Webseiten angezeigt. Einer dieser Links war, was ich als Antwort erwartet habe. Die vier besten Arten wie man ein Steak kocht mit Anleitung und den Vor- und Nachteilen. Es war ein gutes Bing Suchergebnis, aber keine gute Chat-Erfahrung.

3.1.1.2 Quellen sind nicht kontextspezifisch, tote Links oder beinhalten nicht die genannten Informationen

Ein Teilnehmer war verärgert darüber, dass die erste Quelle die Bing Chat zur Frage: "Was sollte ich wissen, über das Kinder kriegen." angab, von einer kanadischen Quelle war. Er sagte:

  • Ich mochte nicht, dass der Ratschlag in der ersten Antwort war, die Gesundheitsbehörde Kanadas zu befragen. Ich lebe in den Vereinigten Staaten, also würde ich Ratschläge von der US-Gesundheitsbehörde hören wollen, da es Unterschiede in Dienstleistungen oder Richtlinien geben könnte.

Die Quellen sind weniger wichtig für Nutzer, wenn die Frage eine einfache und einzigartige Antwort hat.
Eine Nutzerin merkte an, dass sie interessierter an den Quellen ist bei breiten, forschungsähnlichen Fragen, bei denen sie kein Vorwissen hat. Zum Beispiel wenn sie sich mit ihrem Kind über Wolken informiert, aber weniger daran interessiert ist, wenn sie spezifische Fragen mit einer klaren Antwort stellt, wie einer Adresse oder dem Autor von einem Buch.

Eine Teilnehmerin fragte, was man Freitag nachts in Nashville tun konnte. Bing Chat konnte keine Antwort geben und gab nur Links an, die keine Informationen zur Frage enthielten.
Sie formulierte die Frage mehrmals um und fragte stattdessen nach kostenlosen Events.
Der Bot gab ihr endlich einige kostenlose Events und Links zu verschiedenen Webseiten. Als sie den Links folgte, bemerkte sie, dass die Veranstaltungen nicht kostenlos waren. Danach gab sie es auf mit dem Bot zu interagieren.
(…)
Es gab viele solche Beispiele für Bing Chat und Bard [Anmerkung: ChatGPT hat keinen Internetzugriff und kann somit keine Fehler beim Verlinken machen]. Aber allein dadurch, das Bing Teilnehmer häufiger auf die Links klickten, stießen sie häufiger auf Problemen.

3.1.1.3 Folgefragen

3.1.1.3.1 Vorteile
  • Ich habe gefragt was ich tun kann, um meine Frau während der Wehen zu unterstützen. Ich meinte während der Geburt, aber die Antwort schien den Fokus darauf zu legen, was man tut, wenn die Frau zu Hause die Wehen bekommt. Ich hatte darüber noch nicht nachgedacht. Das war sehr hilfreich. Ich mochte die vorgeschlagene Folgefrage: "Was sollte man ins Krankenhaus mitbringen?" Das war, was ich mir vorgestellt hatte und war eine gute Antwort. Dann gab es zwei weiter Folgefragen, die mir gefallen haben(…). Ich fand diese Unterhaltung sehr infromativ und sie gab mir gute Möglichkeiten, um die Unterhaltung weiterzuführen und [das Thema] zu erforschen.
3.1.1.3.2 Nachteile

Folgefragen wurden im allgemeinen positiv aufgenommen, allerdings haben sie auch große Probleme.
Teilnehmer berichteten, dass die Folgefragen teilweise
zu simpel oder zu ähnlich zur Originalfrage waren und dass Folgefragen verschwinden.

3.1.1.3.2.1 Zu simpel
  • Aber manchmal ist die Folgefrage nur: Was ist die Definition von diesem Wort? Und das ist, für mich eine Verschwendung einer Folgefrage. Du könntest das auf deinem Handy googeln. Ich weiß nicht, ich habe diese Definition nie gebraucht.

  • Ich habe manche der Folgefragen verwendet, [aber] sie waren häufig etwas albernes wie "kannst du mir etwas über die Pyramiden erzählen". Das ist für diese Konversation nicht relevant, aber danke.

3.1.1.3.2.2 Zu ähnlich zur Originalfrage

Bei der Anfrage: "Gibt es dieses Wochenende kostenlose Verantstaltungen in Nashville?" gab Bing Chat die Folgefrage: "Was sind einige, beliebte kostenlose Veranstaltungen in Nashville?" Diese Frage gab die gleiche Antwort zurück.

3.1.1.3.2.3 Folgefragen verschwinden

Nach jeder neuen Antwort gab es neue Folgefragen und die Folgefragen zur vorherigen Antworten konnten nicht mehr ausgewählt werden. Der Nutzer muss sich diese also merken und gänzlich eintippen.

3.1.4 Multimediale Bestandteile

3.1.4.1 Angst den Chat zu verlieren

Während reichhaltige Links den Bing Chat Nutzer dazu einladen mehr Folgeaktionen auszuführen [auf externen Quellen weiterlesen, die Information überprüfen, Videos ansehen, Käufe tätigen], so können sie auch die Angst vergrößern den Chat zu verlieren, insbesondere wenn der Nutzer nicht weiß, welche Lnks in einem neuen Fenster geöffnet werden und welche in einem Overlay geöffnet werden.

3.1.4.2 Können nicht überflogen werden

Videos können nicht überflogen werden, außerdem werden sie nicht zusammengefasst. Die eigentliche Aufgabe der Chatbots, die des Abkürzens der Recherche, das Zusammenfassen der Information, wird nicht erfüllt. Dies ist insbesondere dann zu beanstanden, wenn mehrere Videos angezeigt werden.
Der Nutzer muss alle Videos einzeln ansehen, ohne vorher zu wissen, ob sie relevant sind.

Bei der Google Suche hingegen werden Videos mit einem Ausschnitt des Transkripts versehen, dieser Ausschnitt hilft dem Nutzer zu entscheiden, ob das Video relevant ist.

3.1.4.3 Schlecht kompatibel mit Smartphones

Der Smartphone-Bildschirm ist kleiner. Das GUI ist deshalb überfüllt. Und weil das GUI überfüllt ist, verklickt sich der Nutzer häufiger.

3.1.5 Werbung

Ein anderes Element, dass die Erfahrung mit Bing Chat beeinträchtigt hat, war Werbung. 15,65% der Antworten enthielten Werbung. (Keiner der anderen Chatbots zeigte Werbung an.)

Teilnehmer hatten gemischte Gefühle zur Werbung. Sie fanden sie okay, wenn sie nach einem Produkt suchten oder wenn die Werbung sehr relevant für die Anfrage war. Sie waren genervt von der Werbung, wenn sie irrelevant war, zu häufig oder zu aufdringlich war, obwohl sie den Zweck der Werbung verstanden und ihre Berechtigung anerkannten.

3.1.5.1 Wenn hilfreich

Ein Teilnehmer zum Beispiel nutzte Bing Chat, um herauszufinden welche Kinderzimmerlampe er für seine Frau kaufen konnte. Er war zufrieden mit der gesamten Erfahrung, selbst mit der Werbung, weil die Unterhaltung ihm half eine [passende und schöne] Lampe zu finden.
Eine andere Teilnehmerin suchte nach den Preisen für Shinkansen-Fahrkarten (…) und hatte kein Problem mit den Links zum Ticketverkauf unter der Antwort.

3.1.5.2 Wenn nicht hilfreich

Bing Chat hat einem Nutzer nur oberflächliche Hilfe [mit Lebensversicherung] angeboten und statt ihm Alternativquellen anzubieten, gab Bing Chat ihm Werbung für Lebensversicherungen, die der Nutzer nichtmal abschließen konnte, weil er zu jung war.

Ein anderer Teilnehmer stellte Fragen zur Webseite "Clutch" (eine Agentur die sich auf Webseiten-Dienstleistungen spezialisiert hat.) Und die Werbungen waren für Kupplungen (englisch "clutch"), was dem Nutzer gar nicht gefiel.

3.2 Benutzererfahrung: Essenziell für das Design von erfolgreicher KI

Alles in allem hatte Bing Chat die geringsten Nützlichkeits- und Vertraulichkeitsbewertungen verglichen mit ChatGPT und Bard. Dafür gab es zwei Gründe: Die geringere Informationszusammenfassung und die schlechtere Benutzeroberfläche.

Das schlechtere Zusammenfassen von Informationen ist etwas, dass KI-Forscher verbessern können und sollten. Die schlechte Benutzeroberfläche betrifft uns – UX-Designer. [Anmerkung. "Die Nielsen Normann Group ist ein Beratungsunternehmen für Computerbenutzerschnittstellen und Benutzererfahrung".]

Bing hatte die komplexeste Benutzeroberfläche mit den meisten Funktionen, allerdings wurden diese abelehnt.[Original: it got dinged for it.]
Bedeutet das, dass wir besser dran sind, wenn das KI-Design keine oder sehr wenige Benutzeroberfächen-Elemente beinhaltet. (so wie ChatGPT)?
Die Antwort ist ein klares Nein. Quellenangabe, Links, vorgeschlagene Folgefragen und multimediale Bestandteile (wie Videos, Bilder und andere) sind gute und nützliche Funktionen. Sie helfen dem Nutzer die Antwort des Bots zu verstehen. Sie helfen außerdem weiterführende Schritte einzuleiten [so wie Folgefragen stellen, Informationen überprüfen, Käufe tätigen]. Wenn KI allgegenwärtiger wird und Menschen sie für vielfältigere und komplexere Aufgaben verwenden, werden diese Funktionen unverzichtbar.

Unsere Ergebnisse zeigen, dass diese zusätzlichen Benutzeroberflächen-Elemente gut entworfen und mit vielen verschiedenen Nuztern und Aufgaben getestet werden müssen. Die Idee ist gut, aber die Umsetzung muss verbessert werden.

Designer von generativen KI-Bots können von Bing Chats Erfahrung lernen und den "best practices" folgen:

  • Während Quellenangaben für eine Antwort hilfreich sind, sollten sie nicht vom Kern der Antwort ablenken. Es sollte einfach sein, sie zu ignorieren und gleichzeitig einfach sein sie zu finden, wenn man sie braucht.

  • Die Links müssen akkurat sein und müssen zur Antwort des Bots passen [die Antwort muss richtig sein und die zeitlichen und geografischen Begebenheiten in Betracht ziehen]. Andernfalls könnten sie die Glaubwürdigkeit des Bots herabsetzen.

  • Vorgeschlagene Folgefragen helfen dem Nutzer Anfragen zu formulieren und den Informationsraum zu erforschen, aber nur wenn sie nicht-trivial und verwandt zum momentanen Thema sind.

  • Folgefragen sollten nicht verschwinden, wenn eine neue Antwort gegeben wurde.

  • Nutzer sollten leicht den Kontext der Unterhaltung wiederherstellen, selbst wenn sie andere Seiten besuchen, Videos ansehen oder eine Anfrage zu früh senden.

  • Legen Sie die Erwartungen der Benutzer an Funktionen und Designkomponenten wie Modi und Videowiedergabeformate fest. Es ist okay kontextspezifische Werbung in Empfehlungsanfragen zu platzieren, aber nicht bei breitgefächerten Forschungsanfragen.


Dies war der letzte Artikel zur Nielsen Normann Group. Wer dem Englischen mächtig ist, kann sich hier weiter umsehen.

Bildquellen

J Dahms
  • J Dahms
  • J Dahms ist seit 2021 als wissenschaftlicher Mitarbeiter bei der Speech & Phone GmbH. Teil dieser Tätigkeit ist das Testen von Sprachassistenten und Erstellen von Beiträgen auf diesem Blog.

-+=