Large Language Model und Homonymerkennung

Print Friendly, PDF & Email

Wir von Vuitest haben schon einiges über Homonyme geschrieben und wir testen Sprachsysteme. Aber wie präzise Sprachsysteme Homonyme klassifizieren, haben wir noch nicht untersucht. Dies wird hier nachgeholt.

Testansatz für Homonyme in LLMs

Bei der Recherche zu Large Language Model, habe ich herausgefunden, dass LLM viele Informationen verarbeiten, um die Bedeutung eines Textes zu verstehen.

  • LLM analysieren die Wortart jedes Wortes
  • LLM betrachten den Kontext von Wörtern im Satz und im Gesamttext. (technisch möglich sind viele hundert bis einige tausend Wörter)

Außerdem habe ich gelesen, dass LLM deswegen unterschiedliche Vektoren für die unterschiedlichen Bedeutungen von Homonymen erstellen. Wenn das verwirrend klingt, dieser Artikel hat einen Absatz zur Funktionsweise von LLM. Also haben wir das getestet. Bei Large Language Models und bei anderen Sprachsystemen.

Erwartung – Wie LLMs Homonyme verstehen sollen

Die Erwartung ist, dass das System erkennt, das ein mehrdeutiger Begriff verwendet wurde und dementsprechend reagiert. Die folgenden Beispiele zeigen das bei der Begriffsdefinition durch ein LLM oder durch eine Rückfrage. Beide Antworten erwartungskonform.

Im ersten Beispiel zeigt das System die verschiedenen Bedeutungen eines Worts.

Nutzer: Was heißt Füllen?
System: | füllen |
SCHWACHES VERB

  • durch hineinfüllen, -schütten, -gießen von etwas vollmachen; mit etwas anfüllen.
  • mit einer Füllung versehen
  • in etwas schütten, einfüllen, heineinfließen lassen
  • voll werden Platz in Anspruch nehmen, ausfüllen.

| FÜLLEN |
KATEGORIE:SUBSTANTIV N (DEUTSCH)

  • Fohlen

| FÜLLE |

  • große Menge, Zahl; Vielfalt volle Intensität; volles Maß; [volles Genügen verschaffender] Reichtum 2, der in etwas liegt.
  • Üppigkeit der körperlichen Erscheinung; Körperfülle.
  • Füllung 2a.

Anmerkung: Das System nennt noch Beispielsätze, diese wurden ausgelassen.
Das System erkennt, dass der Begriff Füllen mehrdeutig ist und gibt die Antwort für verschiedene Kontexte. Dies ist eine richtige Reaktion.

Beim zweiten Ansatz erklärt das System die Notwendigkeit weiterer Beschreibgunen für einen Begriff

Nutzer: Ich brauche Pole.
System: Es tut mir leid, ich benötige weitere Informationen, um Ihnen besser helfen zu können. Der Begriff "Pole" ist recht allgemein und kann verschiedene Bedeutungen haben. Könnten Sie bitte genauer erklären, was Sie mit "Pole" meinen? Meinen Sie beispielsweise Tanzstangen, Telefonmasten, Stangen als Sportausrüstung oder etwas anderes? Je detaillierter Ihre Beschreibung ist, desto genauer kann ich Ihnen helfen.

Anmerkung: Hier wird das Anliegen des Nutzers nicht direkt geklärt, stattdessen wird die Mehrdeutigkeit offengelegt und eine Gegenfrage gestellt. Dies ist ebenfalls eine richtige Reaktion, wobei die Gegenfrage kürzer hätte ausfallen können.

Ergebnisse der Homonymerkennung von LLMs

Anzahl von bestandenen und misslungenen Testfällen bei der Homonymerkennung

Das folgende Diagramm zeigt, wie viel Homonyme die einzelnen Systeme erkannt haben.
Der Testumfang bei Google Bard und ChatGPT umfasste 19 Testfälle, demgegenüber standen 10 Testfälle bei den anderen Systemen.
Wir können hier sehen, dass die Systeme dieser Aufgabe nicht ansatzweise gewachsen sind.

der

Diagramm der Testergebnisse beim Test Homonyme. 20% Erfolgsquote bei Siri 10% Erfolgsquote für Alexa, ChatGPT 3.5, Google Assistant und Google Bard.
Diagramm der Testergebnisse beim Test Homonymerkennung von LLMs.

Ergebnisse Schweregrad der misslungen Homonymerkennung

Hier sehen wir den Abweichungsgrad der Fehler.

  • Abweichungsgrad 1: nicht alle Bedeutungen abgedeckt
  • Abweichungsgrad 2: Mehrdeutigkeit nicht erkannt, Antwort hilfreich
  • Abweichungsgrad 3: Mehrdeutigkeit nicht erkannt, Antwort nicht hilfreich
  • Abweichungsgrad 4: falsche Bedeutung
  • Abweichungsgrad 5: System geht auf keine Bedeutung ein.
Schweregrad der Fehler bei der Homonymerkennung von LLMs
Schweregrad der Fehler bei der Homonymerkennung von LLMs

Beispiel Schweregrad 1 – Homonym Pole

Definition: Abweichungsgrad 1 – Es sind nicht alle Bedeutungen genannt.

Nutzer: Was sind Pole?
System: Der Begriff "Pole" kann verschiedene Bedeutungen haben, je nachdem, in welchem Kontext er verwendet wird. Hier sind einige mögliche Bedeutungen:

Ethnische Identität: "Pole" kann sich auf eine Person beziehen, die aus Polen stammt oder polnischer Abstammung ist. Es bezeichnet jemanden, der die polnische Nationalität oder ethnische Zugehörigkeit hat.

Staatsbürgerschaft: Ein "Pole" kann auch eine Person sein, die die polnische Staatsbürgerschaft besitzt, unabhängig von ihrer ethnischen Herkunft.

Geografische Bedeutung: "Pole" kann sich auf geografische Pole beziehen, wie den Nordpol oder den Südpol. Diese geografischen Pole sind die Punkte, an denen die Erdachse die Oberfläche der Erde durchstößt.

Sport: In einigen Sportarten, wie beispielsweise im Poltanz (Poledance), bezeichnet der Begriff "Pole" die vertikale Stange, an der Tänzerinnen oder Tänzer akrobatische Bewegungen und Choreografien ausführen.

Der Kontext, in dem der Begriff "Pole" verwendet wird, bestimmt seine spezifische Bedeutung. Es kann sich auf die ethnische Identität, Staatsbürgerschaft, geografische Orte oder sogar auf physische Objekte wie Tanzstangen beziehen.

Dies ist ein Fehler des Schweregrades 1. Das System erkennt die Mehrdeutigkeit, allerdings werden nicht alle Bedeutungen erwähnt. Außerdem sind die Prioritäten merkwürdig gesetzt. Die ethnische Identität muss von der Staatsbürgerschaft getrennt werden, aber magnetische oder elektrische Pole werden gar nicht erwähnt. Poltanz ist vermutlich bereits in den Trainingsdaten enthalten.

Beispiel Schweregrad 2 – Homonym Bank

Definition: Abweichungsgrad 2 – Die Mehrdeutigkeit nicht erkannt und die Antwort ist hilfreich.

Nutzer: "Ich brauch eine Bank."
System: "Hier sind einige Banken in Berlin, die Sie besuchen können:

Deutsche Bank ist eine der größten Banken in Deutschland und verfügt über zahlreiche Filialen in Berlin. Die Öffnungszeiten variieren je nach Filiale, aber in der Regel sind sie von Montag bis Freitag von 9:00 bis 18:00 Uhr geöffnet. Die Deutsche Bank bietet eine breite Palette von Bankdienstleistungen an, darunter Girokonten, Kredite, Sparanlagen und Wertpapierhandel.
Image of Deutsche Bank, BerlinWird in einem neuen Fenster geöffnet
de.wikipedia.org
Deutsche Bank, Berlin
Sparkasse Berlin ist die größte Sparkasse in Berlin und bietet ebenfalls eine breite Palette von Bankdienstleistungen an. Die Öffnungszeiten variieren je nach Filiale, aber in der Regel sind sie von Montag bis Freitag von 9:00 bis 18:00 Uhr geöffnet.
Image of Sparkasse BerlinWird in einem neuen Fenster geöffnet
(…)" Die Antwort wurde gekürzt.

Dies ist ein Fehler des Schweregrades 2. Das System erkennt nicht, dass der Nutzer sich eventuell setzen möchte und ein langes Sitzmöbel sucht. Aber die Antwort ist zweifelsfrei hilfreich, wenn der Nutzer ein Finanzinstitut aufsuchen möchte.

Ein Beispiel zum Schweregrad 3 – Homonym Pole

Definition: Abweichungsgrad 3 – Die Mehrdeutigkeit wurde nicht erkannt und die Antwort istnicht hilfreich.

Nutzer: Ich brauche Pole.
System: "Wenn du eine Pole-Stange in Berlin suchst, gibt es einige Möglichkeiten. Hier sind einige Empfehlungen:

Pole Flow Berlin: Dieses Studio befindet sich im Stadtteil Neukölln und bietet Pole-Kurse für Anfänger und Fortgeschrittene.
Muse Pole Dance: Dieses Studio befindet sich im Stadtteil Mitte und bietet Pole-Kurse für alle Niveaus.
Pole Sport Studio – Berlin: Dieses Studio befindet sich im Stadtteil Friedrichshain und bietet Pole-Kurse, Pole-Akrobatik und Luftakrobatik.
Diese Studios bieten in der Regel Pole-Stangen in verschiedenen Höhen und Materialien. Sie bieten auch Kurse für alle Niveaus, von Anfängern bis hin zu Profis.

Hier sind einige weitere Informationen zu diesen Studios:

Pole Flow Berlin

Adresse: Ziegrastraße 11, 12049 Berlin
Öffnungszeiten: Montag bis Freitag von 10:00 bis 22:00 Uhr, Samstag von 10:00 bis 18:00 >Uhr, Sonntag geschlossen
Preise: Einzelstunden ab 35 Euro, 10er-Karten ab 295 Euro
Muse Pole Dance

Adresse: Alte Jakobstraße 76, 10115 Berlin
Öffnungszeiten: Montag bis Freitag von 15:00 bis 22:00 Uhr, Samstag von 10:00 bis 18:00 Uhr, Sonntag geschlossen
Preise: Einzelstunden ab 30 Euro, 10er-Karten ab 270 Euro
Pole Sport Studio – Berlin

Adresse: Wiclefstraße 18, 10245 Berlin
Öffnungszeiten: Montag bis Freitag von 06:00 bis 22:00 Uhr, Samstag von 08:00 bis 18:00 >Uhr, Sonntag geschlossen
Preise: Einzelstunden ab 35 Euro, 10er-Karten ab 295 Euro
Welches Studio für dich das richtige ist, hängt von deinen individuellen Bedürfnissen ab. Wenn du ein Studio suchst, das Pole-Kurse für Anfänger anbietet, ist Pole Flow Berlin eine gute Option. Wenn du ein Studio suchst, das Pole-Kurse für alle Niveaus anbietet, ist Muse Pole Dance oder Pole Sport Studio – Berlin eine gute Alternative."

Bei diesem Ergebnis geht es um die Tanz-Stange.
Alle anderen Bedeutungen völlig übersehen. Die Antwort ist nicht hilfreich, denn dass sind Pole-Dance Studios und sie verkaufen keine Stangen. Schweregrad 3.

Beispiel Schweregrad 4 – Homonym Füllen

Definition: Abweichungsgrad 4 – Die Antwort einthält eine falsche Bedeutung.

Nutzer: Was heißt Füllen?
System: "’Füllen‘ ist eine Pluralform des Substantivs ‚Fülle‘, das folgende Bedeutungen hat 1) große Menge 2) Überfluss, das reichliche vorhandensein von etwas 3) das Dicksein, das Beleibtsein"

Das ist Schweregrad 4.
Fülle, in den Kontexten von Überfluss, große Menge und dem Dicksein, hat keine Pluralform. vgl. dwds vgl. Duden.
Dies wird jedoch nicht erwähnt.

Bildquellen

  • spph_Diagramm-Homonyme-Test_v01_20231206: Speech & Phone GmbH | All Rights Reserved
  • spph_Diagramm-Homonyme-Fehler_v01_20231206: Speech & Phone GmbH | All Rights Reserved
J Dahms
  • J Dahms
  • J Dahms ist seit 2021 als wissenschaftlicher Mitarbeiter bei der Speech & Phone GmbH. Teil dieser Tätigkeit ist das Testen von Sprachassistenten und Erstellen von Beiträgen auf diesem Blog.

-+=