Thesen zur Verbesserung von Übersetzungsalgorithmen bei Eigennamen
Artikelübersicht
Übelsetzungen seit 2013
Seit einiger Zeit sammeln sprachlich versierte Menschen seit mindestens 2013 Belege für fehlerhafte Übersetzungen durch Algorithmen bei LEO Übelsetzungen ab 12/2022. Die Zusammenstellung zeigt, wie viel Abweichungen Übersetzungsalgorithmen immer wieder machen. Einige dieser Fehlleistungen haben es in tatsächliche Blogbeiträge und Bildsersammlungen geschafft. Die Benutzerin imaginery woman schreibt in mehr Übelsetzungen von der Übersetzung
Erfurt
Achieve
EatErlangen und Essen! "Siegen" wurde aber nicht zu "Win", warum auch immer.
Das Phänomen ist insofern weitgehend unbeachtet und wird vermutlich als Seiteneffekt angesehen. Übrigens auch Wittenberg und Wittenberge liefern Anlass zum Schmunzeln: Bahnhof Wittenberge wirbt versehentlich mit Schlosskirche Wittenberg. Die gute Nachricht ist, nicht nur Computer machen Fehler.
Über die Angabe eines Fehlerhaften Geschlechts durch Übersetzungsalgorithmen hatte dieser Blog berichtet.
Bei einem Online-Übersetzungsdienst aus wird aus Fehlernachtest das Wort error night test. Es wird vermutet, dass Algorithmen die Benutzereingaben nachbessern und durch Einschub eines ‚t‘ dann die fehlerhafte Übersetzung error night test entsteht.
Besonders auffällig ist die Abweichung bei Anbietern von Stock-Bildern. Besonders Tiernamen und Pflanzennamen werden bei den eingesetzten Übersetzungsalgorithmen wortwörtlich übersetzt und sind dann für nicht-englischsprachige Benutzer oft nicht auffindbar.
Anderseits verblüffen Suchergebnisse von Bildersuchen mit Abweichungen, die nichts mit dem eingegebenen Suchwort zu tun haben. Begriffe aus der Informatik sind vermutlich häufiger vertreten. Frei zugängliche Bildersuchen sind bei abstrakten Begriffen nicht sehr ergiebig. Konkrete Abbildungen sind besser zu visualisieren. Das ist keine Abweichung, sondern eine Feststellung. Die Bildersuche nach Fehler zeigt zum Recherchezeitpnkt als erstes freies Bild ein Marienkäferpärchen, weiter Fragezeichen, Symbole und eine Illustration zum Http-Fehler 404 (Seite nicht gefunden). Außerdem werden szenische Aufnahmen zu Missgeschicken und Scham gezeigt. Dieses Ergebnis stammt aus der IT-Lastigkeit der Bildersuche. Fehler in Software heißen Bug, das ins Deutsche übersetzt, ist ein Köfer. Deshalb werden Bilder von Käfern und Insekten angezeigt.
Weiter stellen örtliche Tiernamen und Pflanzennamen eine häufige Fehlerursache dar. Das Schleierkraut (Gypsophila paniculata) heißt in Englisch baby’s breath. Deshalb ergeben Sucheingaben von deutschem oder englischem Namen nicht identische Ergebnisse. Wer das Manko kennt, kann das nutzen. Bei blue bell wird die Suche diffiziler. Es gibt drei Arten, die man mit dem wörtlich übersetzten Namen finden kann, nämlich das Virginische Blauglöckchen und das Atlantische Hasenglöckchen. Die Verwendung der Namen aus der Nomenklatur ist wichtig, wenn treffsicher übersetzt werden soll.
Das Virginische Blauglöckchen ist eine in Teilen Nordamerikas beheimatete Wildstaude aus der Familie der Raublattgewächse (Boraginaceae). Der botanische Name Mertensia virginica bezieht sich zum einen auf den deutschen Botaniker Franz Karl Mertens (1764–1831), zum anderen auf die Herkunft der Pflanzen. Zu Beginn der botanischen Klassifizierung durch Carl von Linné war Mertensia noch der Gattung der Lungenkräuter (Pulmonaria) zugeordnet. Virginisches Blauglöckchen – Mein schöner Garten
Im späten Frühling überziehen nicht nur in England die Blüten des Hasenglöckchens ganze Wälder mit einem blauen Teppich. Auch in Deutschland lässt sich die Pracht der Bluebells genießen. Bluebells – Englands blaue Blume in Deutschland
Ein Blauglockenbaum (Paulownia tomentosa) gehört zur Familie der Blauglockenbaumgewächse (Paulowniaceae). Der Blauglockenbaum ist ein Laubbaum und wird durchschnittlich 15 bis 20 Meter hoch. Die Blütezeit des Blauglockenbaum ist von April bis Mai. Die Blüten des Baumes sind violett. Chinesischer Blauglockenbaum – Baumlexikon
Diese wortwörtliche Übersetzung funktioniert auch mit dem Wort red winged black bird, der auf deutsch ein Rotschulterstärling ist, was auch schon Thema dieses Blogs war.
Homonyme, insbesondere Homographen, bieten für Übersetzungsalgorithmen die Einfallmöglichkeit von fehlerhaften Übersetzungen. Der frappierendste Fund ist zum Beispiel teller. Auf deutsch ein Essgeschirr, in Englisch ein Geldautomat, ein Wahrsager. Wer nicht aufpasst, landet bei der falschen Beschreibung oder dem falschen Bild. Da das Domänenwissen und das Weltwissen der KI-Systeme noch in den Kinderschuhen steht, können wir uns auf weitere Abweichungen einstellen.
Werden zusätzlich noch Grundformen mit flektierten Formen vermengt, findet die fehlerhafte Übersetzung kein Halten mehr. So entstand das Wort Poltanz, das während der Untersuchung zur Unterscheidung von Homonymen durch KI-Systeme auftauchte. Gemeint ist der Poledance. Eine Root-Cause-Analyse ergab, dass nicht das KI-System Dinge verwechselt hatte, sondern, tatsächlich fehlerhafte Übersetzungen von Produktnamen die Ursache waren. Da für KI-Systeme Masse gleich Qualität bedeutet, wird das Wort Poltanz in den Korpus aufgenommen. Die Anfrage an KI-Systeme war: "Was sind Pole?" Daraus entstand eine korrekte Liste von Begriffsdefinitionen, aber auch der Poltanz, weil "pole dance" auch das gesuchte Wort enthält.
Thesen zur Ursache von fehlerhaften Übersetzungen durch Übersetzungsalgorithmen
Auf der Suche nach dem Grund von Übersetzungsfehlern von Übersetzungsalgorithmen ergeben sich die folgenden Ansatzpunkte.
- Eigennamen müssen von Übersetzungsalgorithmen treffsicher im Ursprungstext gefunden werden, um sie äquivalent übersetzen zu können oder eben die Übersetzung zu vermeiden und 1:1 zu übernehmen. Eigennamen sind Ortsnamen, Personennamen, Tiernamen, Pflanzennamen, Produktnamen und Marken und Namen für Kochrezepte.
- Wortwörtliche Übersetzungen von Tiernamen und Pflanzennamen ist unbedingt zu vermeiden. Die Beifügung des Nomenklaturnamens ist unabdingbar um Verwechslungen auszuschließen.
- Die fehlende Unterscheidung von Flexion führt zu falschen Übersetzungen. Es gibt Wörter unterschiedlicher Sprachen, die nicht in der Grundform identisch geschrieben sind, sondern in flektierter Form. Bei der Übersetzung muss treffsicher die Grundform gefunden werden, damit Übersetzungen äquivalent erfolgen können.
- Bei der Veränderung der Benutzereingaben durch Übersetzungsalgorithmen ist die Änderung hervorzuheben, damit Benutzer erkennen können, wie ein System zum angezeigten Ergebnis kommt.
- Die Verwendung von Begriffen in übertragener Bedeutung ist die wortwörtliche Übersetzung im Allgemeinen zu unterlassen.
Liste einiger wortwörtlicher Übersetzungen
Zeichenfolge: baby’s breath
- Säuglings atem, Nomen, Sprache: Deutsch Deutschland, (wortwörtliche Übersetzung)
- Schleierkraut, Nomen, Sprache: Deutsch Deutschland, (Bezeichnung in der Biologie)
- Gypsophila paniculata (Botanik), Nomen, Sprache: Lateinisch, (Bezeichnung in der Biologie)
Zeichenfolge: bluebell
- Blauglocke, Nomen, Sprache: Deutsch Deutschland, (wortwörtliche Übersetzung)
- Hasenglöckchen, Nomen, Sprache: Deutsch Deutschland, (Bezeichnung in der Biologie)
- Blauglockenbaum, Paulownie, Nomen, Sprache: Deutsch Deutschland, (Falscher Freund)
- Hyacinthoides (Botanik), Nomen, Sprache: Lateinisch, (Bezeichnung in der Biologie)
Zeichenfolge: fox gloves
- Fingerhut, Nomen, Sprache: Deutsch Deutschland, (Bezeichnung in der Biologie)
- Fuchshandschuh, Nomen, Sprache: Deutsch Deutschland, (wortwörtliche Übersetzung)
- Digitalis purpurea (Botanik), Nomen, Sprache: Lateinisch, (Bezeichnung in der Biologie)
Zeichenfolge: goldfisch
- rotfisch, Nomen, Sprache: Deutsch Deutschland, (wortwörtliche Übersetzung)
- poisson rouge, Nomen, Sprache: Französisch Frankreich
- Cyprinidae (Zoologie), Nomen, Sprache: Lateinisch, (Bezeichnung in der Biologie)
- Goldfirsch, Nomen, Sprache: Deutsch Deutschland, (Bezeichnung in der Biologie)
Zeichenfolge: old man‘s beard
- Alte-Männer-Bart, Nomen, Sprache: Deutsch Deutschland, (wortwörtliche Übersetzung)
- Gewöhnliche Waldrebe, Nomen, Sprache: Deutsch Deutschland, (Bezeichnung in der Biologie)
- Clematis vitalba (Botanik), Nomen, Sprache: Lateinisch, (Bezeichnung in der Biologie)
Zeichenfolge: red-winged blackbird
- Rotflügelschwarzvogel, Nomen, Sprache: Deutsch Deutschland, (wortwörtliche Übersetzung)
- Agelaius Phoeniceus (Zoologie), Nomen, Sprache: Lateinisch, (Bezeichnung in der Biologie)
- Rotschulterstärling, Eigenname, Sprache: Deutsch Deutschland, (Bezeichnung in der Biologie)
Zeichenfolge: schafgarbe
- yarrow, Eigenname, Sprache: Englisch Vereinigtes Königreich
- Achillea (Botanik), Nomen, Sprache: Lateinisch, (Bezeichnung in der Biologie)
Zeichenfolge: shooting star
- Senkrechtstarter, Shootingstar, Nomen, Sprache: Deutsch Deutschland
- Sternschnuppe, Nomen, Sprache: Deutsch Deutschland
- Götterblume, Nomen, Sprache: Englisch Vereinigtes Königreich, (Bezeichnung in der Biologie)
- Dodecatheon meadia (Botanik), Nomen, Sprache: Lateinisch, (Bezeichnung in der Biologie)
Zeichenfolge: tournesol
- Sonnenblume, Nomen, Sprache: Französisch Frankreich, (Bezeichnung in der Biologie)
- typisiertes Schwimmbad, Eigenname, Sprache: Französisch Frankreich
- Helianthus annuus (Botanik), Nomen, Sprache: Lateinisch, (Bezeichnung in der Biologie)
Zeichenfolge: weberknecht
- Weberknecht (Zoologie), Nomen, Sprache: Deutsch Deutschland, (Bezeichnung in der Biologie)
- harvest-man, Eigenname, Sprache: Englisch Vereinigtes Königreich
- Opiliones (Zoologie), Nomen, Sprache: Lateinisch, (Bezeichnung in der Biologie)
Erstellt aus: Homonyme-v010.xlsx am : 12.01.2024 14:38:35
Bildquellen
- Übersetzen mit zwei Augen: Pixabay