fricktal24.ch, die kostenlose Zeitung im Internet für unsere Region

19. Jahrgang ·

Freitag, 26. Januar 2024 02:17

Forschung und Technik

Häufig gesprochene Sprachen - schwerer erlernbar für Maschinen

Von: Annette Trabold

Noch vor einigen Monaten war es für viele Menschen undenkbar, wie gut auf Künstlicher Intelligenz beruhende sogenannte Sprachmodelle die menschliche Sprachfähigkeit imitieren können. Was zum Beispiel ChatGPT schreibt, ist oft nicht von menschen-generierten Texten zu unterscheiden. Anhand von Textmaterial in 1’293 verschiedenen Sprachen haben Forscher des Leibniz-Instituts für Deutsche Sprache (IDS) in Mannheim nun untersucht, wie schnell verschiedene Computer-Sprachmodelle „schreiben“ lernen.

Sprachmodelle sind Computer-Algorithmen, die in der Lage sind, menschliche Sprache zu verarbeiten und zu generieren. Das Modell erkennt dabei Muster und Regelmässigkeiten in einer grossen Menge an Texten und lernt so nach und nach, zukünftige Textdaten vorherzusagen.

Ein bekanntes Modell ist das sogenannte „Transformer“-Modell, das u.a. auch dem bekannten Chatbot ChatGPT zugrunde liegt. Während der Algorithmus mit menschlich generierten Texten gefüttert wird, entwickelt dieser ein gewisses Verständnis für die Wahrscheinlichkeiten, mit denen Wortbestandteile, Wörter und Phrasen in bestimmten Kontexten auftreten. Dieses erlernte Wissen wird dann zur Vorhersage, also zur Generierung von neuen Texten in neuen Situationen verwendet.

Wenn die Modelle zum Beispiel den Satz „In der dunklen Nacht hörte ich ein fernes …“ analysieren, können sie vorhersagen, dass Wörter wie „Heulen“ oder „Geräusch“ angemessene Fortsetzungen wären. Diese Vorhersage basiert auf einem gewissen „Verständnis“ für die semantischen Zusammenhänge und die Wahrscheinlichkeit von Wortkombinationen in der Sprache.

Sprachforscher des IDS haben nun in einer neuen Studie untersucht, wie schnell Computer-Sprachmodelle diese Art Vorhersage lernen, indem sie diese Textmaterial in 1’293 Sprachen lernen liessen. Dabei haben sie ältere und einfachere Modelle, aber auch moderne Varianten wie das oben angesprochene Transformer-Modell eingesetzt.

Sie untersuchten, wie lange verschiedene Algorithmen brauchen, um ein Verständnis der Regelmässigkeiten in den verschiedenen Sprachen zu entwickeln. Die Studie ergab, dass die Textmenge, die ein Algorithmus verarbeiten muss, um eine Sprache zu erlernen – also Vorhersagen darüber zu treffen, was als nächstes folgt – von Sprache zu Sprache unterschiedlich ist. Dabei zeigte sich, dass es Sprachalgorithmen tendenziell schwerer fällt, Sprachen mit vielen Muttersprachler/-innen zu erlernen, im Vergleich zu Sprachen, die von einer kleineren Sprecherzahl repräsentiert werden.

So einfach, wie diese Idee zu Beginn klingen mag, ist es aber doch nicht. Denn um wirklich sicherzugehen, dass Unterschiede in der Erlernbarkeit von Sprachen bestehen, müssen einige Dinge beachtet werden. Die Herausforderung liegt darin, dass Sprachen, die verwandt sind (z.B. Deutsch und Schwedisch) sich in vielen Aspekten viel ähnlicher sind als Sprachen, die sich verwandtschaftlich ferner sind (z.B. Deutsch und Thai).

Doch nicht nur der Verwandtschaftsgrad von Sprachen muss kontrolliert werden, sondern auch andere Effekte wie die geographische Nähe zwischen zwei Sprachen oder die Qualität des Textmaterials, das zum Training verwendet wird. „In unserer Studie haben wir deshalb verschiedene Methoden aus der angewandten Statistik und dem maschinellen Lernen verwendet, um etwaige Einflussfaktoren möglichst streng kontrollieren zu können“, erklärt Sascha Wolfer, einer der beiden Autoren der Studie.

Unabhängig von der verwendeten Methode und über verschiedene Textsorten hinweg zeigte sich für die untersuchten Sprachmodelle eine stabile statistische Korrelation zwischen maschineller Erlernbarkeit und Grösse der Sprecherpopulation. „Das Ergebnis hat uns wirklich überrascht, aufgrund des bisherigen Forschungsstands hätten wir eigentlich eher das Gegenteil erwartet, also dass Sprachen mit grösserer Sprecherpopulation eher leichter maschinell erlernbar sind“, sagt Alexander Koplenig, Hauptautor der Studie.

Über die Gründe für den Zusammenhang kann deshalb bisher nur spekuliert werden. In einer vorherigen Studie des Forscherteams zeigte sich etwa, dass grössere Sprachen auch insgesamt komplexer sind. Es könnte also sein, dass sich der vermehrte Lernaufwand „lohnt“, wenn Menschen Sprache lernen: Denn hat man einmal eine komplexe Sprache erlernt, hat man vielfältigere sprachliche Ausdrucksmöglichkeiten zur Verfügung, die es erlauben könnten, den gleichen Inhalt in kürzerer Form auszudrücken.

Um diese (oder andere) Erklärungen zu überprüfen, ist aber noch weitere Forschung nötig. „Wir stehen hier noch relativ am Anfang“, betont Koplenig. „In einem nächsten Schritt gilt es herauszufinden, ob und inwieweit sich unsere Ergebnisse für maschinelles Lernen überhaupt auf menschlichen Spracherwerb übertragen lassen.“

«fricktal24.ch – die Online-Zeitung fürs Fricktal
zur Festigung und Bereicherung des Wissens»

<- Zurück zu: Forschung und Technik

Forschung und Technik

Freitag, 26. Juli

Essensverzicht schadet beim Versuch, Gewicht zu verlieren

Hungern kann langfristig übermässiges Essen begünstigen: Es bringt das Langzeitgedächtnis dazu, eine erhöhte Kohlenhydrataufnahme als besonders belohnend abzuspeichern.

[mehr]

Schweiz

Donnerstag, 25. Juli

Brustkrebs-Charakterisierung mit KI

Forschende des Paul Scherrer Instituts PSI und des Massachusetts Institute of Technology MIT nutzen künstliche Intelligenz, um die Einordnung von Brustkrebs zu verbessern.

[mehr]

Forschung und Technik

Mittwoch, 24. Juli

Der Embryo baut sich selbst

Biologische Prozesse ähneln Puzzles, bei denen sich Teile zusammenfügen und interagieren. Unter bestimmten Umständen können sie ohne externen Input etwas Neues schaffen. Dies wird als Selbstorganisation bezeichnet und lässt sich...

[mehr]

Forschung und Technik

Samstag, 20. Juli

Influenzaviren können zwei Eintrittspforten nutzen

Die meisten Influenzaviren dringen über eine spezifische Struktur auf der Oberfläche in menschliche und tierische Zellen ein. Menschliche Grippeviren und das verwandte Vogelgrippevirus des Subtyps H2N2 nutzen aber noch eine...

[mehr]

Forschung und Technik

Donnerstag, 18. Juli

Mehr Erdbeben durch menschengemachten Klimawandel

Steigende Meeresspiegel erhöhen den mechanischen Druck im Gefüge tektonischer Platten und führen zu Änderungen in den seismischen Zyklen – mit steigender Erdbebengefahr insbesondere in den Küstenregionen der Welt. Das...

[mehr]

lokale informationen

spezial

service

mein.fricktal24.ch

Häufig gesprochene Sprachen - schwerer erlernbar für Maschinen

Essensverzicht schadet beim Versuch, Gewicht zu verlieren

Brustkrebs-Charakterisierung mit KI

Der Embryo baut sich selbst

Influenzaviren können zwei Eintrittspforten nutzen

Mehr Erdbeben durch menschengemachten Klimawandel