Die KI hinter den Videocalls mit Lilli
Wirf einen Blick hinter die Kulissen unseres immersiven Features für freies Sprechen.
Large Language Models (LLMs, dt. große Sprachmodelle) wie ChatGPT, Claude und Gemini wurden mit gigantischen Mengen an Sprachdaten trainiert, damit wir mit ihnen natürliche „Gespräche“ führen können. Sie für den Sprachunterricht einzusetzen ist allerdings nicht so einfach, denn es genügt nicht zu sagen: „Hey, sprich mit diesem Lernenden mal auf Spanisch!“
Um KI-gestützte Funktionen wie den Videocall mit Lilli zu entwickeln, können wir das Modell nicht einfach machen lassen, was es will. Stattdessen verwenden wir gezielte Anweisungen und eine vorgegebene Struktur (siehe unten), um sicherzustellen, dass die Anrufe stets unterhaltsam sind, eine Prise frechen Humor seitens Lilli enthalten – und natürlich die Gelegenheit bieten, in der Zielsprache Sprechen zu üben.
So bauen wir unsere Videocalls auf
Damit jeder Anruf lehrreich und unterhaltsam wird, müssen wir viele wichtige Punkte unter einen Hut bringen:
- Der Anruf muss dem passenden Niveau nach GER (engl. CEFR) entsprechen.
- Er muss einen Zweck haben, z. B. eine Geschichte erzählen, nach deiner Meinung fragen, dir etwas beibringen oder dir einfach nur die Möglichkeit bieten, etwas zu plaudern.
- Du sollst das Gefühl haben, der Anruf käme wirklich von Lilli, einem sarkastischen Emo-Teenager (Artikel auf Englisch) und nicht von einem KI-Chatbot.
Um das richtige Gleichgewicht zu finden, erstellen wir einen Prompt (also eine Aufeinanderfolge von Anweisung) für das LLM. Man kann sich den Prompt wie ein Gespräch mit drei Teilnehmern vorstellen:
- Assistent: Das ist Lilli, der KI-Bot, der auf das reagiert, was du als User sagst, und sich dabei an die Anweisungen des Systems hält.
- System: Dieses kann man sich als Coach des Assistenten vorstellen. Die Lernspezialisten von Duolingo schreiben die Anweisungen, die das System dem Assistenten (Lilli) gibt. In diesen Anweisungen steht, wie Lilli sich verhalten und was sie sagen soll.
- User: Das bist du – die lernende Person, die mit dem Assistenten (Lilli) interagiert.
In all unseren Videocalls geben wir dem System eine umfassende Reihe von Anweisungen dazu, wie Lilli sich verhalten soll. Diese enthalten Informationen über Lilli, ihre Persönlichkeit sowie ihren Hintergrund. Sie schreiben Lilli auch vor, wie sie dir helfen soll, wenn du beim Sprechen nicht weiterkommst, sie sorgen dafür, dass Lilli auf dem für dich passenden Niveau spricht usw.
Außerdem – und das ist sehr wichtig – geben wir einen grundlegenden Gesprächsleitfaden vor. Auch wenn jedes Gespräch mit Lilli einzigartig ist, folgen sie alle einem ähnlichen Aufbau:
Teil 1: Gesprächseröffnung
Das System sagt Lilli, wie sie das Gespräch beginnen soll. Das ist fast immer eine Begrüßung in der Lernsprache. Unsere Entwickler haben eine aufeinanderfolgende Reihe von Begrüßungen programmiert, die Lilli für jedes GER-Niveau durchläuft.
Teil 2: Erste Frage
Hier wird das Thema des Gesprächs eingeführt. Lilli könnte dir eine Frage über dich selbst stellen, ein früheres Thema wieder aufgreifen oder sagen, dass sie dir etwas über die Kultur deiner Lernsprache erzählen möchte.
Teil 3: Gespräch
Jetzt könnt ihr frei miteinander sprechen. Das System hat Lilli die Anweisung gegeben, darauf zu reagieren, was du sagst, und das Gespräch dann auf natürliche Weise weiterzuführen.
Teil 4: Gesprächsbeendigung
Das LLM wurde so programmiert, dass das System nach einer bestimmten Anzahl an Gesprächswechseln Lilli zuflüstert: „Hallo! Sag, dass du jetzt gehen musst.“ So wird verhindert, dass das Gespräch ewig weitergeht.
Hinter den Kulissen
Lillis Gedächtnis
Wenn du schon mehrere Videocalls mit Lilli hattest und sie dann Informationen aus vorigen Gesprächen erwähnt, fragst du dich vielleicht, wie Lilli sich das alles merkt. Ganz einfach: Jedes Mal, wenn Lilli auflegt, nehmen wir das Transkript des Calls, zeigen es dem Sprachmodell und fragen: „Welche wichtigen Informationen über den User können wir dem Gespräch entnehmen?“ Die gewonnenen Informationen werden dann in eine Faktenliste aufgenommen. Diese aktualisierte Liste wird Teil der Anweisungen, die das System Lilli beim nächsten Anruf gibt.
Noch bevor Lilli anfängt zu sprechen, sagt das System also: „Erinnerst du dich noch an diesen User? Hier ist eine Faktenliste: Die Person besitzt zwei Hunde, studiert Architektur und isst am liebsten Pizza.“ Also könnte Lilli sagen: „Wie geht’s deinen Hunden?“ oder „Hast du in letzter Zeit eine gute Pizza gegessen?“, um im Gespräch ein persönliches Element herbeizuzaubern.
Die Erstellung der ersten Frage
Die erste Frage ist ein wichtiger Ausgangspunkt für das Gespräch. Sie muss gut gewählt sein: Sie soll zu dem passen, was du gerade lernst, das richtige Schwierigkeitsniveau (Artikel auf Englisch) haben und die Grundlage für ein gutes Gespräch schaffen. Damit die Frage all diesen Anforderungen gerecht wird, schreiben wir ganz genaue Anweisungen speziell dafür, wie man eine gute Einstiegsfrage formuliert!
Das System formuliert die erste Frage genau in dem Moment, in dem der Videoanruf bei dir eingeht.
Vorbereitung des Gesprächs Hey, LLM! Schreibe eine Frage, die der Assistent Lilli dem User stellen kann.- Die Frage muss auf das GER-Niveau des Lerners abgestimmt sein.
- Die Frage muss die Wörter music (Musik) und like (mögen) beinhalten.
- Die Frage muss … (usw.)
„What kind of music do you like listening to?“ (Welche Art von Musik hörst du gern?)
Dann nehmen wir diese Frage aus der Vorbereitung des Gesprächs und geben sie an den Hauptteil des Gesprächs weiter, in dem das System Lilli vorschreibt, wie sie das Gespräch mit dir führen soll:
Hauptteil des Gesprächs Du bist Lilli und hier sind ein paar Informationen über dich:- Du bist weiblich und Teenager.
- Du bist sehr sarkastisch.
- Du bist introvertiert.
- Sie hat zwei Hunde.
- Sie studiert Architektur.
- Ihr Lieblingsessen ist Pizza.
Stelle anschließend die erste Frage: „What kind of music do you like listening to?“ (Welche Art von Musik hörst du gern?) Verstanden. Ich werde jetzt das Gespräch beginnen.
„Hey!“
Während wir das Feature Videocall entwickelten, erkannten wir, dass es wichtig ist, die erste Frage separat vom Rest schreiben zu lassen. Wenn wir die Anweisungen für die erste Frage zusammen mit den Anweisungen für den restlichen Gesprächsverlauf geben würden, könnten wir das LLM überfordern – mit dem Ergebnis, dass die Sätze zu komplex werden, oder dass das in der Gesprächsvorbereitung bereitgestellte Vokabular fehlt. Das ist in etwa so, als würde man dir gleich morgens fünfzig Aufgaben geben: Du würdest wahrscheinlich einige davon vergessen oder alle fünfzig nur halbherzig erledigen. Weil wir jedoch möchten, dass alles gründlich und durchdacht erledigt wird, bereiten wir die erste Frage separat vor.
Die Auswertung der Gespräche
Nicht nur die erste Frage ist wichtig – wir wollen natürlich auch, dass Lilli während des kompletten Gesprächs auf das Gesagte dynamisch reagiert!
Zu Beginn des Jahres sahen wir, dass die Lernenden manchmal nicht über das Thema sprechen wollten, auf das Lilli den Fokus legen sollte. Es konnte passieren, dass Lilli fragte: „Hast du schon mal von Schweizer Volksmusik gehört?“ und der Lerner antwortete: „Du wirst es nicht glauben, Lilli! Ich habe gerade den gesamten Spanischkurs abgeschlossen!“ Lilli antwortete dann: „Das ist schön. Zurück zur Schweizer Volksmusik, kennst du einige Lieder?“ 🫣
Damit die User die Gesprächsleitung übernehmen können, haben wir einen Zwischenschritt eingebaut, in dem wir fragen: „Scheint es, als wolle der User das Gespräch leiten? Wenn ja, ignoriere, worüber du ursprünglich sprechen wolltest.“ Wir sind zuversichtlich, dass dieser neue Schritt das Gespräch verbessert, da das Sprachmodell dann sogar während des Videoanrufs daran arbeitet, das Nutzererlebnis zu optimieren.
In der Auswertung während des Gesprächs analysiert das System, was du gesagt hast, und stellt Lilli gezielte Fragen, um das Gespräch interessant und im Fluss zu halten.
Auswertung während des Gesprächs Hey Lilli! Reagiere auf das, was der User gerade zu dir gesagt hat:- Hat der Lerner gerade über etwas gesprochen, das du magst? Wenn ja, dann reagiere positiv überrascht!
- Hat der Lerner etwas Unangemessenes gesagt? Wenn ja, dann leg jetzt auf!
- Scheint der Lerner verwirrt zu sein? Wenn ja, dann formuliere das um, was du gerade gesagt hast!
„Wow, I'm actually impressed. What’s your favorite song to play?” (Wow, ich bin beeindruckt. Welches Lied spielst du am liebsten?)
Intelligente Sprechübungen immer griffbereit
Das alles mag kompliziert erscheinen und das ist es auch! Während unser Team weiter tüftelt und die KI ständig neue Wege eröffnet, bringen wir Lilli bei, dich auf deinem Niveau abzuholen und dir zu helfen, Sprechpraxis zu sammeln – ganz ohne Druck!