ChatGPT und Bard verblüffen damit, wie gut sie Texte und teilweise sogar Sprache generieren. Was beide nicht können: gesprochene Sprache verstehen. Das hat einen Grund: Zuhören und begreifen, was ein Mensch sagt und was er damit meint, ist viel schwieriger. Genau das beherrschen KI-Sprachdialogsysteme. Es geht künftig darum, beides zusammenzufügen.
(Quelle: Sutthiphong - Adobe Stock)
Sprachdialogsysteme der Zukunft: ChatGPT und Bard generieren auf Anfragen wie „Schreibe einen Artikel über Marbella aus der Sicht eines Touristen“ einen ziemlich guten Text, den man bislang einer KI nicht zugetraut hätte. Doch in Wirklichkeit ist das Ergebnis kaum mehr als ein gekürzter Wikipedia-Artikel. Bei der Frage „Welche jüngsten Entdeckungen des James Webb Space Teleskops kann ich meinem neunjährigen Kind erzählen?“ patzt der Google-KI Bard bereits: Das Ergebnis liest sich plausibel, ist aber teilweise schlichtweg falsch.
Der steinige Weg der Sprachdialogsysteme
Indes: Alle diese generativen KI-Systeme werden künftig immer besser werden. Zudem bietet es sich an, sie mit Sprachausgabe zu versehen, so dass man sich vermeintlich mit der KI (fast) wie mit einem Menschen unterhalten kann. Doch das täuscht: Bei der Eingabe sind nämlich in allen Fällen die Stichworte, um die es geht, sehr präzise anzugeben, bevor ein einigermaßen vernünftiger Text erzeugt und gegebenenfalls vorgelesen wird. In einer völlig anderen KI-Liga bewegt sich das Verstehen dessen, was ein Mensch von sich gibt. Dazu ein Beispiel: Wenn jemand bei einer Versicherung anruft und erzählt, dass seine Katze auf das Sofa des Nachbarn gesprungen ist und dieses zerkratzt hat, dann muss die KI erkennen, dass er weder über Katzen noch über Sofas und auch nicht über seinen Nachbarn sprechen will, sondern einen Schadensfall meldet, den seiner Meinung nach seine Haftpflichtversicherung begleichen soll.
Moderne Sprachdialogsysteme auf KI-Basis verstehen das. Der Unterschied ist offensichtlich: Bei ChatGPT und Bard fallen alle relevanten Begriffe wie „Marbella, Tourist, James Webb Space Teleskop, neunjähriges Kind“, aber bei dem Anruf gehen alle verwendeten Worte an dem vorbei, was er meint, obgleich er es gar nicht ausspricht. Anhand dieses Beispiels wird deutlich, warum die in Sprachdialogsystemen verwendete KI viel weiter reichen muss als bei den bloßen KI-Textgeneratoren. Hinzu kommt: Menschen drücken sich sehr unterschiedlich aus und sprechen zudem ein breites Spektrum an Dialekten.
Kombilösungen aus Spracherkennung und KI-Ausgabe
Daher ergänzen sich generative Ansätze wie ChatGPT und Sprachdialogsysteme, die gesprochene Sprache verstehen und interpretieren können. In der Zukunft sind Kombilösungen zu erwarten, von der Stimmerkennung bis zur Ausgabe richtiger Informationen. Doch der Reihe nach. Bevor ein Sprachdialogsystem in einem Unternehmen in Betrieb geht, muss es trainiert werden. Manche Hersteller versuchen dazu, vorab zu erahnen, was Anrufer wohl alles sagen könnten, und programmieren diese Annahmen in ihre Systeme ein. Doch dabei liegt die Fehlerhäufigkeit sehr hoch, weil sich viele Menschen eben nicht so ausdrücken, wie man es erwartet.
Besser funktioniert ein anderer Weg: Durch eine Auswertung aller Telefonate über mehrere Wochen hinweg erfährt das System, was Anrufer wirklich sagen und was sie damit meinen. Darüber hinaus wird zusätzlich eine umfangreiche Fachwörterdatenbank aufgebaut, in der sowohl das typische Fachvokabular der Branche als auch alle spezifischen Begriffe des jeweiligen Unternehmens aufgenommen werden.
Kostenersparnis von 40 Prozent durch KI-Erkennung
Weiterhin werden firmenspezifische Kategorien festgelegt, worum es den Anrufern geht. Dabei handelt es sich um sogenannte „Intents“, also Absichten. In welche Kategorie fällt das Anliegen? Kreditkarte sperren, Hotelzimmer reservieren, Flug buchen, Bestellung aufgeben, Rabattaktion in Anspruch nehmen, den Wartungsdienst beauftragen… Erst wenn alle diese Schritte durchlaufen sind, wird ein Sprachdialogsystem bei einem Unternehmen eine Verstehensquote von 85 Prozent oder mehr aufweisen. Um das in betriebswirtschaftliche Zahlen zu fassen: Wenn die KI bei 85 Prozent der Anrufe den Intent korrekt erkennt und zum richtigen (menschlichen) Ansprechpartner durchstellt, ergibt sich allein dadurch für ein Unternehmen im Durchschnitt eine Kostenersparnis in der Größenordnung von 40 Prozent, weil der Anrufer nicht „durch die Firma geistert“.
Neue Sprachdialogsysteme: Erst nach der Erkennung kommt die Antwort
Erst nachdem die KI erkannt hat, was der Anrufer will, könnten künftig Systeme wie ChatGPT oder Bard zum Einsatz kommen. Dazu muss das Fehlerpotenzial der heutigen KI-Generatoren allerdings noch deutlich gesenkt werden. Die Lösung wird darin liegen, die Antworten nicht in den Untiefen des WWW zu suchen, sondern in firmenspezifischen Datenbanken. Denn nur dort kann ein Unternehmen sicherstellen, dass ausschließlich richtige Antworten abgelegt sind.
Es wird noch ein weiter Weg sein, bis KI-Systeme, die Sprache verstehen, reibungslos mit KI-Systemen, die Antworten generieren können, zusammenarbeiten. Solange hilft im ersten Fall nur, nach der Intent-Erkennung zum richtigen (menschlichen) Ansprechpartner durchzustellen. Und im zweiten Fall werden wir uns noch länger damit abfinden müssen, dass nicht alles, was die KI-Generatoren erzeugen, auch wahr ist, selbst wenn es noch so gut formuliert ist.
Stand: 16.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die WIN-Verlag GmbH & Co. KG, Chiemgaustraße 148, 81549 München einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://kontakt.vogel.de/de/win abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
(Bild: Spitch)
Der Autor Jörg Rebell ist Presales Manager Business Development DACH bei Spitch.