Data Science beschleunigt die Welt.
Wir synchronisieren Ihr Unternehmen.
10.02.2025 | Künstliche Intelligenz, Maschinelles Lernen
Das kleine (oder große?) Glossar der KI-Chatbots
Künstliche Intelligenz, Generative AI, Chatbots… das sind ganz klar Trendthemen, die in nahezu allen Unternehmen aktuell auf der Liste ganz weit oben stehen. Doch im Rausch immer neuer Angebote, Software-Tools und Sprachmodellen geht manchmal unter, was eigentlich in den verschiedenen Lösungen steckt. In diesem Blogbeitrag möchten wir einen kleinen Überblick darüber geben, welche Konzepte und Technologien es gibt und wie Sie diese mehrwertstiftend in Ihren Arbeitsalltag integrieren können.
Große Sprachmodelle (LLMs)
Das Herzstück der modernen KI-Chatbots sind große Sprachmodelle oder Large Language Models (LLMs). Die bekanntesten Modelle sind OpenAI’s GPT, Meta’s Llama oder auch DeepSeek R1. Die Technologie der Sprachmodelle baut auf Ansätzen auf, die es seit einigen Jahren gibt: Anhand von großen Mengen an Texten werden Zusammenhänge von Wörtern, Silben und Zeichen abgeleitet. Diese Modelle bilden Sprache und indirekt Bedeutung ab und können dann für verschiedene Zwecke eingesetzt werden. Vor einigen Jahren ging es dabei um ganz konkrete Anwendungsfälle, wie Textklassifikation, Sentiment-Erkennung oder Übersetzungen.
Doch durch immer mehr Textdaten als Datengrundlage und immer größere Modelle, wurden diese Ansätze nicht nur genauer (z.B. indem sie auch Bedeutungen im Kontext eines Satzes unterscheiden konnten), sondern auch dazu fähig grammatikalisch korrekte Sätze zu (re)konstruieren. Das war der Beginn der textlichen Generativen KI, der im Wesentlichen bereits mit GPT-3 begann.
Mehr zum Thema Sprachverarbeitung?
In unserem Blogbeitrag zum Thema Word Embeddings tauchen wir in die Grundlagen dieser innovativen Technik ein, die es Maschinen ermöglicht, Wörter und deren Bedeutungen in einem semantischen Kontext zu erfassen. Dort erfahren Sie, wie Word Embeddings die Leistung von KI-Anwendungen verbessern und welche Auswirkungen sie auf die Zukunft der Kommunikation haben.
Transformer-Architektur: Der Motor hinter modernen Sprachmodellen
Die wichtigste Technologie, die wesentlich zur rasanten Entwicklung der großen Sprachmodelle beigetragen hat, ist die Transformer-Architektur: Eine besonders pfiffige Art eines Neuronales Netzwerks, das ein effizientes und effektives Training von Sprachmodellen mit einer sehr großen Anzahl an Texten ermöglicht. Daher auch der Name „GPT“: Generative Pretrained Transformer.
Diese Ansätze entwickeln sich derzeit rapide: Es vergeht keine Woche, in der nicht ein neues Sprachmodell verfügbar wird, das in bestimmten Details besser, schneller oder ressourceneffizienter ist.
Doch auch wenn diese Modelle bereits jetzt schon den großen KI-Hype weiter befeuert haben und völlig revolutionäre Möglichkeiten erahnen lassen, sind es doch vor allem sehr gute Papageien, denn diese Modelle reproduzieren in erster Linie sprachliche Zusammenhänge aus den Trainingsdaten. Da diese Trainingsdaten aber fast das gesamte menschliche Wissen (sofern es im Internet verfügbar ist) abbilden und von sehr vielen menschlichen Unterstützern immer weiter optimiert wurden, können die Modelle auch ziemlich intelligent erscheinende Sätze von sich geben.
Offene Ansätze vs. geschlossene Systeme
Zwischen den Sprachmodellen gibt es außerdem einige Unterscheide. So bietet OpenAI zwar die eigenen GPT-Modelle auch zur Nutzung an – wie genau die Modelle entwickelt wurden, behält OpenAI aber für sich. So kann niemand GPT-Modelle selbst betreiben. Meta und DeepSeek hingegen veröffentlichen die Details ihrer Modelle (in unterschiedlichem Umfang), so dass es auch für andere Personen und Unternehmen möglich ist, die Modelle in einer vollständig isolierten Umgebung zu betreiben.
Andererseits ist GPT so allgemein trainiert, dass es nahezu jede Frage beantworten kann (wobei man sagen muss, dass Sprachmodelle immer eine Antwort geben, egal ob sie richtig ist oder nicht), es gibt aber auch Sprachmodelle, die für ganz besondere Einsätze trainiert wurden. Diese spezialisierten Modelle können dann in ihrem Bereich deutlich bessere und zuverlässigere Antworten geben als ein generisches Modell, sind dafür aber weniger zuverlässig in fremden Bereichen.
ChatGPT, Claude.ai und andere Chatbots
Während die Sprachmodelle das Herzstück sind, bekommen die meisten User von diesen Modellen nur indirekt etwas mit. Angebote wie ChatGPT, Claude.ai oder auch Copilot sind Tools, die im Kern Sprachmodelle verwenden, aber vor allem ein User-Interface präsentieren, das die Fähigkeiten des Sprachmodells nutzbar macht. Diese Unterscheidung ist wichtig, denn nicht alles, was diese Tools anbieten, ist ausschließlich eine Fähigkeit des Sprachmodells.
Beispielsweise die „Memory“-Funktionalität von ChatGPT, mit der das Modell aus vergangenen Unterhaltungen Wissen über den Nutzenden aufbaut, das in zukünftigen Unterhaltungen verwendet werden kann. Diese Funktion ist keine Eigenschaft des zugrunde liegenden Sprachmodells (das ist weitestgehend statisch und lernt zunächst nicht selbstständig hinzu), sondern ein Feature der Software. Zwar unterstützt das Sprachmodell bei der Extraktion von relevanten Informationen aus der Unterhaltung, aber es ist die Software „ChatGPT“, die dieses Wissen sammelt und in Unterhaltungen als Kontextinformationen bereitstellt.
Eine Analogie dazu: Es ist nicht die CPU bzw. der Prozessor Ihres Computers, der es Ihnen ermöglicht, das Internet zu durchsuchen, sondern Software (wie zum Beispiel Ihr Webbrowser) und einige weitere Komponenten (zum Beispiel Ihr WLAN-Modul im Computer).
Tool Calling
Wie bereits erwähnt liegt der Fokus von Sprachmodellen vor allem auf der textlichen Sprache. So können Unterhaltungen entstehen, die Sie in Chatbots führen können. Doch „unter der Haube“ gibt es noch einige Kniffe, die dazu beigetragen haben, dass auch Software-Entwickler zunehmend LLMs in ihre Produkte integrieren und sich völlig neue Anwendungsgebiete eröffnen.
Ein entscheidender erster Schritt bestand darin, den Sprachmodellen zu vermitteln, dass sie nicht nur Texte generieren, sondern auch Werkzeuge einsetzen können. Letztlich bleibt es dabei, dass das LLM einen Text erstellt – jedoch einen Text, der ausdrückt: „Ich möchte das Tool XY verwenden.“
Mögliche Tools sind zum Beispiel eine Suche im Internet: Das LLM bekommt eine Frage vom User, die wahrscheinlich eine Suche bei Google erfordert. Es ruft also das Tool “Google Suche” auf, bekommt Ergebnisse zurück und berücksichtigt die konkreten Inhalte in der Antwort. Durch die Integration von Tools wird es möglich, dass feste Logiken oder Prozesse von einer Software übernommen werden, die außerhalb des LLM funktionieren. Dies reduziert Halluzinationen und ermöglicht dem LLM zuverlässiger Informationen zu erhalten.
Retrieval Augmented Generation (RAG)
Der Ansatz des Tool Callings wurde weiterentwickelt, weil sich Entwickler die Frage gestellt haben, wie sie umfangreiches Faktenwissen in das LLM einbeziehen können. Denn zwar haben die Sprachmodelle durch die Vielzahl an Trainingsdaten auch Faktenwissen gelernt, dieses wird aber nicht immer zuverlässig wiedergegeben. Und enthält natürlich auch kein spezialisiertes Wissen aus beispielsweise internen Dokumentationen.
Die Retrieval Augmented Generation (kurz RAG) ist ein Konzept, bei dem zu einer Anfrage des Users relevante Textdokumente in internen Datenbanken gesucht und als Kontext dem LLM zur Beantwortung einer Frage zur Verfügung gestellt werden. So bezieht ein LLM konkrete Informationen aus einer Datenbank mit Faktenwissen bei der Antwort mit ein.
Dieser RAG-Ansatz liegt den allermeisten „Chat with your data“ und „Chat with your documents“-Lösungen zugrunde. Jedoch basiert er in den allermeisten Fällen auf textlichen Daten – für quantitative Daten wie beispielsweise Befragungsdaten, Tabellenbände, Marktdaten oder dergleichen eignet sich dieser Ansatz üblicherweise nicht. Zwar ist das Konzept grundsätzlich auch hier relevant, aber es bedarf verbesserter Lösungen, die die Struktur und Systematik der quantitativen Daten besser berücksichtigen.
Agentic AI
Als wäre der Hype um ChatGPT nicht genug gewesen, ist seit einiger Zeit das Thema „Agenten“ in aller Munde. Tatsächlich steckt hier sehr viel Potential für künftige Anwendungen drin, aber vor allem verbindet es die zuvor angesprochenen Ansätze in nützlicher Art und Weise.
Die ersten Versuche, große Sprachmodelle (LLMs) für Automatisierungen zu nutzen, basierten darauf, gute Fragen oder Anweisungen („Prompts“) zu formulieren, damit das LLM selbst die notwendigen Schritte zur Zielerreichung findet. Das klappt manchmal bei einfachen Aufgaben, aber bei komplexeren Situationen sind die vielen (Antwort-) Möglichkeiten oft zu groß. Jetzt gibt es einzelne Agenten, die bestimmte Aufgaben übernehmen und miteinander arbeiten. So können Lösungen entwickelt werden, die von diesen Agenten selbstständig unter Verwendung der Sprachmodelle erarbeitet werden.
Einfach erklärt: So arbeiten KI-Agenten zusammen für die perfekte Antwort
Klingt kompliziert? Hier ein konkretes Beispiel zur Vereinfachung: Wie oben beschrieben ist die Abfrage quantitativer Daten zur Beantwortung von Nutzerfragen nicht immer ganz einfach. Die Zusammenarbeit mehrerer Agenten kann hier aber helfen, das Problem handhabbar zu machen und deutlich bessere Ergebnisse zu erhalten. Stellen wir uns vor, wir möchten die Frage „Wie hat sich meine Markenbekanntheit in den letzten 3 Jahren entwickelt?“ mittels einer KI beantworten.
Hierfür benötigen wir mehrere Agenten, die für die Beantwortung der Frage zusammenarbeiten und ihre Ergebnisse untereinander teilen. Abhängig von den Ergebnissen der einzelnen Agenten, werden die Agenten miteinander verbunden und anschließend eine finale Antwort erstellt.
- Wir haben z.B. einen Agenten, dessen Aufgabe es ist, die quantitativen Daten zu dieser Frage in einer Datenbank zu finden. Hierfür erhält der Agent einerseits die Anfrage des Users, andererseits aber auch die Datenquellen, die in der Datenbank hinterlegt sind. Mit diesen Informationen ist es die Aufgabe des Agenten, genau die Datenpunkte zu finden, die für die Frage relevant sind. Im Ergebnis liefert der Agent die gefunden Daten als Tabelle, die dann weiterverarbeitet werden kann.
- Ein zweiter Agent ist verantwortlich für die sprachliche Beantwortung der Frage. Hierzu erhält der Agent die Frage des Users nach der Markenbekanntheit sowie die tabellarischen Daten des vorherigen Agenten. Das heißt, der zweite Agent muss selbst keine Daten mehr suchen, sondern kann sich auf eine umfassende Beantwortung der Frage konzentrieren, zum Beispiel durch Nutzung eines Reasoning-Modells wie DeepSeek R1.
- Möglicherweise ist neben der textlichen Antwort auch ein Diagramm gewünscht. Hier könnte ein dritter Agent dafür optimiert sein, aus tabellarischen Daten und der dazugehörigen Frage ein Diagramm zu bauen, das die Frage optimal beantwortet.
Der User bekommt nach einigen Sekunden eine Antwort auf seine Frage, aber die drei optimierten Agenten haben alle dazu beigetragen, die Frage optimal zu beantworten.
Ausblick: KI und die Zukunft der datengetriebenen Entscheidungsfindung
Die Entwicklung der verschiedenen Technologien im Bereich der Sprachmodelle und KI-Lösungen ist rasant. Viele Ansätze, die es heute gibt, spielten vor drei oder vier Jahren noch keine Rolle. Und so fällt es oft auch schwer, die verschiedenen Ansätze zu verstehen und richtig einzuordnen. Doch die Technologie in wirklich relevante Anwendungen zu überführen, die tatsächliche Business-Probleme lösen, ist nochmal eine andere Herausforderung.
Viele unserer Kundinnen und Kunden verfügen über wertvolle Daten aus verschiedensten Quellen, die nur darauf warten, analysiert und strategisch genutzt zu werden. Mit unseren Data Stacks schaffen wir die ideale Grundlage, um diese Daten effizient auszuwerten und gewinnbringend einzusetzen.
Doch was ist mit den unbeachteten Daten, die sich in Ihrem Fundus befinden? Hier kommen KI-Tools und insbesondere KI-Agenten ins Spiel, die Ihnen neue Wege eröffnen, um diese Informationen aktiv zu nutzen. Besonders spannend sind dabei Insights-Bots, die es ermöglichen analytisch tief in die eigenen Daten einzusteigen und dabei wertvolle Unterstützung durch KI zu erhalten.
Mit unserer Expertise in Marktforschung, Big Data und KI-Lösungen entwickeln wir maßgeschneiderte Ansätze für Unternehmen unterschiedlichster Branchen, um Insights-Bots effektiv in Ihre Datenanalysetools zu integrieren.
Ihr Ansprechpartner:
Christopher Harms
Gründer & Managing Director
Data-Science-News direkt in Ihr Postfach
Sobald wir einen Beitrag in unserem Blog veröffentlichen, schicken wir Ihnen gerne eine E-Mail. Und keine Sorge – wir mögen auch keinen Spam!
Auf der Datenwelle
Hier finden Sie unsere Events und Webinare für Data-Science-Enthusiasten.
Link zu: Webinare
AM 26. März 2025 14:00 Uhr
Webinar: Chatbot mit Fakten: Wie innovative Markenforschung erlebbar gemacht wird
Referent? Dr. Christopher Harms, Gründer & Managing Director, SKOPOS ELEMENTS.
Jetzt anmelden!
Folge einem manuell hinzugefügten Link
VERGANGENE WEBINARE
Vom Datensammeln zum Consulting
Ein Webinar darüber, wie Hassia mit Dashboards abteilungsübergreifend den Umgang mit Daten verändert