Hinter den spektakulären Erfolgen von KI-Anwendungen wie ChatGPT stehen hochleistungsfähige Sprachmodelle: Large Language Models (LLMs). In diesem Beitrag erklären wir, wie LLMs funktionieren, wie die GPT-Modelle entstanden sind – und wie Sie am besten von ihren Fähigkeiten profitieren können.
Was sind Sprachmodelle?
Generative KI-Sprachmodelle, also KI-Modelle, die Sprache nicht nur verarbeiten („verstehen“), sondern auch erzeugen können, sind ein Ergebnis der sogenannten NLP-Forschung (Natural Language Processing) zur Verarbeitung natürlicher Sprache durch Maschinen. Denn unsere Sprachen sind das Mittel, mit dem wir am effizientesten kommunizieren können – nicht nur untereinander, sondern auch mit Maschinen (siehe Google Assistant oder Alexa).
Die derzeit leistungsfähigsten KI-Sprachmodelle sind sogenannte große Sprachmodelle bzw. Large Language Models (LLMs). LLMs sind umfangreiche Deep-Learning-Modelle auf der Basis tiefer neuronaler Netze, die häufig Millionen oder sogar Milliarden Parameter (anpassbare Gewichtungen von Knoten bzw. „Neuronen“) umfassen. Zudem wurden sie mit großen Mengen an Textdaten trainiert, die meist aus dem Internet stammen. Durch deren Analyse können sie komplizierte Muster erfassen und statistisch modellieren, die syntaktische Sprachstrukturen, aber auch semantische Beziehungen zwischen Wörtern widerspiegeln. LLMs können so eine Vielzahl von sprachlichen Aufgaben lösen, von Textanalysen (Kategorisierung, Sentimentanalyse) über Zusammenfassungen und Übersetzungen bis hin zur Generierung von Produkttexten oder Blogartikeln. Ihr Output ist auf den ersten Blick oft kaum noch von dem menschlicher Autoren zu unterscheiden.
GPT-X: Die Transformer-Sprachmodelle von OpenAI
Zu den bekanntesten LLMs gehören die GPT-Modelle des amerikanischen Unternehmens OpenAI – die Technologie hinter dem bekannten Chatbot ChatGPT. (Mehr Infos zu OpenAI finden Sie in diesem Blogbeitrag.)
„GPT“ steht für „Generative Pre-Trained Transformer“ und erklärt damit bereits das Prinzip: Die Modelle erlangen ihre hohe Leistungsfähigkeit und Vielseitigkeit durch sehr aufwendiges Vortraining (Pre-Training) und sie nutzen dafür die sogenannte „Transformer“-Architektur.
Das Transformer-Prinzip für das Deep Learning von LLMs (bzw. allgemein von Modellen, die Sequenzen verarbeiten) wurde 2017 von Google-Forschern vorgestellt. Sein Kernkonzept heißt „Attention“ und orientiert sich am Mechanismus der Aufmerksamkeit in kognitiven Systemen. Dank des Attention-Mechanismus zeigen Transformer bessere Performance als frühere Modelle und benötigen anders als diese keine komplexen und ressourcenfressenden Netzwerkarchitekturen wie RNNs (Recurrent Neural Networks) oder CNNs (Convolutional Neural Networks).
Diese Architektur hat die NLP-Forschung revolutioniert und wird beim Training vieler moderner Sprachmodelle verwendet. Das erste vortrainierte Transformer-Modell war OpenAIs GPT (2018). Es kombinierte die Transformer-Architektur mit einem teilüberwachten Trainingsansatz: ein unüberwachtes Pre-Training, gefolgt von einer Feinabstimmung mit präparierten (gelabelten) Daten für spezifische Aufgaben. Dieses Prinzip erleichterte die Anpassung des Modells an andere, nicht speziell trainierte Aufgaben.
Die Nachfolger-Modelle der GPT-Reihe waren vor allem eines: immer größer. GPT-2 von 2019 hatte zehnmal mehr Parameter als GPT-1 (1,5 Milliarden) und wurde mit 40 Gigabyte Daten (8 Millionen Webseiten) trainiert, GPT-3 (2020) hatte unvorstellbare 175 Milliarden Parameter und 570 Gigabyte Trainingsdaten. Wie sich zeigte, ermöglichte diese Skalierung zum Teil aufsehenerregende Leistungen bei einer wachsenden Vielzahl von Aufgaben.
Sprache und Code
GPT-3 erzeugte nicht nur nahezu fehlerfreie Texte (in sprachlicher Hinsicht – inhaltlich sind KI-Modelle bis heute nicht perfekt). Das Modell kann bei entsprechendem Training auch mit Programmcode umgehen. 2021 erschienen die ersten auf Code spezialisierten GPT-3-Modelle, genannt „Codex“. Codex wurde vielfach kritisiert, unter anderem wegen gravierender Programmfehler. Seit März 2023 kennzeichnet OpenAI die Codex-Modelle als veraltet (deprecated) und verweist auf seine neuen Chat-Modelle, die ohne spezielles Training Ähnliches leisten sollen (dazu gleich mehr).
Microsoft – größter Geldgeber von OpenAI – hat 2020 GPT-3 exklusiv lizenziert und nutzt GPT-X seitdem in diversen seiner Produkte, unter anderem auch seinen „Copilot“ KI-Assistenten. Einer der ersten war 2021 der Github Copilot auf der Basis von Codex. Er übersetzt in natürlicher Sprache vorgegebene Aufgaben in Code und soll die Arbeit von Entwicklern erleichtern und beschleunigen. Seit März 2023 ist der neue Github Copilot X mit GPT-4 erhältlich.
Immer vielseitiger: InstructGPT, ChatGPT und GPT-4
Die GPT-3-Modelle wurden trainiert, Benutzereingaben (Prompts) zu vervollständigen, was ihre Bedienung umständlich und ihre Ergebnisse oft unbefriedigend machte. Die Nachfolger-Modelle, von OpenAI InstructGPT genannt, werden stattdessen mithilfe menschlichen Feedbacks darauf trainiert, Instruktionen umzusetzen. Bereits die erste Generation von InstructGPT von Anfang 2022, GPT-3.5, generierte so mit deutlich weniger Parametern relevanteren Output mit weniger Fehlern. Zudem unterzieht OpenAI seine Modelle nach dem Training jetzt auch einem „Alignment“-Prozess, um Faktentreue und „erwünschtes Verhalten“ zu fördern.
Ende 2022 erschien mit ChatGPT eine für Chats optimierte Version von GPT 3.5. Im März 2023 folgten zwei weitere chatfähige Modelle, GPT-3.5-Turbo sowie GPT-4, die beide besonders effizient aufgabenunabhängig lernen und ohne viel Training neue Tasks beherrschen. GPT-4 zeigt laut OpenAI bei diversen Prüfungen Leistungen auf menschlichem Niveau. Es ist zudem als „multimodales“ Modell konzipiert, das neben Text- auch Bilder-Input verarbeiten kann – diese Funktion ist aber noch nicht verfügbar (Stand August 2023).
Übrigens bietet OpenAI neben GPT-X noch eine Reihe weiterer KI-Modelle an. Für Unternehmen interessant sind vor allem Whisper (Spracherkennung), DALL·E (Bild-Generierung nach Textbeschreibungen) und CLIP (gleichzeitig trainiert mit Bilddaten und zugehörigen Beschreibungen).
Azure OpenAI Service
Wer die innovativen KI-Modelle von OpenAI produktiv nutzen will, sollte einen Blick auf den Azure OpenAI Service werfen. Azure OpenAI ist Teil von Azure KI – Microsofts Portfolio von Cloud-Diensten für KI-Anwendungen, das neben Infrastruktur-Services für Machine Learning und Bereitstellung sowie zahlreichen Entwickler-Tools auch vortrainierte KI-Modelle für verschiedene Aufgaben bietet.
Hier stellt Microsoft Azure-Kunden exklusiv die aktuellen OpenAI-Modelle einschließlich ChatGPT und GPT-4 sowie seit Juli 2023 auch LLaMA von Meta zur Verfügung – und das wie von Azure gewohnt in einer für die Unternehmensnutzung optimierten Weise und mit umfangreichen Compliance-, Datenschutz- und Sicherheitsfunktionen. Warum Unternehmenskunden dem Azure OpenAI Service für produktive KI-Anwendungen den Vorzug vor OpenAI selbst geben sollten, erklären wir ebenfalls im schon erwähnten Blogbeitrag „Azure OpenAI Service: Hintergründe, Leistungen und Vorteile gegenüber OpenAI“.
Sie möchten mehr über die Themen Künstliche Intelligenz, maschinelles Kernen, KI-Sprachmodelle, Azure KI und Azure OpenAI Service erfahren?
Dann legen wir Ihnen diese beiden Whitepapers ans Herz:
Finden Sie heraus, wie Sie KI erfolgreich in Ihrem Unternehmen einsetzen können!
Wenn Sie an unserem SoftwareOne Internal Knowledge Management & AI Workshop teilnehmen, erhalten Sie das Wissen und die strategischen Einblicke, die Sie benötigen, um KI erfolgreich in Ihrem Unternehmen einzusetzen. Gemeinsam werden wir die Grundlagen von Big Data und KI erkunden und Ihnen konkrete Schritte und Best Practices für den Einsatz von KI als wertvolles Werkzeug zur Steigerung der Unternehmensleistung an die Hand geben.
Finden Sie heraus, wie Sie KI erfolgreich in Ihrem Unternehmen einsetzen können!
Wenn Sie an unserem SoftwareOne Internal Knowledge Management & AI Workshop teilnehmen, erhalten Sie das Wissen und die strategischen Einblicke, die Sie benötigen, um KI erfolgreich in Ihrem Unternehmen einzusetzen. Gemeinsam werden wir die Grundlagen von Big Data und KI erkunden und Ihnen konkrete Schritte und Best Practices für den Einsatz von KI als wertvolles Werkzeug zur Steigerung der Unternehmensleistung an die Hand geben.