5.54 Min. Lesezeit

Microsoft Copilot mit externen Daten

SoftwareOne blog editorial team
SoftwareOne RedaktionsteamTrend Scouts
custom-copilot-blog-blog-hero

Seit November 2023 ist Copilot für Microsoft 365 für Unternehmenskunden allgemein verfügbar. Etwa zur gleichen Zeit veröffentlichte Microsoft bereits einige spannende Untersuchungsergebnisse aus dem Copilot for Microsoft 365 Early Access Program. Sie belegen, dass Copilot Anwender produktiver, effizienter und kreativer machen kann: So sagen 73 Prozent der Befragten, sie könnten Aufgaben damit schneller erledigen, für 87 Prozent erleichtert Copilot den Einstieg in einen ersten Textentwurf mit Word, 64 Prozent verbringen weniger Zeit mit der Bearbeitung von E-Mails, 71 Prozent sparen Zeit bei alltäglichen Aufgaben und 75 Prozent insbesondere bei der Suche nach Dateien. 84 Prozent sagten, dass Copilot es für sie einfacher macht, nach einem Meeting zielführende Maßnahmen zu ergreifen.

custom-copilot-satisfaction-725
Effekte von Microsoft Copilot (Microsoft: Work Trend Index Special Report, November 2023): https://www.microsoft.com/en-us/worklab/work-trend-index/copilots-earliest-users-teach-us-about-generative-ai-at-work

Kontext-Daten steigern Leistung

Hinter diesen Erfolgen steht natürlich die Leistungsfähigkeit von großen KI-Sprachmodellen (Large Language Models, LLMs) wie GPT-4, die mit riesigen Datenmengen vortrainiert werden und so lernen, Inhalte zu verstehen, zusammenzufassen, vorherzusagen und zu generieren. Doch dahinter steckt noch mehr: Microsoft gelingt es, die Leistung von LLMs noch einmal erheblich zu steigern. Die Methode: Die KI erhält (auf kontrollierte und sichere Weise) Zugang zu den Daten und Dokumenten einer Organisation, die für die Anwender und ihre Aufgabenstellungen besonders relevant sind. Damit wird das KI-Modell in der Unternehmensrealität „geerdet“ („Grounding“), was die Qualität seiner Antworten weiter verbessert.

In einem früheren Blogbeitrag über das „Copilot-System“ haben wir erklärt, wie das grundsätzlich funktioniert: wie Microsoft die bekannten Beschränkungen von KI-Modellen (irrelevante, veraltete, unangemessene oder falsche Antworten, „Halluzinationen“) überwindet und welche Rolle das sogenannte „Prompt Engineering“ dabei spielt. Unser Tipp an Sie lautete: Machen Sie Copilot relevante, aktuelle Daten zugänglich. Heute soll es darum gehen, was Sie dazu wissen und beachten sollten.

Das Prinzip: Retrieval-Augmented Generation

Im genannten Artikel wurde es schon kurz erwähnt: Das Prinzip hinter Microsofts KI-Grounding-Technik für Copilot heißt „Retrieval-Augmented Generation“, kurz RAG. Weil es für die Datennutzung durch Copilot essenziell ist, wollen wir heute etwas ausführlicher darauf eingehen.
Das „Generation“ in RAG bezieht sich auf die Antworten eines LLMs: Deren Generierung soll verstärkt bzw. verbessert werden („Augmentation“), und zwar durch den Abruf („Retrieval“) von relevanten und aktuellen Informationen. 

RAG kombiniert damit die Stärken von generativen LLMs und von Systemen, die Wissen abrufbar speichern. Denn LLMs können zwar eine Vielzahl allgemeiner Aufgaben lösen, werden aber dabei schnell ungenau, weil sie ihr beim Training erworbenes Wissen nur implizit (über die Gewichtung ihrer Parameter im neuronalen Netzwerk) speichern können. Das macht es auch schwer, nachzuvollziehen, wie genau ein LLM zu seiner Antwort gelangt. Abfragebasierte Systeme (stellen Sie sich zum Beispiel die Wikipedia vor) antworten dagegen sehr exakt und geben Quellen dafür an, können aber nichts selbst generieren – sie geben nur wieder, was jemand irgendwann einmal eingegeben hat.
 
Tatsächlich haben die Erfinder des Begriffs „Retrieval Augmented Generation“ ein generatives Sprachmodell mit Informationen aus Wikipedia ergänzt und damit seine Leistung bei wissensintensiven Aufgaben erheblich verbessert. Genauer wird dabei eine User-Anfrage zunächst an ein Retrieval-KI-Modell übergeben, welches dafür passende Textfragmente aus Wikipedia-Artikeln heraussucht, diese gewichtet und die relevantesten als Kontext für die Anfrage zusammen mit dieser an das LLM weiterleitet (siehe Abbildung).
custom-copilot-blog-g1
RAG mit eigenen Daten (Quelle: https://learn.microsoft.com/en-us/azure/ai-studio/concepts/retrieval-augmented-generation)

Datenquellen für Microsoft Copilot 

Auch Sie könnten Ihre Copilots mit Wikipedia verknüpfen. Noch nützlicher aber ist es, der Copilot-KI unternehmenseigene Dokumente aus dem Arbeitsalltag Ihrer Anwender zugänglich zu machen. Denn nur dann verfügt sie auch über den notwendigen Kontext, um Anfragen Ihrer Anwender richtig zu verstehen und wirklich nützliche Hilfestellungen zu liefern.
Die Daten für RAG erhält Copilot über den Microsoft Graph. Diese Plattform sorgt in Microsoft 365 und der Microsoft Cloud für den sicheren und performanten Datenzugriff. Standardmäßig sind damit für Copilot bereits sämtliche Daten der M365-Anwendungen verfügbar, die die der anfragende Anwender in seinem Berechtigungskontext nutzen darf, etwa Office-Dokumente, E-Mails oder SharePoint-Seiten.

Stellen Sie sich vor, Copilot soll für Sie das letzte Meeting in Teams zusammenfassen. Das Tool wertet dafür dann nicht nur die Sprachaufzeichnung der Besprechung inkl. Chatverlauf aus, es kann auch zugehörige Dokumente, Termine oder E-Mails analysieren, die etwa von den Teilnehmern kürzlich an Sie gesendet wurden. Damit kennt Copilot den Kontext einzelner Besprechungsthemen, macht weniger Fehler bei der Zusammenfassung und kann gegebenenfalls relevantere Folgemaßnahmen vorschlagen.

Auch auf externe Daten – außerhalb der Microsoft Cloud – kann über Microsoft Graph zugegriffen werden. Denn natürlich gehören zum Arbeitskontext Ihrer Anwender auch Daten aus ERP-, CRM-, Personal- oder Projektmanagementsystemen, Dokumente in Azure-Speicherressourcen und vieles mehr. Um solche externen Systeme anzubinden, müssen sogenannte Konnektoren für Microsoft Graph eingerichtet werden. Microsoft bietet bereits diverse sofort einsatzbereite Graph-Konnektoren für populäre Verbindungen an, zum Beispiel zu Salesforce, Jira, Confluence oder SQL-Datenbanken. Über eine API können zudem benutzerdefinierte Konnektoren erstellt werden. Darüber hinaus ist eine wachsende Zahl von Third-Party-Konnektoren verfügbar, derzeit bereits über 100.

Ein Index auch für Ihre Daten 

Eine weitere Möglichkeit, eigene Daten und Funktionen für Copilot bereitzustellen, sind Plugins, die Webdienste über ihre API ansprechen. Plugins erlauben den Echtzeitzugriff auf bestimmte Daten, haben aber auch einen nicht zu unterschätzenden Nachteil: Sie erlauben keine unkomplizierte Indizierung. 

Die bloße Anbindung an Datenquellen reicht für KI-Anwendungen noch nicht aus, denn die jeweils benötigten Informationen müssen in Sekundenbruchteilen gefunden und abgerufen werden können. Dafür sorgt Indizierung. Bei der oben erwähnten ersten Vorstellung von Retrieval-Augmented Generation wurde für die angebundenen Wikipedia-Artikel ein Vektor-Index erzeugt, denn vektorbasierte Indizes eignen sich gut dafür, die Bedeutung von Textsegmenten zu erfassen und zu vergleichen. Das funktioniert auch für Ihre Unternehmensdaten: Daten- bzw. Textfragmente aus Ihren Dokumenten werden bis hinunter auf Wortebene in mehrdimensionale numerische Repräsentationen umgewandelt (auch Vektoreinbettungen genannt). Bei einer Suchanfrage vergleicht die Retrieval-KI die numerische Ähnlichkeit („Entfernung“) zwischen der vektorisierten Anfrage und den Vektoreinbettungen von Dokumenten und erfasst damit auch semantische Ähnlichkeiten zwischen den entsprechenden Textpassagen.

custom-copilot-blog-g2
RAG mit eigenem Index (Quelle: https://learn.microsoft.com/en-us/azure/ai-studio/concepts/retrieval-augmented-generation)

Auch das Copilot-System nutzt die Vektor-Indizierung. Das erfolgt mit Hilfe von Semantic Index. Dieser Index ergänzt die herkömmliche Indizierung durch Microsoft Graph – Volltext-Keywordsuche plus userbezogene Signale – durch Vektoreinbettungen. 

Kurz: Machen Sie mithilfe der Zugriffsberechtigungen Ihrer Anwender und gegebenenfalls über Konnektoren bestimmte Daten und Dokumente in Microsoft Graph zugänglich, dann kann auch Copilot diese nutzen und es steht dafür neben der Volltextsuche auch der Vektor-Index zur Verfügung. Nutzen Sie dagegen Plugins, können Sie deren Daten im Standard nur abrufen, aber nicht ohne technische Tricks über Microsoft Search indizieren.

Fazit: Eigene Daten für Copilot nutzen

Wie Sie sehen, haben Sie diverse Möglichkeiten, Copilot eigene Daten zur Verfügung zu stellen und das Werkzeug damit auf Ihre Anforderungen zuzuschneiden. Damit stehen Ihnen mächtige Funktionen zur Verfügung – aber es sind auch entsprechende Vorkehrungen nötig, damit Informationen nicht den falschen Personen zugänglich gemacht werden oder die KI für ihre Antworten Daten verwendet, die dafür nicht bestimmt sind. Weiterführende Hinweise zur sicheren Datennutzung in Copilot finden Sie in unserem Blogartikel Vorbereitungen für Copilot: Alles dreht sich um Daten.

custom-copilot-blog-cta-banner

Künstliche Intelligenz vorantreiben

Kontaktieren Sie unsere Experten, um einen Beratungstermin zum Thema KI für Sie und Ihr Team zu vereinbaren.

Künstliche Intelligenz vorantreiben

Kontaktieren Sie unsere Experten, um einen Beratungstermin zum Thema KI für Sie und Ihr Team zu vereinbaren.

Author

SoftwareOne blog editorial team

SoftwareOne Redaktionsteam
Trend Scouts

IT Trends und branchenbezogene Neuigkeiten