4.44 minuten leestijd

Zo bereid je data voor op GenAI

SoftwareOne blog editorial team
Blog Redactie
blue and pink light wave on black background

Denk je erover generatieve AI (GenAI) binnen jouw organisatie te implementeren? Onderzoek eerst de datasets die je voor het trainen van jouw modellen gaat gebruiken en zorg dat ze de kwaliteit, functies, veiligheidsmaatregelen en schaalbaarheid hebben die nodig zijn voor optimale AI-resultaten.

Sinds de lancering van ChatGPT door OpenAI, eind 2022, onderzoeken organisaties hoe ze de mogelijkheden in hun producten, diensten en dagelijkse werkzaamheden kunnen opnemen. Het enorme aanbod aan GenAI-tools stelt organisaties in staat om automatisch content voor websites en marketing te schrijven, afbeeldingen en video’s te creëren, softwarecode te genereren, data te analyseren, onderzoek uit te voeren en zoveel meer.

In tegenstelling tot traditionele AI-applicaties worden GenAI-tools niet getraind om specifieke data voor specifieke taken te gebruiken. Ze zijn gebouwd op fundamentele modellen die gebruikmaken van een grote hoeveelheid gevarieerde data. Dit zijn niet alleen woorden, maar ook afbeeldingen, video, audio en andere soorten informatie. Deze grote hoeveelheden gegevens stellen de GenAI tools in staat om nauwkeurige, intelligent klinkende antwoorden te genereren op bijna elke vraag... of om af en toe antwoorden vol onwaarheden te “hallucineren”.

Om de kans op dat eerste te vergroten en de kansen op het tweede te verkleinen, is het belangrijk om jouw basis te bouwen op data van hoge kwaliteit en de best practices.

Kwaliteit van data en voorbewerking

Hoewel de basismodellen worden getraind met een groter bereik aan data dan dat wordt gebruikt voor taakspecifieke AI-applicaties, moeten jouw trainingsdata van toepassing zijn op de problemen die je wil oplossen met GenAI. Dit betekent dat je aan de slag gaat met dezelfde databronnen als die de mensen gebruiken wanneer ze op zoek gaan naar het antwoord op hun vraag.

Na het identificeren van deze bronnen moet je de data checken en voorbewerken zodat het accuraat, betrouwbaar en te verifiëren is. Je moet ervoor zorgen dat het goed opgeslagen is (idealiter in de cloud), veilig en op de juiste manier geïntegreerd is met de systemen die je gebruikt. Afhankelijk van het type data kan het zijn dat je bestanden moet opschonen of updaten, items in een ander formaat zetten, afbeeldingsformaten aanpassen of andere revisies uitvoeren. Daarnaast is het belangrijk om te checken of er waarden missen of hiaten in de data zitten en deze, indien nodig, te vullen met nieuwe informatie van andere databronnen.

Datasynthese

Het ontwerpen van functies gaat onder andere om het manipuleren of extraheren van informatie uit bestaande ruwe data. Zo vorm je nieuwe soorten variabelen of datasets die gebruikt kunnen worden in het basismodel dat je inzet. Hoe je dit proces beheert hangt af van het doel dat je met het gebruik van GenAI wil bereiken.

Stel je voor dat je een tool wil bouwen die de vraag naar gastenverblijven op een groot resortcomplex kan voorspellen. Jouw trainingsmodel zal onder andere belangrijke zaken als beschikbaarheid type kamers, de prijs per nacht, seizoenpromoties, verblijfsduur, wanneer en hoe lang van tevoren gasten boeken moeten bevatten. Maar dan kan het zijn dat je bepaalde data verder wil finetunen. Worden er laat in de avond of bijvoorbeeld in het weekend meer online boekingen gemaakt? Door een fijnmaziger inzicht toe te voegen van de datum en tijd van boekingen, verbeter je de mogelijkheden om patronen te herkennen en meer adequate voorspellingen te doen.

Misschien wil je GenAI gebruiken om automatisch online content te genereren in een andere taal. De basis hiervoor is de bestaande Engelstalige content op je website. Je moet daarvoor verschillende zoektermen en vragen uittesten die jouw niet-Engelstalige gebruikers waarschijnlijk zullen gebruiken om het beoogde publiek te begrijpen. Roep hiervoor bij voorkeur hulp in van iemand wiens moedertaal dit is. Een juist ontwerp betekent dat je nadenkt welke informatie jouw GenAI-gebruikers zullen zoeken en welke datasets nodig zijn om nuttige en juiste antwoorden te genereren. Dit kan betekenen dat je input moet zoeken van domeinexperts om te zorgen dat de resultaten kloppen, op feiten gebaseerd en relevant zijn.

Dataprivacy en -security

Welke GenAI-tool je ook gebruikt, het is essentieel om mogelijke implicaties voor dataprivacy en -security te begrijpen. Sommige klantgerichte GenAI-tools melden bijvoorbeeld dat input van gebruikers gebruikt kan worden voor toekomstige modeltraining. Daarom zouden gebruikers prompts met gevoelige, merk- of vertrouwelijke informatie moeten vermijden. Generieke tools kunnen ook verschillende datalocaties en privacyvereisten volgen, afhankelijk van de regio van waaruit ze opereren.

In een recent onderzoek ontdekte Gartner dat 70% van de juridische, compliance- en privacymanagers GenAI als een belangrijke zorg zien voor de komende twee jaar. De analystengroep zegt daarnaast dat geavanceerde technologieën zoals GenAI en cloud zorgen voor verhoogde kosten in security en risicomanagement. Naar verwachting groeien deze kosten met 14% tot $215 miljard in 2024.

Het voorspelt ook dat dat 30% van de organisaties in 2026 gezichtsbiometrie alleen niet meer betrouwbaar achten voor verificatie en authenticatie van identiteiten vanwege AI deepfakes.

Of je een GenAI-tool van een derde partij gebruikt of er zelf een ontwikkelt, zorg ervoor dat je de beste voorbeelden uit de praktijk volgt voor veilige en verantwoorde AI. Enkele van de belangrijkste voorzorgsmaatregelen die je zou moeten nemen: review en verifieer je data zorgvuldig, begrijp wat je technologie wel en niet kan en waar het wel en niet voor gebruikt zou moeten worden. Test je invoer, modellen, systemen en resultaten regelmatig en pas het aan waar nodig om resultaten te verbeteren.

Schalen voor GenAI

Zorg er tot slot voor dat de gekozen technologie met de grote datasets, benodigd voor effectieve GenAI-applicaties, kan omgaan. En schaal wanneer jouw behoeften veranderen en groeien. Zeker voor dataverwerking zijn cloudgebaseerde of gedistribueerde computeroplossingen over het algemeen te prefereren boven on-premise systemen.

Het bouwen van jouw GenAI-applicaties op een solide basis vereist dat je je trainingsdata zo voorbereid dat het jouw AI-resultaten kan optimaliseren en de risico’s van AI ‘hallucinaties’ te minimaliseren.

SoftwareOne ondersteunt je met advies-, platform- en oplossingsdiensten en onze Intelligence Fabric methode, ontwikkeld om datagedreven en AI-aangedreven successen te behalen.

White and gray blocks forming a pattern

Ontdek wat AI voor jou kan doen

SoftwareOne ontrafelt het mysterie van AI. We helpen je team de waarde en risico’s te begrijpen en definiëren pragmatisch de mogelijkheden die je organisatie nodig heeft om een datagedreven routine te omarmen en analyses en AI te schalen.

Neem vandaag nog contact op om een gratis AI-sessie van een uur te plannen voor jou en je team.

Ontdek wat AI voor jou kan doen

SoftwareOne ontrafelt het mysterie van AI. We helpen je team de waarde en risico’s te begrijpen en definiëren pragmatisch de mogelijkheden die je organisatie nodig heeft om een datagedreven routine te omarmen en analyses en AI te schalen.

Neem vandaag nog contact op om een gratis AI-sessie van een uur te plannen voor jou en je team.

Auteur

SoftwareOne blog editorial team

Blog Redactie

We analyseren de nieuwste IT-trends en brancherelevante innovaties om je op de hoogte te houden van de laatste technologie.