4.44 min branja

Kako pripraviti podatke na GenAI

A young man in a blue shirt is smiling.
Wiktor ZdzienickiGlobal Practice Manager, Data and AI
blue and pink light wave on black background

Razmišljate o uvedbi generativne umetne inteligence (GenAI) v svoji organizaciji? Preden začnete, preučite nabore podatkov, ki jih boste uporabljali za usposabljanje modelov, in se prepričajte, da imajo kakovost, funkcije, varnostne ukrepe in skalabilnost, ki jih potrebujete za optimizacijo rezultatov umetne inteligence.

Odkar je bilo konec leta 2022 predstavljeno OpenAI orodje za generativno umetno inteligenco (GenAI) ChatGPT, so organizacije vseh vrst začele preučevati načine za vključitev njenih zmožnosti v svoje izdelke, storitve in vsakodnevno poslovanje. Danes hitro rastoča paleta GenAI orodij podjetjem omogoča samodejno pisanje kopij za spletne strani in tržno-komunikacijska besedila, ustvarjanje slik in videoposnetkov, generiranje programske kode, analiziranje podatkov, izvajanje raziskav in še veliko več.

Za razliko od tradicionalnih aplikacij umetne inteligence orodja GenAI niso usposobljena z uporabo specifičnih podatkov za specifične naloge, temveč so zgrajena na podlagi temeljnih modelov, ki uporabljajo veliko količino raznolikih podatkov - ne le besed, temveč tudi slik, videoposnetkov, zvoka in drugih vrst informacij. Te velike količine podatkov za usposabljanje omogočajo GenAI orodjem, ki jih poganjajo, da ustvarijo natančne odgovore na skoraj vsako zahtevo ali pa občasno podajo napačne odgovore.

Da bi povečali možnosti za prvi rezultat in zmanjšali možnosti za drugega, je pomembno, da svoj temeljni model gradite na visokokakovostnih podatkih in najboljših praksah.

    Kakovost in predobdelava podatkov

    Čeprav se temeljni modeli usposabljajo na širšem naboru podatkov, kot se uporabljajo za posamezne naloge aplikacij umetne inteligence, morajo biti vaši podatki za usposabljanje pomembni za težave, ki jih želite rešiti z GenAI. Zato morate črpati iz istih virov podatkov, ki bi jih vaši zaposleni uporabili za iskanje odgovorov, ki jih potrebujejo.

    Ko boste te vire določili, boste morali te podatke preveriti in predhodno obdelati, da se prepričate, da so točni, zanesljivi in preverljivi. Zagotoviti morate tudi, da so dobro shranjeni (najbolje v oblaku), varni in ustrezno vključeni v sisteme, ki jih uporabljate. Glede na vrsto podatkov boste morda morali tudi očistiti ali posodobiti datoteke, preoblikovati formate elementov, spremeniti velikost slik ali opraviti druge popravke. Poleg tega je treba preveriti manjkajoče vrednosti in podatkovne vrzeli ter jih po potrebi zapolniti z dodajanjem novih informacij iz drugih virov podatkov.

    Sinteza podatkov

    Inženiring značilnosti vključuje manipulacijo ali pridobivanje informacij iz obstoječih neobdelanih podatkov, da bi ustvarili nove vrste spremenljivk ali podatkovnih nizov, ki bodo prebavljivi za temeljni model, ki ga uporabljate. Kako boste upravljali ta postopek, je odvisno od tega, kaj želite doseči z uporabo GenAI.

    Predstavljajte si, da želite izdelati orodje za napovedovanje povpraševanja po sobah za goste v velikem letoviškem kompleksu. Vaš učni model bo moral vključevati ključne značilnosti, kot so vrste razpoložljivih sob, cena na nočitev, sezonske akcije, dolžina bivanja, kdaj in koliko vnaprej gostje običajno rezervirajo sobe itd. Morda pa boste želeli nekatere od teh podatkov še dodatno prilagoditi - ali je na primer več spletnih rezervacij opravljenih pozno zvečer ali ob koncih tedna? Z uporabo bolj podrobnega pogleda na datum in čas rezervacij izboljšate svojo zmožnost prepoznavanja vzorcev in natančnejšega napovedovanja.

    Ali pa recimo, da želite uporabiti GenAI za samodejno ustvarjanje spletnih vsebin v drugem jeziku na podlagi obstoječih vsebin v angleškem jeziku na vašem spletnem mestu. Preizkusiti boste morali različne iskalne izraze in vprašanja, ki jih bodo verjetno uporabili vaši ne angleško govoreči uporabniki, po možnosti ob podpori maternih govorcev, ki razumejo vaše ciljno občinstvo. Dobro načrtovanje funkcij pomeni, da je treba razmisliti o tem, kakšne informacije bodo iskali vaši uporabniki GenAI in katere podatkovne zbirke bodo potrebne za ustvarjanje uporabnih in natančnih odgovorov. Pri tem boste morda morali pridobiti mnenja strokovnjakov s tega področja, da bi zagotovili rezultate, ki temeljijo na dejstvih in so ustrezni.

    Zasebnost in varnost podatkov

    Ne glede na vrsto GenAI orodja, ki ga uporabljate, morate razumeti morebitne posledice za zasebnost in varnost podatkov. Nekatera orodja GenAI, namenjena potrošnikom, na primer opozarjajo, da se lahko podatki, ki jih vnesejo uporabniki, uporabijo za usposabljanje modelov v prihodnosti. Zato se morajo uporabniki izogibati posredovanju zahtev, ki vsebujejo občutljive, lastniške ali zaupne informacije. Tudi orodja, ki so že na voljo, lahko glede na regije, v katerih delujejo, upoštevajo različne zahteve glede prebivališča in zasebnosti podatkov.

    Družba Gartner je v nedavni raziskavi ugotovila, da 70 % vodij, pristojnih za pravne zadeve, skladnost in zasebnost, meni, da bo GenAI v naslednjih dveh letih predstavljal največjo skrb. Skupina analitikov pa pravi, da napredne tehnologije, kot sta GenAI in oblak, spodbujajo povečano porabo na področju varnosti in upravljanja tveganj, ki naj bi se po napovedih leta 2024 povečala za 14 % na 215 milijard dolarjev.

    Napoveduje tudi, da bo do leta 2026 zaradi tako dobrih ponaredkov umetne inteligence 30 % organizacij menilo, da zgolj obrazna biometrija ne bo zanesljiva pri preverjanju in potrjevanju identitete.

    Ne glede na to, ali uporabljate orodje GenAI, ki ga je razvil tretji ponudnik, ali razvijate lastno orodje, upoštevajte najboljše prakse za varno in odgovorno umetno inteligenco. Med ključnimi previdnostnimi ukrepi, ki jih morate sprejeti: skrbno preglejte in preverite svoje podatke, razumite, kaj vaša tehnologija zmore in česa ne zmore, za kaj jo smete in česa ne smete uporabljati, redno preizkušajte svoje vhodne podatke, modele, sisteme in rezultate ter jih po potrebi prilagodite, da izboljšate rezultate.

    Skaliranje za GenAI

    Na koncu se prepričajte, da lahko izbrane tehnologije obdelujejo velike podatkovne nize, ki so potrebni za učinkovite GenAI aplikacije, in da jih je mogoče po potrebi razširiti, ko se vaše potrebe razvijajo in rastejo. Zlasti pri obdelavi podatkov so rešitve v oblaku primernejše od lokalnih sistemov.

    Pri razvoju GenAI aplikacij morate podatke za usposabljanje pripraviti tako, da lahko optimizirate rezultate umetne inteligence in zmanjšate tveganje za "halucinacije" umetne inteligence. SoftwareOne vas lahko podpre s storitvami svetovanja, platform in rešitev ter našo metodologijo Intelligence Fabric, ki je zasnovana za doseganje uspeha, ki temelji na podatkih in AI.

    White and gray blocks forming a pattern

    Izvedite, kaj lahko umetna inteligenca naredi za vas

    SoftwareOne demistificira umetno inteligenco in pomaga vaši ekipi razumeti vrednost in tveganja ter pragmatično opredeli zmogljivosti, ki jih vaša organizacija potrebuje za sprejetje praks, ki temeljijo na podatkih, ter razširitev analitike in umetne inteligence.

    Izvedite, kaj lahko umetna inteligenca naredi za vas

    SoftwareOne demistificira umetno inteligenco in pomaga vaši ekipi razumeti vrednost in tveganja ter pragmatično opredeli zmogljivosti, ki jih vaša organizacija potrebuje za sprejetje praks, ki temeljijo na podatkih, ter razširitev analitike in umetne inteligence.

    Avtor

    A young man in a blue shirt is smiling.

    Wiktor Zdzienicki
    Global Practice Manager, Data and AI