4.44 хв. читати

Як підготувати дані для GenAI

A young man in a blue shirt is smiling.
Wiktor ZdzienickiGlobal Practice Manager, Data and AI
blue and pink light wave on black background

Думаєте про впровадження генеративного штучного інтелекту (GenAI) у вашій організації? Перш ніж розпочати, перевірте набори даних, які ви використовуватимете для навчання своїх моделей, і переконайтеся, що їх якість, функції, запобіжні заходи та масштабованість достатні для оптимізації результатів ШІ.

З моменту запуску ChatGPT — генеративного сервісу штучного інтелекту від OpenAI, наприкінці 2022 року організації всіх типів почали вивчати способи впровадження його можливостей у свої продукти, послуги та щоденну роботу. Сьогодні різноманітність інструментів GenAI, що швидко розширюється, дозволяє компаніям автоматично писати тексти для веб-сайтів і маркетингу, створювати зображення та відео, генерувати програмний код, аналізувати дані, проводити дослідження та багато іншого.

На відміну від традиційних програм штучного інтелекту, інструменти GenAI не навчаються з використанням конкретних даних для конкретних завдань, а побудовані на базових моделях із використанням величезної кількості різноманітних даних — не лише слів, але й зображень, відео, аудіо та інших типів інформації. Ці великі масиви навчальних даних дозволяють інструментам GenAI, які вони використовують, генерувати точні відповіді майже на будь-який запит… або час від часу відповіді, які містять все ж таки неправду.

Якість даних і попередня обробка

Попри те, що базові моделі навчаються на ширшому діапазоні даних, ніж той, який використовується для програм штучного інтелекту для конкретних завдань, ваші навчальні дані мають відповідати проблемам, які ви хочете вирішити за допомогою GenAI. Це вимагає, щоб ви черпали дані з тих самих джерел даних, які використовували б ваші люди, щоб знайти потрібні їм відповіді. Після того, як ви визначите ці джерела, вам потрібно буде перевірити та попередньо обробити ці дані, щоб переконатися, що вони точні, надійні та такі, що їх можна перевірити. Ви також повинні переконатися, що вони добре зберігаються (в ідеалі, у хмарі), безпечно та належним чином інтегровані у системи, якими ви користуєтеся. Залежно від типу даних вам також може знадобитися очистити або оновити файли, переформатувати елементи, змінити розмір зображень або внести інші зміни. Крім того, важливо перевіряти відсутні значення та прогалини в даних і заповнювати їх за потреби, додаючи нову інформацію з інших джерел даних.

Синтез даних

Інжиніринг властивостей передбачає маніпулювання або вилучення інформації з наявних необроблених даних для створення нових типів змінних або наборів даних, які будуть сприйняті основною моделлю, яку ви використовуєте. Те, як ви керуєте цим процесом, залежатиме від того, чого ви прагнете досягти за допомогою GenAI.

Уявіть, що ви хочете створити інструмент для прогнозування попиту на номери у великому курортному комплексі. Ваша навчальна модель повинна включати ключові характеристики, такі як типи доступних номерів, ціна за ніч, сезонні акції, тривалість перебування, коли та наскільки заздалегідь гості зазвичай бронюють номери тощо. Але тоді ви можете додатково налаштувати деякі з цих даних – чи більше онлайн-бронювань робиться пізно ввечері, наприклад, чи у вихідні? Застосовуючи більш детальний огляд дати та часу бронювань, ви покращуєте свою здатність визначати закономірності та робити більш точні прогнози.

Або скажімо, ви хочете використовувати GenAI для автоматичного створення веб-контенту іншою мовою на основі наявного англомовного контенту на вашому сайті. Вам потрібно буде протестувати різні пошукові терміни та запитання, які, ймовірно, використовуватимуть ваші неангломовні користувачі, бажано за підтримки носіїв мови, які розуміють вашу цільову аудиторію. Хороший інжиніринг властивостей означає подумати про те, яку інформацію шукатимуть ваші користувачі GenAI і які набори даних знадобляться для отримання корисних і точних відповідей. Для цього вам може знадобитися звернутись до експертів у цій галузі, щоб отримати результати, які базуються на фактах і відповідають дійсності.

Конфіденційність і безпека даних

Який би інструмент GenAI ви не використовували, дуже важливо розуміти можливі наслідки для конфіденційності та безпеки даних. Наприклад, деякі інструменти GenAI, орієнтовані на споживачів, відзначають, що дані користувачів можуть використовуватися для майбутнього навчання моделі. Тому користувачі повинні уникати надсилання запитів, які містять конфіденційну, службову або приватну інформацію. Готові інструменти також можуть відповідати різним вимогам до постійності та конфіденційності даних залежно від регіонів, у яких вони працюють.

В нещодавньому опитувані Gartner виявив, що 70% керівників з юридичних питань, комплайнсу та конфіденційності вважають GenAI головною проблемою протягом наступних двох років. І група аналітиків каже, що передові технології, такі як GenAI та хмара, є рушійною силою збільшення витрат на безпеку та управління ризиками,

Також передбачається, що до 2026 року «АІ deepfakes» означатимуть що, 30% організацій не вважатимуть, що біометрія обличчя сама по собі є достатньо надійною для перевірки та автентифікації особи..

Незалежно від того, використовуєте ви сторонній інструмент GenAI чи розробляєте свій власний, обов’язково дотримуйтесь найкращих практик щодо безпечного та відповідального використання системи штучного інтелекту. Серед ключових запобіжних заходів, які ви повинні вжити: уважно переглядайте та перевіряйте свої дані; розумійте, що ваша технологія може, а що не може робити; для чого її слід і не слід використовувати; регулярно тестуйте свої вхідні дані, моделі, системи та виходи, коригуючи, як необхідно для покращення результатів.

Масштабування для GenAI

Нарешті, переконайтеся, що обрані вами технології можуть обробляти великі набори даних, необхідні для ефективних програм GenAI, і їх можна масштабувати відповідно до потреб, що розвиваються та зростають. Для обробки даних, зокрема, хмарні або розподілені обчислювальні рішення зазвичай є кращими у порівнянні з локальними системами.

Створення програм Gen AI з надійною базою вимагає від вас підготовку навчальних даних таким чином, щоб оптимізувати результати ШІ та мінімізувати ризики «deepfakes» ШІ.
SoftwareOne може підтримати вас консультаціями, сервісами рішень і платформи, а також нашою Intelligence Fabric методикою, що розроблена для досягнення успіху на основі Data & AI.

 

White and gray blocks forming a pattern

Дізнайтеся більше про те, що Штучний Інтелект може зробити для вас

SoftwareOne демістифікує штучний інтелект і допомагає вашій команді зрозуміти цінність і ризики, прагматично визначаючи можливості, необхідні вашій організації для впровадження керованих практик і масштабування аналітики та програми штучного інтелекту.

Зв’яжіться з нами сьогодні, щоб запланувати безкоштовну 1-годинну сесію для вас і вашої команди.

Дізнайтеся більше про те, що Штучний Інтелект може зробити для вас

SoftwareOne демістифікує штучний інтелект і допомагає вашій команді зрозуміти цінність і ризики, прагматично визначаючи можливості, необхідні вашій організації для впровадження керованих практик і масштабування аналітики та програми штучного інтелекту.

Зв’яжіться з нами сьогодні, щоб запланувати безкоштовну 1-годинну сесію для вас і вашої команди.

Автор

A young man in a blue shirt is smiling.

Wiktor Zdzienicki
Global Practice Manager, Data and AI