30.01.2024 19:49

Що таке вбудовування (embeddings) в машинному навчанні?

Вбудовування (embeddings) у машинному навчанні виступають як представлення значень або об’єктів, таких як текст, зображення та аудіо, що пристосовані для споживання моделями машинного навчання та алгоритмами семантичного пошуку. Вони, по суті, переводять об’єкти в математичну форму на основі притаманних їм ознак або факторів, а також категорій, до яких вони належать.

Що таке вбудовування?

На практиці вбудовування дозволяють моделям машинного навчання виявляти схожість між об’єктами. Наприклад, маючи фотографію або документ, модель, що використовує вбудовування, може ефективно знайти схожі фотографії або документи. Ця можливість випливає з того, що вбудовування полегшують розуміння зв’язків між словами та іншими об’єктами, що робить їх фундаментальними для додатків штучного інтелекту

Ось пояснення цієї концепції:

Уявіть собі картинку. Вона складається з мільйонів крихітних пікселів, кожен з яких має власне значення кольору. Комп’ютеру важко обробити таку величезну кількість інформації безпосередньо. Алгоритм вбудовування бере ці складні дані і відображає їх у набагато менший набір чисел, наприклад, 100-мірний вектор. Цей вектор фіксує основні характеристики вихідних даних, такі як загальні кольори, форми та взаємозв’язки між об’єктами на зображенні.

Що таке вектор у машинному навчанні?

Вектори відіграють важливу роль у математиці та машинному навчанні, слугуючи масивами чисел, які визначають точки у вимірному просторі. З практичної точки зору, вектор — це, по суті, список чисел, що представляють положення об’єкта вздовж заданих вимірів.

У сфері машинного навчання вектори уможливлюють пошук схожих об’єктів, дозволяючи алгоритмам знаходити два вектори, які знаходяться близько один до одного у векторній базі даних. Ця концепція стає зрозумілішою при розгляді реальних прикладів, таких як координати широти і довготи.

Широта і довгота слугують вимірами для визначення місця на Землі, де широта вказує на положення з півночі на південь, а довгота — на положення зі сходу на захід. Наприклад, місто Ванкувер у Канаді може бути представлене координатами широти і довготи: {49°15’40 “N, 123°06’50 “W}. Ця пара значень утворює простий вектор.

Тепер уявіть собі завдання знайти місто поблизу Ванкувера. Якщо людина може звернутися до карти, то модель машинного навчання може проаналізувати вектори широти та довготи різних локацій, щоб знайти ту, що схожа на Ванкувер. Наприклад, місто Бернабі має координати {49°16’N, 122°58’W}, які дуже близькі до координат Ванкувера. Розпізнаючи близькість цих векторів, модель робить правильний висновок, що Бернабі розташоване поблизу Ванкувера.

Додавання нових вимірів до векторів

А тепер уявіть, що ви намагаєтеся знайти місто, яке не лише розташоване близько до Ванкувера, але й має схожий розмір. До цієї моделі локацій додамо третій «вимір» до широти і довготи: кількість населення. Кількість населення можна додати до вектора кожного міста, а чисельність населення можна розглядати як вісь Z, а широту і довготу — як осі Y і X.

Вектор для Ванкувера тепер має вигляд {49°15’40″N, 123°06’50″W, 662,248*}. З додаванням цього третього виміру Бернабі вже не є особливо близьким до Ванкувера, оскільки його населення становить лише 249 125*. Натомість модель може знайти місто Сіетл, штат Вашингтон, США, яке має вектор {47°36’35 “N 122°19’59 “W, 749,256**}.

Це досить простий приклад того, як працюють вектори та пошук за схожістю. Але для того, щоб бути корисними, моделі машинного навчання можуть генерувати більше трьох вимірів, що призводить до набагато складніших векторів.

Вбудовування з багатовимірними векторами

Як ми вже обговорювали раніше, вбудовані дані в машинному навчанні — це, по суті, низьковимірні числові представлення складних, багатовимірних даних. Ці числові представлення зазвичай мають форму багатовимірних векторів, які схожі на координати, що точно визначають місцезнаходження даних у математичному просторі. Подібно до того, як звичайна карта має осі X і Y, ці вектори можуть мати кілька напрямків, кожен з яких представляє окрему характеристику або властивість даних. Наприклад, у випадку вбудовування слова один вимір може відображати сентимент слова (позитивний чи негативний), інший — його формальність (невимушений чи формальний) тощо.

Кількість вимірів (напрямків) у векторі залежить від складності даних і використовуваної моделі вбудовування. Для простих даних, таких як слова, може бути достатньо кількох сотень вимірів. Але для більш складних даних, таких як зображення або аудіо, можуть знадобитися тисячі або навіть мільйони вимірів, щоб охопити всі нюанси.

Значення у векторі відображають положення даних уздовж кожної осі. Вище значення на окремому вимірі може вказувати на сильнішу присутність цієї характеристики. Наприклад, слово з високим значенням на осі «настрої» може бути дуже позитивним, тоді як слово з низьким значенням може бути дуже негативним.

Близькість векторів у просторі вбудовування відображає зв’язки між точками даних. Слова зі схожими значеннями матимуть вектори, розташовані близько один до одного, тоді як слова з дуже різними значеннями матимуть вектори, розташовані далеко один від одного. Це дозволяє машинам вивчати взаємозв’язки і закономірності в даних, що має вирішальне значення для багатьох завдань машинного навчання.

Як нейронні мережі створюють вбудовування?

Нейронні мережі, основа глибинного навчання, побудовані таким чином, щоб імітувати взаємозв’язок нейронів у людському мозку. Подібно до того, як нейрони спілкуються за допомогою електричних імпульсів, віртуальні вузли нейронних мереж надсилають інформацію, коли їхні вхідні дані перевищують певний поріг.

Нейронні мережі складаються з декількох шарів: вхідного шару, вихідного шару та численних проміжних «прихованих» шарів. Ці приховані шари обробляють вхідні дані різними способами, залежно від архітектури мережі.

Створення вбудовувань зазвичай відбувається в одному з цих прихованих шарів. Розташований на початку послідовності мережі, шар вбудовування відповідає за створення векторних зображень вхідних даних. Візьмемо, наприклад, завдання рекомендувати телешоу. Замість того, щоб вручну визначати, де знаходиться кожне шоу в численних вимірах, шар вбудовування автономно вчиться враховувати основні характеристики кожного шоу у векторному представленні. Ці вбудовування кодують такі характеристики, як жанр, рік випуску та глядацькі рейтинги.

Після встановлення ці вбудовування обробляються наступними прихованими шарами, що дозволяє мережі розпізнавати подібності та закономірності між телешоу. Використовуючи цей аналіз на основі вбудовування, мережа може запропонувати інші шоу, які відповідають вподобанням глядачів.

Спочатку створення шару вбудовування вимагає ручного втручання. Програмісти надають нейромережі приклади для навчання, вказуючи їй, які виміри слід враховувати і як створювати змістовні вбудовування. З часом, коли мережа тренується на цих вхідних даних, рівень вбудовування стає вправним у створенні репрезентацій самостійно. Тим не менш, для оптимізації рекомендаційних можливостей моделі та підвищення точності може знадобитися постійне доопрацювання з боку спеціалістів.

Як вбудовування використовуються у великих мовних моделях (LLM)?

У великих мовних моделях (LLM) вбудовування відіграє більш складну роль. Крім окремих слів, вбудовується також контекст, що оточує кожне слово. Це означає, що не тільки самі слова представлені у векторній формі, але й значення цілих речень, абзаців або навіть довших фрагментів тексту можуть бути закодовані як вбудовування.

Такий підхід дозволяє LLM, таким як ChatGPT, розуміти не лише ізольоване значення кожного слова, але й взаємозв’язки між словами в певному контексті. Вловлюючи контекстуальні нюанси мови, LLM можуть генерувати більш точні та контекстуально релевантні відповіді на запити або підказки.

Хоча цей процес вимагає значних обчислювальних потужностей, зберігання контексту запитів у вигляді вкладених слів дає цінну перевагу. Після того, як вбудовування обчислені, їх можна зберегти і використовувати для майбутніх запитів, усуваючи необхідність повторно обчислювати контекст щоразу, коли робиться запит. Це не тільки економить час, але й зменшує обчислювальні ресурси, необхідні для наступних запитів, роблячи загальний процес більш ефективним.

Реальні приклади вбудовування у машинному навчанні

Ось лише кілька прикладів різноманітних способів використання вбудовувань у машинному навчанні. Оскільки ця галузь продовжує розвиватися, ми можемо очікувати, що в майбутньому з’являться ще більш прогресивні застосування.

Рекомендації Netflix: Netflix розуміє ваші уподобання щодо фільмів, створюючи вбудовування, що посилаються на слова з описів фільмів та імена акторів. Потім вони можуть порівнювати ці вбудовування з новими фільмами і рекомендувати ті, що схожі на ваші улюблені.
Пошук Google: Коли ви щось шукаєте, Google використовує вбудовування до речень, щоб зрозуміти контекст і семантичне значення вашого запиту. Це допомагає йому повертати релевантні результати, навіть якщо ви сформулювали запит нестандартно.
Безпілотні автомобілі: Ці автомобілі використовують вбудовування до зображень для ідентифікації об’єктів на дорозі. Вбудовані зображення дорожніх знаків, пішоходів та інших перешкод дозволяють автомобілю безпечно орієнтуватися і швидко приймати рішення.
Виявлення шахрайства: Фінансові установи використовують вбудовування до транзакцій для виявлення шахрайських дій. Аналізуючи закономірності у фінансових даних, вони можуть виявити підозрілі транзакції та запобігти збиткам.
Музичні рекомендаційні сервіси: Spotify та інші музичні сервіси використовують вбудовування до аудіо, щоб зрозуміти музичні особливості пісень, які ви слухаєте. Це дозволяє їм рекомендувати схожі пісні або створювати персоналізовані плейлисти на основі вашого смаку.
Чат-боти та віртуальні асистенти: Вбудовування дозволяють чат-ботам і віртуальним асистентам розуміти сенс ваших запитань і прохань, навіть якщо вони неформальні або неповні. Це дозволяє їм забезпечувати більш природну та корисну взаємодію.
Відкриття ліків: Дослідники використовують вбудовування до молекул для аналізу властивостей різних речовин і прогнозування їхнього потенціалу як кандидатів на створення ліків. Це може прискорити процес відкриття ліків і призвести до більш ефективного лікування.
Персоналізована стрічка новин: Такі платформи, як Facebook і Bluesky, використовують вбудовування до публікацій, щоб адаптувати вашу стрічку новин до ваших інтересів. Розуміючи зміст і настрій статей, вони можуть показувати вам новини, які, ймовірно, будуть для вас актуальними і цікавими.
Пошук продуктів і рекомендації: Інтернет-магазини використовують вбудовування до товарів, щоб зрозуміти особливості та атрибути різних продуктів. Це дозволяє їм показувати вам релевантні результати, коли ви щось шукаєте, і рекомендувати схожі продукти на основі ваших минулих покупок.
Виявлення загроз кібербезпеки: Системи кібербезпеки використовують вбудовування до мережевого трафіку для виявлення аномалій та потенційних загроз. Аналізуючи закономірності мережевої активності, вони можуть виявляти зловмисну діяльність і запобігати кібератакам.

Висновок

Якщо коротко, то вбудовування — це невидимі перекладачі, які перекладають машинні дані штучному інтелекту. Тепер машини нарешті можуть розуміти тонкі нюанси мови зображень, текстів і звуків. Поява таких можливостей відкриває безліч скриньок: персоналізоване навчання, прогнози щодо збереження клімату і, можливо, навіть чатботів, які насправді розуміють ваш сарказм. Попереду нас чекає світле майбутнє, де штучний інтелект, що підтримується вбудовуваннями, прокладає шлях до світу, де технології танцюватимуть у ритмі людських потреб.